Как сделать текстовый анализ по семантическому ядру

Текстовый анализ страницы по семантическому ядру позволяет найти слова и фразы, которых нет на странице, но из структуры семантического ядра предполагается их наличие. При добавлении таких слов и фраз на страницу, можно увеличить позиции и релевантность страницы по всем запросам страницы (кластера).

Алгоритм:

Берем все запросы из семантического ядра, которые ведут на анализируемую страницу. Интересуют любые запросы, даже пустышки. Где брать:
1. Из своего семантического ядра
2. Из сервисов наподобие keys.so, посмотреть по каким запросам показывалась страница
Если запросов мало, то можно выгрузить из keys.so связанные с главным ключом запросы.
Анализируем все выгруженные запросы на 1 и 2 n-gramm’ы (n-грамм — это последовательность элементов)
Проверяем вхождение найденных n-gramm на нашу страницу
Внимание! В запросах могут быть нецелевые слова, например бренды конкурентов. Не включать в анализ фразы, которых по логике и здравому смыслу не нужно добавлять на страницу.
Используем полученную информацию для составления ТЗ

Например:

Хотим проанализировать страницу по клинингу после потопа.

Я собрал запросы из семантики и взял связанные запросы из keys.so:

Далее в сервисе https://coolakov.ru/tools/ngrams/

Анализирую с такими параметрами:

Можно использовать и другие сервисы для n-gramm анализа. Суть в том, что нам надо посчитать все 2-граммы. А сервис Кулакова делает еще очень удобную штуку: у биграмм с предлогами он убирает предлоги и оставляет только слово.

то есть вместо биграмм:

после залива
залива после

он покажет нам только:

залива

но покажет такие важные биграммы как “просушка потолка” и т.п.

Теперь нам нужно скопировать найденные N-граммы. Можно скопировать таблицу в Excel и выбрать фразы там, либо использовать какой-нибудь скрейпер таблиц, например Instant Data Scraper:

копируем таблицу с помощью Instat data scraper

Обратить внимание на слова, которые повторяются реже всего, там могут быть нецелевые слова, их нужно сразу удалить! Это особенно актуально, если брали дополняющие запросы из сервисов. Там всегда есть нецелевые фразы, но их мало и соответственно в n-gramm анализ они тоже попадут с малым числом повторов.

С полученным списком n-грамм идем в сервис проверки вхождений:

https://miratext.ru/keywords-checker

Указываем там страницу или текст для анализа, а наши слова и фразы вставляем в поле “Любое вхождение” и при поиске разрешим пересечение вхождений (т.к. нам важно только вхождение на страницу хотя бы один раз)

указываем страницу для анализа и вставляем фразы в поле для любых вхождений

В итоге мы находим слова и биграммы, которых не хватает на странице:

Как раз в данном примере видно, что в запросы попало название какой-то компании или центра, такой запрос потом не надо добавлять в ТЗ копирайтеру!

Сохраняем себе не найденные фразы для составления ТЗ:

Составление ТЗ для копирайтера

Следующим этапом составляем техническое задание для копирайтера. Если копирайтер уже в доску свой, то обычно достаточно скинуть фразы, т.к. процесс обычно один и тот же: дописываем в текст новые слова или добавляем новые блоки текста.