Сбор семантики: источники, расширение, чистка

Разбираем, где брать запросы для семантики, как расширять список без мусора и как чистить семантику, чтобы она превращалась в структуру страниц, а не в бесконечный файл ключей.

Зачем вообще делить работу на “источники - расширение - чистка”

Если собрать запросы “как получится”, вы почти всегда получите одну из проблем:

список огромный, но половина не подходит по интенту (а значит не дает результата)
список маленький и слишком очевидный (а значит вы упускаете спрос и формулировки)
запросы есть, но они не превращаются в понятную структуру страниц (а значит внедрять нечего)

Правильная логика простая:

берем запросы из нескольких источников
расширяем список контролируемо (по смысловым группам, а не бесконечными синонимами)
чистим и нормализуем, чтобы дальше можно было кластеризовать и строить карту релевантности

Источники запросов: где брать семантику

Надежнее всего работает смесь двух типов источников:

фактические данные - как люди уже ищут ваш сайт или ваши объявления
исследовательские источники - как люди ищут тему в целом

Источник	Когда особенно полезен	Что дает	Важные ограничения
Google Search Console	если сайт уже имеет показы	реальные запросы, страницы, CTR, позиции, динамика	данные только по тому, что уже показано в поиске
Яндекс Вебмастер	если сайт уже ранжируется в Яндексе	реальные запросы и страницы, видимость	охват ограничен текущей видимостью
Яндекс Wordstat	почти всегда, особенно под RU-сегмент	частотности и формулировки, расширение хвоста	частотка - запросы вводились в поиске Яндекс, важна региональность и сезонность
Google Ads Keyword Planner	если нужен Google и международка	идеи запросов, вариации, ориентиры по спросу	часто дает диапазоны, цифры зависят от настроек аккаунта
Отчеты по поисковым запросам в рекламе (Google Ads / Яндекс Директ)	если уже есть реклама	реальные поисковые фразы, которые приводят лиды	нужен доступ к рекламному кабинету и корректная структура кампаний
Подсказки и похожие запросы в Яндекс / Google	быстрый способ расширить формулировки	живые варианты, вопросы, хвост	много шума, нужно чистить по смыслу
Анализ конкурентов (сервисы, парсинг выдачи)	когда сайт новый или мало данных	какие темы и страницы приводят трафик конкурентам	важно фильтровать, конкуренты тоже ошибаются
Внутренний поиск по сайту	если на сайте есть поиск	что люди ищут уже у вас, как формулируют	нужен сбор логов/событий, иначе данных нет
CRM, коллтрекинг, чаты, обращения	если есть продажи/поддержка	язык клиента, реальные формулировки, боли	не даст частотности, но даст смысл и расширение
Маркетплейсы и каталоги (для e-com)	если товары типовые, много моделей	запросы по моделям, характеристикам, формулировки	нужно отделять “маркетплейсный” интент от “сайтового”
Внешние SEO-сервисы и базы запросов	когда нужен быстрый охват темы и есть явные лидеры	идеи запросов, хвост, связки «запрос → страница», частотности	данные зависят от источников и обновления; много шума - обязательна чистка и проверка интента

Сервисы для сбора семантики

Keys.so ARSENKIN TOOLS Пиксель Тулс

1) Google Search Console и Яндекс Вебмастер

Это самый “честный” источник: запросы уже приводят показы, а значит спрос реально существует.

Что полезно забирать:

запросы, по которым есть показы, но мало кликов (часто проблема в сниппете или несоответствии интенту)
запросы, где страница ранжируется “не та” (сигнал про структуру и релевантность)
формулировки с уточнениями (город, цена, сроки, “как выбрать”, “что лучше”)

2) Wordstat, Keyword Planner и похожие инструменты

Это база для расширения темы, когда нужно выйти за пределы того, что сайт уже получает.

На что смотреть:

разные формулировки одной и той же потребности (синонимы, разговорные варианты)
уточнения по характеристикам, условиям, сценариям (“для”, “с”, “без”, “на”, “в”)
сезонность и региональность (особенно в Яндексе)

Важно: частотность - это ориентир, а не точное обещание трафика. Она меняется от региона, периода и способа группировки запросов.

3) Подсказки и “похожие запросы”

Подсказки хороши тем, что отражают “живой язык” и дают хвост: вопросы, сравнения, уточнения.

Но у подсказок есть минус: они легко раздувают список мусором. Поэтому подсказки лучше собирать не “все подряд”, а от заранее заданных групп:

цена и условия (стоимость, прайс, сроки, доставка)
выбор (какой лучше, как выбрать, сравнение)
доверие (отзывы, рейтинг, топ)
локальные модификаторы (рядом, в городе, район, метро)
характеристики (размер, материал, мощность, совместимость)

4) Анализ конкурентов

Когда у проекта мало данных, конкуренты помогают понять, какие страницы и темы вообще “работают” в нише.

Что именно стоит забирать:

темы и типы страниц (категории, посадочные услуг, гайды, сравнения)
кластеры запросов вокруг этих страниц
формулировки, которые вы не использовали в своем “каркасе”

Сразу закладывайте фильтры: не все, что приносит трафик конкуренту, подходит вашему продукту, географии и модели монетизации.

5) Внутренние данные бизнеса: CRM, звонки, заявки, поддержка

Это не про частотности, а про смысл и формулировки. Очень полезно, чтобы:

не промахнуться с терминологией (как говорит клиент, а не как написано “в прайсе”)
собрать реальные вопросы и возражения (они часто становятся инфо-страницами и блоками на коммерческих страницах)
расширить семантику вокруг проблем и сценариев

Как расширять семантику, чтобы не утонуть

Расширение лучше делать не “подбором синонимов”, а добавлением измеримых слоев спроса. Удобная схема: расширяем по модификаторам.

1) Коммерческие модификаторы

Запросы, ближе всего к заявке:

цена, стоимость, прайс
заказать, купить, доставка, установка, монтаж
сроки, срочно, сегодня, 24/7 (если релевантно)
гарантия, официальный, сертификат (если важно в нише)

2) Модификаторы выбора и сравнения

Запросы середины воронки:

как выбрать
какой лучше
сравнение
топ, рейтинг (осторожно, часто смешанный интент)

3) Вопросы и проблемы

Запросы верхней части воронки:

почему, что делать, как исправить
признаки, причины, симптомы (для тематики “проблем”)
инструкция, как пользоваться, как настроить (если продукт сложный)

4) Уточнения по географии (если важна локальность)

город, район, метро
рядом, на карте, поблизости
выезд, доставка по городу/области (если есть)

5) Уточнения по характеристикам (часто для e-com и услуг)

размер, материал, мощность, цвет, совместимость
для кого/для чего (для дома, для офиса, для ребенка, для кухни)
бренды и модели (если вы реально продаете/обслуживаете)

Ключевая мысль: вы расширяете не список слов, а список ситуаций и уточнений, которые меняют ожидание от страницы.

Чистка семантики: что выкинуть, что нормализовать, что пометить

Чистка нужна, чтобы дальше семантика превращалась в страницы, а не в хаос.

1) Удалить дубли и привести к единому виду

Типовые проблемы:

одинаковые запросы в разных регистрах
лишние пробелы, мусорные символы
повторы из разных источников

На этом этапе полезно сразу договориться о правилах:

язык (RU/EN) и допустимые транслитерации
формат гео (например, “москва” или “в москве” - как вы дальше будете группировать)
как храните “частотность” (если она есть) и из какого источника

2) Выкинуть явный мусор

Мусор зависит от ниши, но часто встречается:

запросы не про ваш продукт/услугу (омонимы, другая отрасль)
запросы с “бесплатно”, “скачать”, “б/у” (если это не ваш формат)
запросы про вакансии, обучение, “как стать”, “зарплата” (если вы не образовательный продукт)
запросы про ремонт/запчасти/самостоятельное изготовление (если вы продаете только готовое)

3) Развести разные интенты, которые нельзя склеивать

Одна из частых ошибок - складывать в одну группу:

“купить” и “как выбрать”
“цена” и “как сделать самому”
“отзывы” и “официальный сайт” (навигационный интент)

Даже если слова похожи, ожидания от страницы разные. Лучше помечать интент прямо в семантике, чтобы на этапе кластеризации не спорить заново.

4) Пометить спорные зоны, а не пытаться решить их “в голове”

Есть запросы, где решение зависит от стратегии:

запросы по брендам конкурентов (иногда их берут для страниц сравнения/аналога, иногда полностью исключают)
слишком широкие запросы без уточнений (часто требуют хаба или категорийной страницы)
запросы с гео, когда у вас нет покрытия (лучше пометить и исключить, чтобы не тратить ресурс)

Правильный подход на базовом уровне: не пытаться сделать семантику идеальной, а сделать ее управляемой.

Минимальная структура файла семантики, чтобы с ним было удобно работать

Даже простой файл становится намного полезнее, если в нем есть не только запросы.

Часто хватает колонок:

запрос
источник (GSC, Вебмастер, Wordstat, подсказки, конкуренты)
интент (инфо / выбор / коммерция / навигация / локальный)
группа (будущий кластер или раздел)
заметка (почему оставили или почему спорно)

Если добавить одну-две колонки сейчас, вы сэкономите много времени на следующих уроках, когда будете кластеризовать и собирать карту релевантности.

Частые ошибки при сборе семантики

собирать только высокочастотные запросы и игнорировать хвост
расширять семантику “синонимами ради объема”, не добавляя новые сценарии и уточнения
не чистить омонимы и нерелевантные смыслы
смешивать интенты и потом пытаться “все закрыть одной страницей”
брать запросы конкурентов без фильтра по продукту, географии и бизнес-целям

Короткое резюме

Семантика собирается из нескольких источников: фактических (консоли, реклама, внутренние данные) и исследовательских (Wordstat, планировщики, подсказки, конкуренты). Расширять лучше слоями модификаторов - цена, выбор, вопросы, гео, характеристики. Чистка нужна, чтобы убрать мусор, развести интенты и привести список к виду, с которым реально можно кластеризовать и планировать страницы.