Как работает поиск: обход - индекс

Поисковик сначала находит и обходит страницы, затем решает, какие из них добавить в индекс, и только после этого ранжирует их по запросам. В этом уроке разберём цепочку обход - индекс - ранжирование и поймём, почему страница может существовать на сайте, но не попадать в поиск или не расти в позициях.

Цель урока - дать понятную модель работы поиска: что происходит на каждом шаге (обход, индекс, ранжирование) и какие типовые причины мешают странице получать показы и трафик.

Большая схема: что делает поисковик

Если упростить, поиск работает как конвейер:

Обход (crawl) - робот находит URL и запрашивает страницу у сервера.
Индекс (index) - поисковик обрабатывает страницу и решает, хранить ли её в индексе и в каком виде (какая версия главная).
Ранжирование (rank) - по запросу пользователя выбираются подходящие страницы из индекса и сортируются по полезности.

Важно: если страница не прошла предыдущий этап, следующий просто не наступает. Нельзя “поднять позиции” того, чего нет в индексе.

Обход: как робот находит и скачивает страницы

Откуда берутся URL для обхода

Робот не “угадывает” все страницы сайта. Он узнаёт о них из источников:

внутренние ссылки (меню, категории, хлебные крошки, перелинковка);
sitemap.xml (карта сайта);
внешние ссылки (упоминания и ссылки на других сайтах);
фиды/страницы, которые уже в индексе (переобход известных URL);
редиректы (робот приходит на старый URL и попадает на новый).

Если страница существует, но на неё нигде не ведут ссылки и её нет в sitemap, робот может не найти её быстро или не найти вообще.

Что происходит во время обхода

Когда робот приходит на URL, он получает ответ сервера:

200 OK - страница доступна, можно анализировать контент.
301/302 - робот уходит на другой URL (важно, куда именно и нет ли цепочки).
404/410 - страницы нет (или удалена).
5xx / таймауты - серверная проблема, робот может снизить частоту обхода.

На этом этапе важны стабильность сайта и отсутствие “ловушек” (бесконечных URL из фильтров, сортировок, параметров).

Почему робот не обходит важные страницы

Чаще всего причины такие:

важные URL закрыты в robots.txt или meta robots;
неправильные редиректы, цепочки, циклы;
страница доступна только после действий пользователя (например, контент появляется только после клика);
слабая внутренняя связность (страница “сирота”);
сайт часто отдаёт ошибки или очень медленно отвечает.

Обход - это не гарантия индекса. Это только шаг “показать страницу поисковику”.

Сервисы для SEO-аудита онлайн

Rush Analytics Пиксель Тулс Labrika

Индекс: что значит “страница в индексе”

Индекс - это не список URL, а база обработанных документов

Когда поисковик “видит” страницу, он:

анализирует контент и структуру;
пытается понять тему, сущности и интент страницы;
определяет каноническую версию (какой URL считать главным, если есть похожие или дубль);
решает, стоит ли хранить страницу в индексе и показывать ли её пользователям.

Отсюда важный вывод: страница может быть обойдена, но не проиндексирована, или быть в индексе, но почти не получать показов.

Почему страницу могут не добавить в индекс

Типовые причины:

дубли и почти дубли (параметры, сортировки, одинаковые шаблоны);
тонкий контент (мало полезной информации, страница “ради страницы”);
неправильные директивы: noindex, canonical на другую страницу, запреты в robots;
проблемы с доступностью: периодические 5xx, нестабильная отдача;
рендеринг и JS: важный контент формируется так, что поисковик его не видит или видит частично.

Индексирование - это фильтр качества и полезности, а не формальность “раз робот зашёл - значит в индексе”.

Ранжирование: почему из индекса нет трафика

Ранжирование начинается только по запросу

Поисковик ранжирует страницы не “вообще”, а для конкретного запроса. На этом этапе он оценивает:

релевантность: соответствует ли страница интенту и теме запроса;
качество результата: полнота ответа, понятность, доверие к источнику;
авторитет: репутация сайта и страницы, ссылки и упоминания (в конкурентных темах это особенно заметно);
актуальность: свежесть информации там, где это важно;
удобство: насколько пользователю легко получить ответ (структура, скорость, мобильность, навигация).

Страница может быть в индексе, но занимать позиции, которые почти не дают кликов. В этом случае проблема обычно уже не в индексации, а в релевантности, качестве или конкуренции.

Почему страница не растёт, хотя “всё проиндексировано”

Частые сценарии:

страница отвечает на другой интент (например, статья вместо коммерческой посадочной);
заголовки и блоки не помогают быстро понять, что здесь есть ответ;
контент слабее конкурентов (не хватает сравнения, условий, примеров, цен, ограничений, доверия - по ситуации);
на сайте несколько страниц борются за один кластер (каннибализация);
много дублей и мусора размывают общую оценку раздела.

Как быстро понять, на каком этапе проблема

Ниже - практичная логика диагностики без углубления в инструменты “для профи”.

Этап	Симптом	Что чаще всего означает	Где проверять в первую очередь
Обход	Страница есть на сайте, но её нет в отчётах по индексации	Робот не нашёл URL или редко его обходит	sitemap, внутренние ссылки, логи сервера (если есть), отчёты обхода в системах вебмастеров
Индекс	URL обойдён, но “не в индексе” или исключён	Дубли, noindex, canonical на другой URL, слабая ценность	Google Search Console (Страницы/Проверка URL), Яндекс Вебмастер (Индексирование/Страницы в поиске)
Ранжирование	URL в индексе, но мало показов/кликов	Низкие позиции, слабая релевантность, нет спроса или сильная конкуренция	отчёты по запросам и страницам, сравнение с конкурентами в выдаче
Сниппет/CTR	Показов много, кликов мало	Заголовок и описание не попадают в интент или проигрывают конкурентам	отчёты по эффективности, анализ сниппетов в выдаче

Нюансы Google и Яндекс, которые полезно помнить

Термины и отчёты разные, логика одна. В Google чаще работают через отчёты “Страницы” и “Проверка URL”, в Яндексе - через блоки по индексированию и статусам страниц.
Скорость обновлений может отличаться. Один и тот же сайт может переобходиться и переоцениваться в системах с разной частотой, особенно после крупных правок (редиректы, массовые изменения шаблонов, чистка дублей).
Одинаковые ошибки проявляются по-разному. Например, дубли, параметры и бесконечные URL могут давать разные формулировки причин исключения, но суть обычно сводится к контролю дублей и выбору главной версии страницы.

Что важно запомнить

Обход - это доставка страницы поисковику. Без обнаружения URL нет шансов на трафик.
Индекс - это отбор и обработка. Дубли, запреты и слабая ценность часто останавливают страницу здесь.
Ранжирование - это конкуренция за запрос. Даже идеальная индексация не гарантирует позиции без релевантности и качества ответа.
Любую проблему проще решать, если сначала честно ответить: это про обход, про индекс или про ранжирование.

Как работает поиск: обход - индекс - ранжирование