Как работает поиск: обход - индекс - ранжирование

Поисковик сначала находит и обходит страницы, затем решает, какие из них добавить в индекс, и только после этого ранжирует их по запросам. В этом уроке разберём цепочку обход - индекс - ранжирование и поймём, почему страница может существовать на сайте, но не попадать в поиск или не расти в позициях.

Содержание

Цель урока - дать понятную модель работы поиска: что происходит на каждом шаге (обход, индекс, ранжирование) и какие типовые причины мешают странице получать показы и трафик.

Большая схема: что делает поисковик

Если упростить, поиск работает как конвейер:

  1. Обход (crawl) - робот находит URL и запрашивает страницу у сервера.
  2. Индекс (index) - поисковик обрабатывает страницу и решает, хранить ли её в индексе и в каком виде (какая версия главная).
  3. Ранжирование (rank) - по запросу пользователя выбираются подходящие страницы из индекса и сортируются по полезности.

Важно: если страница не прошла предыдущий этап, следующий просто не наступает. Нельзя “поднять позиции” того, чего нет в индексе.

Обход: как робот находит и скачивает страницы

Откуда берутся URL для обхода

Робот не “угадывает” все страницы сайта. Он узнаёт о них из источников:

  • внутренние ссылки (меню, категории, хлебные крошки, перелинковка);
  • sitemap.xml (карта сайта);
  • внешние ссылки (упоминания и ссылки на других сайтах);
  • фиды/страницы, которые уже в индексе (переобход известных URL);
  • редиректы (робот приходит на старый URL и попадает на новый).

Если страница существует, но на неё нигде не ведут ссылки и её нет в sitemap, робот может не найти её быстро или не найти вообще.

Что происходит во время обхода

Когда робот приходит на URL, он получает ответ сервера:

  • 200 OK - страница доступна, можно анализировать контент.
  • 301/302 - робот уходит на другой URL (важно, куда именно и нет ли цепочки).
  • 404/410 - страницы нет (или удалена).
  • 5xx / таймауты - серверная проблема, робот может снизить частоту обхода.

На этом этапе важны стабильность сайта и отсутствие “ловушек” (бесконечных URL из фильтров, сортировок, параметров).

Почему робот не обходит важные страницы

Чаще всего причины такие:

  • важные URL закрыты в robots.txt или meta robots;
  • неправильные редиректы, цепочки, циклы;
  • страница доступна только после действий пользователя (например, контент появляется только после клика);
  • слабая внутренняя связность (страница “сирота”);
  • сайт часто отдаёт ошибки или очень медленно отвечает.

Обход - это не гарантия индекса. Это только шаг “показать страницу поисковику”.

Сервисы для SEO-аудита онлайн

Индекс: что значит “страница в индексе”

Индекс - это не список URL, а база обработанных документов

Когда поисковик “видит” страницу, он:

  • анализирует контент и структуру;
  • пытается понять тему, сущности и интент страницы;
  • определяет каноническую версию (какой URL считать главным, если есть похожие или дубль);
  • решает, стоит ли хранить страницу в индексе и показывать ли её пользователям.

Отсюда важный вывод: страница может быть обойдена, но не проиндексирована, или быть в индексе, но почти не получать показов.

Почему страницу могут не добавить в индекс

Типовые причины:

  • дубли и почти дубли (параметры, сортировки, одинаковые шаблоны);
  • тонкий контент (мало полезной информации, страница “ради страницы”);
  • неправильные директивы: noindex, canonical на другую страницу, запреты в robots;
  • проблемы с доступностью: периодические 5xx, нестабильная отдача;
  • рендеринг и JS: важный контент формируется так, что поисковик его не видит или видит частично.

Индексирование - это фильтр качества и полезности, а не формальность “раз робот зашёл - значит в индексе”.

Ранжирование: почему из индекса нет трафика

Ранжирование начинается только по запросу

Поисковик ранжирует страницы не “вообще”, а для конкретного запроса. На этом этапе он оценивает:

  • релевантность: соответствует ли страница интенту и теме запроса;
  • качество результата: полнота ответа, понятность, доверие к источнику;
  • авторитет: репутация сайта и страницы, ссылки и упоминания (в конкурентных темах это особенно заметно);
  • актуальность: свежесть информации там, где это важно;
  • удобство: насколько пользователю легко получить ответ (структура, скорость, мобильность, навигация).

Страница может быть в индексе, но занимать позиции, которые почти не дают кликов. В этом случае проблема обычно уже не в индексации, а в релевантности, качестве или конкуренции.

Почему страница не растёт, хотя “всё проиндексировано”

Частые сценарии:

  • страница отвечает на другой интент (например, статья вместо коммерческой посадочной);
  • заголовки и блоки не помогают быстро понять, что здесь есть ответ;
  • контент слабее конкурентов (не хватает сравнения, условий, примеров, цен, ограничений, доверия - по ситуации);
  • на сайте несколько страниц борются за один кластер (каннибализация);
  • много дублей и мусора размывают общую оценку раздела.

Как быстро понять, на каком этапе проблема

Ниже - практичная логика диагностики без углубления в инструменты “для профи”.

ЭтапСимптомЧто чаще всего означаетГде проверять в первую очередь
ОбходСтраница есть на сайте, но её нет в отчётах по индексацииРобот не нашёл URL или редко его обходитsitemap, внутренние ссылки, логи сервера (если есть), отчёты обхода в системах вебмастеров
ИндексURL обойдён, но “не в индексе” или исключёнДубли, noindex, canonical на другой URL, слабая ценностьGoogle Search Console (Страницы/Проверка URL), Яндекс Вебмастер (Индексирование/Страницы в поиске)
РанжированиеURL в индексе, но мало показов/кликовНизкие позиции, слабая релевантность, нет спроса или сильная конкуренцияотчёты по запросам и страницам, сравнение с конкурентами в выдаче
Сниппет/CTRПоказов много, кликов малоЗаголовок и описание не попадают в интент или проигрывают конкурентамотчёты по эффективности, анализ сниппетов в выдаче

Нюансы Google и Яндекс, которые полезно помнить

  • Термины и отчёты разные, логика одна. В Google чаще работают через отчёты “Страницы” и “Проверка URL”, в Яндексе - через блоки по индексированию и статусам страниц.
  • Скорость обновлений может отличаться. Один и тот же сайт может переобходиться и переоцениваться в системах с разной частотой, особенно после крупных правок (редиректы, массовые изменения шаблонов, чистка дублей).
  • Одинаковые ошибки проявляются по-разному. Например, дубли, параметры и бесконечные URL могут давать разные формулировки причин исключения, но суть обычно сводится к контролю дублей и выбору главной версии страницы.

Что важно запомнить

  • Обход - это доставка страницы поисковику. Без обнаружения URL нет шансов на трафик.
  • Индекс - это отбор и обработка. Дубли, запреты и слабая ценность часто останавливают страницу здесь.
  • Ранжирование - это конкуренция за запрос. Даже идеальная индексация не гарантирует позиции без релевантности и качества ответа.
  • Любую проблему проще решать, если сначала честно ответить: это про обход, про индекс или про ранжирование.