robots.txt: управление обходом и индексацией

Что такое robots.txt, как он управляет обходом сайта и почему это не равно запрету индексации; разберем базовые директивы и типовые правила для e-com и инфо-сайтов, чтобы не сломать видимость в поиске.

Зачем нужен robots.txt

robots.txt - это файл правил для поисковых роботов, который отвечает на вопрос: какие URL можно обходить, а какие лучше не трогать.

Важно понимать границу ответственности:

robots.txt управляет обходом, а не гарантирует удаление из поиска
закрытый в robots.txt URL иногда может остаться в поиске в виде «голого» адреса без сниппета, потому что робот не может зайти и увидеть контент

robots.txt полезен, когда нужно:

снизить нагрузку на сервер (не гонять робота по мусорным разделам)
не тратить краулинговый бюджет на дубли и технические страницы
подсказать роботу, где лежит sitemap.xml

Где лежит robots.txt и как он читается

Требования базовые и строгие:

файл должен быть доступен по адресу site.ru/robots.txt (в корне сайта)
сервер должен отдавать 200 OK, иначе поисковик может считать, что ограничений нет, и обходить сайт по умолчанию
правила применяются к конкретному хосту (домену/поддомену) - у разных зеркал должен быть свой корректный robots.txt

robots.txt - не защита данных. Если вы закрыли /admin/ в robots.txt, это не делает раздел «безопасным», это лишь просьба к роботам туда не заходить.

Как устроены правила

Файл состоит из групп. Каждая группа начинается с User-agent (для какого робота правила) и дальше идет список директив.

Пример логики:

User-agent: * - правило для всех роботов
Disallow: /path/ - запрет обхода
Allow: /path/file - исключение из запрета (разрешение)
Sitemap: https://site.ru/sitemap.xml - где карта сайта

База: минимальный robots.txt, который «не мешает»

Если вы не уверены, лучше начать с безопасного минимума:

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml

Disallow: без пути означает “ничего не запрещаем”.

Типовые правила для e-com и сервисов

Ниже - шаблоны, которые почти всегда уместны, потому что эти разделы не должны тратить краулинговый бюджет и часто плодят мусор.

1) Встроенный поиск по сайту

User-agent: *
Disallow: /search/
Disallow: /search?

2) Корзина, оформление заказа, личный кабинет

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /login/
Disallow: /register/

3) Технические разделы

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /tmp/

Важно: если эти URL реально отдают приватный контент, их нужно защищать авторизацией, а не robots.txt.

Параметры и дубли: где robots.txt помогает, а где может навредить

Когда robots.txt подходит

параметры, которые не несут новой ценности и создают почти бесконечные комбинации (например, ?utm_*, ?from=, ?ref=) - это мусор для обхода
технические параметры (сессии, трекинг, часть сортировок “для всех”)

Когда robots.txt опасен

Если вы закрываете в robots.txt страницы, которые хотите именно убрать из индекса, вы сами лишаете робота возможности увидеть noindex (meta robots или заголовок) и “понять”, что страницу надо исключить.

Практическое правило:

хотите “не обходить” - используйте robots.txt
хотите “не индексировать” - оставьте доступ для обхода и используйте noindex (а еще лучше устраните причину мусора: canonical, архитектура, ссылки, параметры)

Сервисы для SEO-аудита онлайн

Rush Analytics Пиксель Тулс Labrika

Директивы и нюансы Google и Яндекс

Набор “общих” директив (поддерживаются широко):

User-agent
Disallow
Allow
Sitemap

Яндекс: Clean-param

У Яндекса есть директива Clean-param - она помогает игнорировать указанные параметры для конкретного пути, чтобы не перебирать дубли.

Пример:

User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign /catalog/

Если вы продвигаетесь только в Google - этот блок можно не использовать.

Google: wildcard-правила

Google поддерживает простые шаблоны в путях (часто используют для параметров):

* - любое количество символов
$ - конец URL

Это полезно, когда нужно закрыть, например, все URL с конкретным паттерном.

Частые ошибки robots.txt

Закрыть весь сайт на проде после разработки

User-agent: *
Disallow: /

Закрыть CSS/JS/картинки, которые нужны для корректной отрисовки страниц.
Пытаться “удалить из индекса” через Disallow - в итоге URL может висеть в поиске, а робот не сможет зайти и увидеть noindex.
Слишком сложный файл с конфликтующими правилами - чем больше исключений, тем выше шанс ошибиться.

Как проверить robots.txt

Минимально:

откройте https://site.ru/robots.txt в браузере
убедитесь, что файл отдается с 200 OK и там нет HTML/редиректов на страницу ошибки

Дальше уже проверяют в инструментах для вебмастеров: как робот видит файл и не блокирует ли он важные разделы.

Короткий чек-лист перед публикацией

robots.txt лежит в корне и отдается с 200 OK
нет Disallow: / на боевом домене
не закрыты CSS/JS/изображения, если они нужны странице
закрыты только “мусорные” разделы (поиск, корзина, кабинет, техразделы)
для “убрать из индекса” используете noindex/каноникал/удаление, а не Disallow
указан актуальный Sitemap