Зачем нужен robots.txt
robots.txt - это файл правил для поисковых роботов, который отвечает на вопрос: какие URL можно обходить, а какие лучше не трогать.
Важно понимать границу ответственности:
- robots.txt управляет обходом, а не гарантирует удаление из поиска
- закрытый в robots.txt URL иногда может остаться в поиске в виде «голого» адреса без сниппета, потому что робот не может зайти и увидеть контент
robots.txt полезен, когда нужно:
- снизить нагрузку на сервер (не гонять робота по мусорным разделам)
- не тратить краулинговый бюджет на дубли и технические страницы
- подсказать роботу, где лежит sitemap.xml
Где лежит robots.txt и как он читается
Требования базовые и строгие:
- файл должен быть доступен по адресу
site.ru/robots.txt(в корне сайта) - сервер должен отдавать 200 OK, иначе поисковик может считать, что ограничений нет, и обходить сайт по умолчанию
- правила применяются к конкретному хосту (домену/поддомену) - у разных зеркал должен быть свой корректный robots.txt
robots.txt - не защита данных. Если вы закрыли /admin/ в robots.txt, это не делает раздел «безопасным», это лишь просьба к роботам туда не заходить.
Как устроены правила
Файл состоит из групп. Каждая группа начинается с User-agent (для какого робота правила) и дальше идет список директив.
Пример логики:
User-agent: *- правило для всех роботовDisallow: /path/- запрет обходаAllow: /path/file- исключение из запрета (разрешение)Sitemap: https://site.ru/sitemap.xml- где карта сайта
База: минимальный robots.txt, который «не мешает»
Если вы не уверены, лучше начать с безопасного минимума:
User-agent: *
Disallow:
Sitemap: https://example.com/sitemap.xml
Disallow: без пути означает “ничего не запрещаем”.
Типовые правила для e-com и сервисов
Ниже - шаблоны, которые почти всегда уместны, потому что эти разделы не должны тратить краулинговый бюджет и часто плодят мусор.
1) Встроенный поиск по сайту
User-agent: *
Disallow: /search/
Disallow: /search?
2) Корзина, оформление заказа, личный кабинет
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /login/
Disallow: /register/
3) Технические разделы
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /tmp/
Важно: если эти URL реально отдают приватный контент, их нужно защищать авторизацией, а не robots.txt.
Параметры и дубли: где robots.txt помогает, а где может навредить
Когда robots.txt подходит
- параметры, которые не несут новой ценности и создают почти бесконечные комбинации (например, ?utm_*, ?from=, ?ref=) - это мусор для обхода
- технические параметры (сессии, трекинг, часть сортировок “для всех”)
Когда robots.txt опасен
Если вы закрываете в robots.txt страницы, которые хотите именно убрать из индекса, вы сами лишаете робота возможности увидеть noindex (meta robots или заголовок) и “понять”, что страницу надо исключить.
Практическое правило:
- хотите “не обходить” - используйте robots.txt
- хотите “не индексировать” - оставьте доступ для обхода и используйте noindex (а еще лучше устраните причину мусора: canonical, архитектура, ссылки, параметры)
Сервисы для SEO-аудита онлайн
Директивы и нюансы Google и Яндекс
Набор “общих” директив (поддерживаются широко):
- User-agent
- Disallow
- Allow
- Sitemap
Яндекс: Clean-param
У Яндекса есть директива Clean-param - она помогает игнорировать указанные параметры для конкретного пути, чтобы не перебирать дубли.
Пример:
User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign /catalog/
Если вы продвигаетесь только в Google - этот блок можно не использовать.
Google: wildcard-правила
Google поддерживает простые шаблоны в путях (часто используют для параметров):
- * - любое количество символов
- $ - конец URL
Это полезно, когда нужно закрыть, например, все URL с конкретным паттерном.
Частые ошибки robots.txt
- Закрыть весь сайт на проде после разработки
User-agent: *
Disallow: /
-
Закрыть CSS/JS/картинки, которые нужны для корректной отрисовки страниц.
-
Пытаться “удалить из индекса” через Disallow - в итоге URL может висеть в поиске, а робот не сможет зайти и увидеть noindex.
-
Слишком сложный файл с конфликтующими правилами - чем больше исключений, тем выше шанс ошибиться.
Как проверить robots.txt
Минимально:
- откройте https://site.ru/robots.txt в браузере
- убедитесь, что файл отдается с 200 OK и там нет HTML/редиректов на страницу ошибки
Дальше уже проверяют в инструментах для вебмастеров: как робот видит файл и не блокирует ли он важные разделы.
Короткий чек-лист перед публикацией
- robots.txt лежит в корне и отдается с 200 OK
- нет Disallow: / на боевом домене
- не закрыты CSS/JS/изображения, если они нужны странице
- закрыты только “мусорные” разделы (поиск, корзина, кабинет, техразделы)
- для “убрать из индекса” используете noindex/каноникал/удаление, а не Disallow
- указан актуальный Sitemap