Meta robots и X-Robots-Tag: как управлять индексацией

Разбираемся, как с помощью meta robots и HTTP-заголовка X-Robots-Tag управлять индексацией и видом сниппета в выдаче: когда ставить noindex, nofollow, noarchive и почему это не заменяет robots.txt.

Содержание

Зачем нужны meta robots и X-Robots-Tag

Meta robots и X-Robots-Tag - это инструкции для поисковых роботов на уровне конкретного URL: индексировать ли страницу, переходить ли по ссылкам, показывать ли сохраненную копию и какой сниппет можно формировать. Это точечное управление: не разделом целиком, а конкретной страницей или даже типом ресурсов (например, всеми PDF).

Важно понимать границу: эти инструкции читаются только тогда, когда робот реально может зайти на URL и получить HTML или ответ сервера. Если URL закрыт от обхода в robots.txt, робот не увидит ни meta robots, ни X-Robots-Tag - и правила просто не сработают.

Meta robots - когда и как использовать

Где находится

Meta robots - это тег в <head> HTML-страницы. Самый частый вариант:

<meta name="robots" content="noindex" />

name="robots" означает правило для всех поисковых роботов. Можно задавать правила для конкретного робота (например, Google или Яндекс) отдельным метатегом.

Когда это удобно

  • Нужна настройка для отдельной HTML-страницы (карточка товара, фильтр, служебная страница).
  • Нет желания или возможности править конфиги сервера.
  • Нужно управлять сниппетом (например, запретить snippet или ограничить его длину в Google).

X-Robots-Tag - когда и как использовать

Что это

X-Robots-Tag - это HTTP-заголовок в ответе сервера. По смыслу он может делать то же, что и meta robots, но работает на уровне ответа.

Пример (в заголовках ответа):

X-Robots-Tag: noindex

Главный плюс

X-Robots-Tag подходит для не-HTML ресурсов, где нет <head> и метатеги поставить нельзя: PDF, изображения, видео, файлы прайсов, документы.

Его удобно задавать массово на уровне сервера по маске URL (например, для всех .pdf).

Базовые директивы, которые используют чаще всего

Ниже - минимальный набор, который реально встречается в проектах и который важно понимать.

ДирективаЧто делаетГде задаватьНюансы
noindexЗапрещает показывать URL в результатах поискаMeta robots или X-Robots-TagРаботает только если робот может зайти на URL (не закрыт robots.txt)
nofollowНе переходить по ссылкам на страницеMeta robots или X-Robots-TagОбычно используют вместе с noindex на служебных страницах
noneЭквивалент noindex, nofollowMeta robots или X-Robots-TagУдобный короткий вариант вместо двух директив
noarchiveНе показывать ссылку на сохраненную копию (cache)Meta robots или X-Robots-TagИспользуют, когда не нужна сохраненная копия в выдаче
nosnippetЗапретить текстовый сниппетMeta robots или X-Robots-TagВ основном актуально для Google
noimageindexЗапретить индексацию изображений с URLMeta robots или X-Robots-TagПолезно, если в индекс лезут служебные картинки
unavailable_after: YYYY-MM-DDНе показывать страницу после датыMeta robots или X-Robots-TagДля временных страниц (акции, мероприятия)

Типовые сценарии: что ставить и зачем

1) Служебные страницы, которые не должны попадать в поиск

Примеры: страницы печати, технические страницы, результаты внутреннего поиска, черновики, промежуточные шаги оформления, личный кабинет.

Чаще всего достаточно:

  • noindex
  • иногда добавляют nofollow, если точно не нужно, чтобы робот ходил по ссылкам с этой страницы

Главная мысль: noindex отвечает за присутствие URL в выдаче, а не за доступ. Если страница реально приватная, ее нужно закрывать авторизацией, а не только noindex.

2) Не-HTML файлы (PDF, изображения, документы)

Если в индексе появляются прайсы, презентации, сканы, старые инструкции, то meta robots не поможет - там нет HTML.

Решение: X-Robots-Tag, например noindex для нужных типов файлов.

3) Временные страницы (акции, ивенты, сезонные лендинги)

Когда страница должна исчезнуть из выдачи после определенной даты, можно использовать unavailable_after. Это не моментальное удаление, но понятный сигнал для поисковика.

Сервисы для SEO-аудита онлайн

Важные правила, чтобы не сделать хуже

Правило 1. Не закрывайте URL в robots.txt, если хотите, чтобы сработал noindex

Если URL запрещен в robots.txt, робот не зайдет на страницу и не увидит ваши директивы в meta robots или X-Robots-Tag. В результате noindex может не сработать, а URL может продолжать всплывать в выдаче (например, по внешним ссылкам).

Правило 2. Не пытайтесь “прописать noindex в robots.txt”

На практике noindex для индексации задают через meta robots или через X-Robots-Tag, а robots.txt используют для управления обходом.

Правило 3. Осторожно с конфликтами директив

Не добавляйте одновременно противоречащие друг другу директивы “на всякий случай”. Чем больше лишних правил, тем сложнее диагностика: вы видите проблему в индексе и не понимаете, какой именно слой управления сработал (robots.txt, meta robots, заголовки, canonical, редиректы).

Как быстро проверить, что настроено правильно

  1. Проверьте HTML: meta robots должен быть в <head> в исходном коде страницы.

  2. Проверьте заголовки ответа:

  • в браузере: DevTools → Network → нужный запрос → Response Headers
  • или командой curl -I https://site.ru/url (важно смотреть именно ответ сервера)
  1. Учитывайте задержку: поисковик должен заново обойти URL, чтобы увидеть новые правила. В Google можно ускорить переобход через инструмент проверки URL в Search Console, в Яндекс - через инструменты переобхода в Вебмастере.