sitemap.xml: генерация и поддержка

Разбираемся, зачем нужен sitemap.xml, какие URL туда добавлять, как генерировать карту сайта для разных типов проектов и что регулярно проверять, чтобы она реально помогала индексации.

Содержание

Что такое sitemap.xml и зачем он нужен

Sitemap.xml - это файл со списком URL, которые вы предлагаете поисковым роботам обходить и индексировать. Это не гарантия индексации, но очень полезный сигнал, особенно когда:

  • сайт большой (e-com, каталоги, маркетплейсы)
  • много страниц создается автоматически
  • есть глубокая вложенность (страницы далеко от главной)
  • есть новые разделы, которые еще слабо связаны внутренними ссылками
  • есть страницы, которые важны для бизнеса, но по структуре они редко получают ссылки

Важно: sitemap не заменяет нормальную архитектуру и перелинковку. Это скорее “карта входа”, чтобы роботу было проще находить нужные страницы и быстрее замечать обновления.

sitemap и индексация: что он делает, а что нет

sitemap помогает:

  • быстрее обнаруживать новые страницы
  • подсвечивать роботу, какие URL вы считаете основными
  • передавать дату последнего изменения (если вы ее ведете честно)

sitemap не помогает:

  • “продавить” в индекс мусорные страницы
  • обойти noindex, блокировки robots.txt или санкции за низкое качество
  • исправить дубли

Какие URL можно и нужно добавлять в sitemap

Главное правило: в sitemap должны быть только те страницы, которые вы реально хотите видеть в индексе.

Добавляйте URL, которые:

  • отдают 200 OK
  • доступны для обхода (не закрыты robots.txt)
  • не содержат noindex (meta robots или X-Robots-Tag)
  • не являются дублями и ведут на каноническую версию
  • не редиректят (не 301/302)
  • имеют понятный, стабильный адрес

Обычно НЕ добавляют:

  • страницы с параметрами, фильтрами и сортировками, если они не являются отдельными посадочными
  • служебные URL (поиск по сайту, корзина, личный кабинет)
  • страницы, которые вы сами закрыли от индексации
  • 404/410, редиректы и любые “временные” URL

Базовая структура sitemap.xml

Минимально sitemap выглядит так:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-02-01</lastmod>
  </url>
  <url>
    <loc>https://example.com/catalog/</loc>
    <lastmod>2026-01-25</lastmod>
  </url>
</urlset>
  • <loc> - абсолютный URL (со схемой https)
  • <lastmod> - дата последнего изменения страницы (если ведете корректно)

Теги <changefreq> и <priority> формально допустимы, но на практике часто игнорируются, поэтому если вы их ставите, то только как внутреннюю дисциплину, а не как “рычаг управления”.

Ограничения и разбиение на несколько файлов

У sitemap есть технические лимиты. Если URL много, делайте несколько файлов и общий индекс.

Типовая схема:

  • sitemap.xml или sitemap_index.xml - файл-индекс
  • sitemap-1.xml, sitemap-2.xml … - части

Пример индексного файла:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-1.xml</loc>
    <lastmod>2026-02-01</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-2.xml</loc>
    <lastmod>2026-02-01</lastmod>
  </sitemap>
</sitemapindex>

Плюсы разбиения:

  • обновляете только нужную часть (например, товары отдельно, статьи отдельно)
  • проще отлаживать ошибки
  • легче контролировать, что именно попадает в индекс

Где размещать sitemap и как его объявлять

Чаще всего sitemap размещают в корне сайта:

  • https://site.ru/sitemap.xml
  • или https://site.ru/sitemap_index.xml

И добавляют строку в robots.txt:

Sitemap: https://site.ru/sitemap.xml

Можно указывать несколько sitemap строками, это нормально.

Генерация sitemap: варианты для разных проектов

1) CMS (WordPress, Bitrix, Shopify и т.п.)

Обычно sitemap генерируется автоматически:

  • встроенными функциями CMS
  • плагинами
  • модулем SEO

Что важно проверить после включения:

  • не попали ли туда закрытые от индексации страницы
  • корректные ли URL (http/https, www/без www, слеши)
  • не добавляются ли страницы тегов, поиска, фильтров без нужды

2) Небольшой сайт или инфо-сайт (до десятков тысяч URL)

Самый надежный вариант - генерировать sitemap:

  • при публикации/обновлении материалов
  • или по расписанию (cron) 1 раз в сутки

Важно: если вы ставите lastmod, обновляйте его только когда реально меняется контент страницы, иначе сигнал обесценивается.

3) E-com и большие каталоги

Часто делают так:

  • отдельный sitemap для категорий
  • отдельный sitemap для карточек товаров
  • отдельный sitemap для статей/контента
  • и общий sitemap index

И дополнительно:

  • обновляют только изменившиеся части (например, новые товары и измененные карточки)
  • исключают товары, которые не должны индексироваться (нет в наличии, удалены, технические карточки) - по вашим правилам индексации

Поддержка sitemap: что проверять регулярно

Минимальный регулярный контроль:

  • sitemap открывается и отдает 200 OK
  • файл не пустой и не содержит битых XML-символов
  • в sitemap нет 301/302, 404/410, 5xx
  • в sitemap нет URL, закрытых robots/noindex
  • canonical у URL в карте соответствует логике
  • обновления действительно попадают в sitemap (новые страницы появляются, удаленные исчезают)

Отдельно следите за ситуацией “страница исчезла”:

  • если URL удален навсегда, он должен отдавать 404/410 и исчезнуть из sitemap
  • если URL переехал, должна быть 301 и в sitemap должен быть уже новый конечный URL

Сервисы для SEO-аудита онлайн

Частые ошибки, из-за которых sitemap начинает вредить

  • Добавили в карту все подряд, включая фильтры, сортировки, параметры - получаете рост дублей и шум в индексации
  • В карте есть редиректы
  • lastmod проставлен одинаковым на все URL каждый день - поисковик перестает доверять сигналу
  • В sitemap попали URL, закрытые от индексации - противоречивые сигналы (и сложнее диагностика)
  • Один огромный файл без разбиения - сложнее поддерживать и искать проблемы
  • Неправильная версия домена (http вместо https, www вместо без www) - снова дубли и путаница

Быстрый чек-лист “хороший sitemap.xml”

  • Внутри только канонические, индексируемые URL с 200 OK
  • Нет параметров, фильтров и сортировок без явной SEO-логики
  • Нет редиректов и ошибок
  • Есть разбиение по типам страниц на больших проектах
  • lastmod проставлен осмысленно (или не проставлен вообще, если вы не можете вести его честно)
  • Sitemap объявлен в robots.txt и доступен по стабильному адресу
  • Если проект большой и вы опасаетесь, что вас будут парсить конкуренты, sitemap допустимо не прописывать в robots.txt, а добавлять в панели вебмастеров: Яндекс Вебмастер и Google Search Console