Зеркала, https/www/слеши: приведение к одному виду

Как выбрать основной вариант домена и URL (https, www, слеши) и склеить зеркала без цепочек редиректов, чтобы поисковики не делили сигналы и не путались в дублях.

Содержание

Что такое «зеркала» сайта

Зеркала - это ситуации, когда один и тот же сайт (или одна и та же страница) доступны по разным адресам. Самые частые варианты:

  • http://site.ru и https://site.ru
  • https://www.site.ru и https://site.ru
  • https://site.ru/page и https://site.ru/page/
  • https://site.ru/page и https://site.ru/page/index.html
  • разные регистры и варианты записи: https://site.ru/Page и https://site.ru/page

Для пользователя это может выглядеть как одно и то же, но для поисковика это разные URL. А значит - потенциальные дубли.

Почему важно привести сайт к одному виду

Если зеркала не склеены, обычно происходят три неприятные вещи:

  • Сигналы делятся между версиями: ссылки, поведенческие, история обхода.
  • Роботы тратят бюджет обхода на дубли, а важные страницы получают меньше внимания.
  • В отчетах появляются странные статусы: «выбран другой канонический URL», скачки видимости и непредсказуемые страницы в поиске.

В итоге сайт может ранжироваться хуже просто потому, что поисковики не уверены, какую версию считать основной.

Сервисы для SEO-аудита онлайн

Что именно нужно выбрать «основным»

На практике нужно зафиксировать три решения и придерживаться их везде (внутренние ссылки, sitemap, canonical, редиректы):

  1. Протокол: почти всегда это https
  2. Хост: www или без www
  3. Политика слеша: …/page или …/page/

Это не про «как лучше для SEO», а про единообразие. Любой вариант может работать, если он один.

Что сравниваемПример вариантовЧто обычно выбираютЧто важно помнить
Протоколhttp / httpshttpshttp не должен отдавать 200, только 301 на аналогичную страницу с https
Хостwww / без wwwдопустим любой, но сейчас чаще выбирают без wwwвсе версии должны вести на основной хост одним шагом
Слеш/page / /page/как устроен сайт/page и /page/ - разные URL, их нужно унифицировать

Как «склеивать» зеркала правильно

Склейка - это не один прием, а набор согласованных сигналов. Чем их больше и чем они единообразнее, тем меньше сюрпризов.

1) 301-редиректы со всех неосновных версий

База - сделать так, чтобы любая неосновная версия сразу (одним переходом) вела на основную.

Типовая цепочка, которую лучше не допускать:
http://www.site.ru -> https://www.site.ru -> https://site.ru

Правильнее:
http://www.site.ru -> https://site.ru

Почему цепочки вредны:

  • лишняя нагрузка и лишний шаг для робота и пользователя
  • часть сигналов может «теряться» на промежуточных переходах
  • сложнее диагностика, особенно при массовых правилах

2) Единые внутренние ссылки

Даже если редиректы настроены идеально, сайт может сам «плодить» зеркала:

  • меню ссылается на http, а контент на https
  • в хлебных крошках есть www, а в карточках товаров - без www
  • часть ссылок с /page, часть с /page/

Поисковику в итоге приходится постоянно встречать разные адреса и решать, какой «главный». Поэтому генерация ссылок в CMS и шаблонах должна быть строго под основной вариант.

3) Sitemap только с основными URL

Sitemap - это сильный сигнал о том, какие URL вы считаете целевыми. Если в sitemap попадают неосновные версии, вы сами размываете «главный» вариант. Это особенно заметно при одновременных проблемах с перелинковкой.

4) Canonical как дополнительная страховка

rel="canonical" помогает подсказать каноническую версию страницы, если у нее есть дубль. Но canonical - не замена редиректам для зеркал домена и протокола.

Важно:

  • canonical - это рекомендация, а не жесткая команда, поисковик может выбрать иначе
  • canonical должен указывать на основной URL этой же страницы, а не «примерно туда же»
  • canonical может задаваться не только в HTML (через <link rel="canonical" ...>), но и в HTTP-заголовках. В любом варианте он должен быть стабильным и одинаковым для пользователей и роботов

Нюансы Google и Яндекс

Google

  • Google может сам выбрать канонический URL, если сигналы противоречат друг другу. В Search Console это видно в проверке URL и в отчетах по индексации.
  • Настройки «preferred domain» в Search Console больше нет, ставка делается на архитектуру сайта: 301, canonical, sitemap и единые ссылки.

Яндекс

  • У Яндекса есть понятие «главное зеркало» и отдельные сценарии переезда (например, с http на https), которые управляются через Яндекс Вебмастер.
  • Директива Host в robots.txt больше не входит в список поддерживаемых директив, поэтому ориентироваться на нее как на «обязательный способ выбора зеркала» не стоит.

Частые ошибки, из-за которых склейка «не работает»

  • На одной версии сайта 200 OK, на другой тоже 200 OK (по факту две равноправные версии).
  • Редиректы есть, но они 302 или «прыгают» через цепочки.
  • Внутренние ссылки ведут на неосновной протокол или другой хост.
  • В sitemap смешаны разные варианты домена или слеша.
  • Canonical противоречит редиректам (например, редирект ведет на https://site.ru/page/, а canonical указывает на https://www.site.ru/page).

Мини-чек по итогам

Если вы смотрите на сайт «глазами робота», то в идеале картина такая:

  • у каждой страницы один основной URL
  • все альтернативы ведут на него 301 редиректом одним шагом
  • внутренние ссылки и sitemap используют только основной вариант
  • canonical не спорит с редиректами и тоже смотрит в основной URL