Параметры, фильтры, сортировки: контроль дублей

Параметры URL, фильтры и сортировки легко создают тысячи почти одинаковых страниц. Разберемся, какие страницы оставлять в индексе, какие склеивать или закрывать, и как не раздуть индекс дублями.

Почему параметры превращаются в дубли

Параметры и фильтры обычно появляются там, где есть списки: категории, каталоги, подборки, выдача по товарам, страницы со статьями. Это удобно для пользователя, но опасно для SEO по простой причине: один и тот же список начинает открываться десятками способов.

Пример. Была категория:

/catalog/krossovki/

Появились варианты:

/catalog/krossovki/?color=black
/catalog/krossovki/?color=black&size=42
/catalog/krossovki/?size=42&color=black (тот же смысл, другой порядок)
/catalog/krossovki/?sort=price
/catalog/krossovki/?color=black&sort=price&page=3

Если такие URL доступны и на них ведут ссылки, поисковик может:

начать индексировать “почти одинаковые” страницы
тратить обход на бесконечные комбинации
размывать релевантность (какая из версий главная)
провоцировать каннибализацию внутри каталога
раздувать индекс мусорными страницами (и потом долго чистить)

Ключевая мысль: проблема не в параметрах как таковых, а в отсутствии правил - какие комбинации считаются полноценными страницами, а какие считаются техническими вариантами.

Какие параметры бывают и чем они опасны

Удобно разделить параметры на 4 группы. У каждой своя логика контроля.

Тип	Примеры	Что это делает	Как обычно поступают
Трекинг	`utm_*`, `gclid`, `yclid`, `erid`	Метки рекламы и источников, контент не меняют	Не индексировать, приводить к “чистому” URL
Сортировки и вид	`sort=price`, `order=asc`, `view=grid`	Меняет порядок или отображение, а не состав	Обычно закрывают от индексации и канонизируют на базовую категорию
Пагинация	`page=2` или `/page/2/`	Разбивает список на страницы	Обычно оставляют доступной для обхода c canonical на первую страницу
Фильтры (фасеты)	`color=black`, `size=42`, `brand=nike`	Меняет состав списка, может иметь спрос	Часть комбинаций делают SEO-страницами, остальное закрывают или склеивают

Главный принцип: сначала решаем, что является страницей, потом настраиваем технику

В контроле дублей почти всегда работает одна и та же схема:

Определить набор страниц, которые реально нужны в поиске

Это обычно:

основные категории и подкатегории
отдельные посадочные под популярные фильтры (если есть спрос и смысл)

Все остальные варианты URL считать техническими
И не давать им становиться отдельными страницами в индексе.

На базовом уровне это решение отвечает на вопрос: какие URL мы хотим видеть в выдаче, а какие должны склеиваться с основной страницей.

Фильтры: когда можно оставлять в индексе, а когда нельзя

Фильтры - единственная группа параметров, которая иногда действительно нужна в индексе. Но только при двух условиях.

1) Есть спрос и понятный интент

Например, в e-com часто бывает спрос на:

“кроссовки черные”
“кроссовки nike”
“кроссовки зимние”

Если фильтр повторяет популярный запрос и дает понятный список - это кандидат на отдельную SEO-страницу.

2) Страница выглядит как нормальная посадочная, а не “технический список”

У SEO-страницы фильтра обычно есть:

понятный заголовок и описание (что это за подборка)
стабильный набор товаров (не 2 позиции и не пусто)
возможность жить долго (а не исчезать через неделю)
чистая логика URL (лучше одна каноническая версия)

Если фильтр дает бесконечные комбинации вида “кроссовки черные nike 42 со скидкой до 30% с доставкой завтра” - это почти всегда путь к раздутию индекса.

Сортировки и “вид плиткой”: почти всегда технический мусор

Сортировка меняет порядок, но не создает новой ценности для поиска. Если индексировать сортировки, вы получите дубли типа:

одна и та же категория, но “сначала дешевые”
одна и та же категория, но “сначала популярные”
одна и та же категория, но “плиткой”

Типовой подход:

не делать сортировки индексируемыми
не вести на них внутренними ссылками как на отдельные страницы

Иначе быстро появятся сотни URL, которые отличаются только порядком.

Пагинация: важный нюанс, который часто ломают

Пагинация нужна не для “продвижения страницы 3”, а для того, чтобы:

поисковик мог обходить товары или материалы глубже в списке
список не превращался в бесконечную ленту без ссылок

Пагинация часто выглядит как “дубли”: шаблон один и тот же, а меняется только набор элементов. Поэтому в большинстве проектов в индексе оставляют первую страницу, а страницы page=2+ считают техническими.

Самые частые стратегии:

canonical на первую страницу — чтобы все варианты пагинации “склеивались” в основной URL категории;
noindex для page=2+ — чтобы пагинация не попадала в индекс (иногда дополнительно канонизируют на первую).

Обычно редко оставляют пагинацию без контроля, потому что тогда страницы 2+ могут начать индексироваться как отдельные URL и раздувать индекс “похожими” страницами. При любом варианте важно, чтобы товары/материалы из глубины были доступны для обхода по ссылкам (пагинация, внутренние блоки, карта сайта), иначе часть ассортимента может обходиться хуже.

Что именно создает дубли в параметрах (и как это предотвращают)

Дубли появляются не только из-за “лишних страниц”, но и из-за разных технических вариантов одной и той же страницы.

1) Разный порядок параметров

?color=black&size=42 и ?size=42&color=black - один смысл, два URL.

Решение: единая логика формирования URL (один порядок параметров) и выбор “главной” версии.

2) Разные названия параметров для одного и того же

Например, одновременно:

?sort=price
?orderBy=price

Решение: унификация. Один параметр - одно значение.

3) Смешивание разных форматов URL

Например, фильтр доступен и так, и так:

/catalog/krossovki/?color=black
/catalog/krossovki/black/

Решение: выбирается один основной формат, второй становится вторичным. Иначе вы сами плодите дубли.

4) Параметры, которые не меняют контент

utm_*, ref, from, clid и подобное.

Решение: такие параметры не должны создавать “новые страницы” в индексе.

Инструменты контроля дублей: что используют чаще всего

Здесь идея не в том, чтобы сразу углубляться в каждую настройку, а понять, какие рычаги вообще существуют.

Canonical

Помогает показать поисковику, какая версия URL считается основной, если есть похожие варианты.

Noindex

Используют для технических вариантов (сортировки, “вид”, часть фильтров), чтобы они не становились отдельными страницами в индексе.

Robots.txt и правила для параметров

Используют аккуратно. Блокировка обхода не всегда равна “исчезновению из индекса”, поэтому это скорее инструмент управления обходом, а не универсальная чистка.

Нюанс: в Яндексе часто используют директиву Clean-param в robots.txt или добавляют настройку в Яндекс Вебмастере, чтобы игнорировать определенные параметры. Это полезно именно для мусорных параметров, которые не меняют контент.

Редиректы на чистый URL

Иногда применяют для трекинговых параметров, чтобы сразу приводить пользователя и робота к основному URL. Это не всегда обязательно, но логика понятная: одна страница - один адрес.

Типовые ошибки, из-за которых индекс раздувается

Индексируются все фильтры подряд “пусть будет, вдруг зайдет”.
Индексируются сортировки и параметры отображения.
Внутренние ссылки ведут на комбинации параметров как на обычные страницы.
Есть несколько равноправных URL для одного фильтра (разный порядок параметров, разные форматы).
Для фильтров нет правил: какие можно индексировать, какие нельзя.
Появляются пустые страницы фильтров (0 товаров) и они доступны для обхода.
Бесконечные комбинации: скидки, доставка, наличие, рейтинги, размер, цвет, бренд - все перемножается и превращается в “бесконечный каталог”.

Мини-чек-лист: что проверить, чтобы держать дубли под контролем

Какие параметры существуют на сайте и какие из них меняют контент.
Есть ли список фильтров и комбинаций, которые вы считаете SEO-страницами.
Не индексируются ли сортировки и параметры отображения.
Нет ли дублей из-за порядка параметров и разных форматов URL.
Не ведут ли внутренние ссылки на технические комбинации параметров.
Не появляются ли пустые или почти пустые страницы фильтров, которые можно обойти по ссылкам.

Если навести порядок на этом уровне, сайт становится “чище”: меньше дублей, меньше мусора в индексе и проще управлять ростом каталога или раздела.