Что скрывает crawl budget: как теги и фильтры крадут индексацию и что можно сделать без разработчика

В одном московском агентстве молодой SEO-аналитик столкнулся с простой, но болезненной задачей: крупный интернет-магазин с тысячами товарных карточек перестал продвигаться по долгим поисковым запросам, а в Google регулярно появлялись сотни дублирующихся URL с параметрами фильтров. Цель этой статьи — подробно разобрать, почему теги и фасетная навигация (faceted navigation) могут «съедать» ваш crawl budget и как систематично вернуть индексацию под контроль, опираясь на рабочие инструменты и небольшие права доступа, часто доступные младшему специалисту.

Что такое crawl budget (бюджет сканирования)? Это количество страниц и частота, с которой поисковый робот (crawler, например Googlebot) сканирует сайт за определённый период. У каждого сайта этот «бюджет» ограничен и зависит от скорости сервера, качества страниц и внешних сигналов. Если роботы тратят ресурс на неважные дубликаты, важные страницы могут не попасть в индекс или быть обновлены с задержкой.

Определим ещё несколько важных терминов:
— Индексация — процесс, в результате которого страница добавляется в базу данных поисковой системы и становится доступной в результатах поиска.
— Фасетная навигация — система фильтров и сортировок на сайте (например: цвет, размер, цена), которая часто генерирует множество URL с параметрами.
— rel=canonical — тег, указывающий поисковой системе канонический (предпочтительный) URL для похожих страниц.
— noindex — мета-тег, запрещающий индексацию конкретной страницы.
— robots.txt — файл на сайте, который инструктирует роботов, какие разделы можно или нельзя сканировать.

Ниже — пять практических разделов, каждый с действенными рекомендациями и иллюстрацией в виде простой выдуманной ситуации.

Почему теги и фильтры так быстро съедают сканирование

Фасетная навигация удобна пользователю, но может создавать экспоненциальное число уникальных URL: сочетания фильтров, сортировок и параметров формируют тысячи адресов, которые видит поисковый робот. Поисковики, в поисках новой полезной информации, начинают посещать и эти URL — даже если содержимое фактически дублируется или полезно только для конкретного сеанса пользователя.

Пример-аналитика: Представьте библиотеку, где на каждой полке люди складывают копии одной и той же книги, но в разном порядке: по алфавиту, по году издания, по цветам обложек. Библиотекарь (Googlebot) имеет ограниченное время, чтобы пройтись по полкам, и тратит его на просмотр всех вариаций — в результате он не