Идеальный robot.txt

Я себе такой сделал.

# Разрешить основным ботам доступ к важным страницам
User-agent: Googlebot
Allow: /
Disallow: /admin*
Disallow: /login*
Disallow: /profiles-update*
Disallow: /search*
Disallow: /*?*items_per_page=
Disallow: /*?*sort_by=
Disallow: /*?*sort_order=
Disallow: /*?*currency=
Disallow: /*?*layout=
Disallow: /*?*variant_id=
Disallow: /*?*display=
Disallow: /*?*return_url=
Disallow: /*?*more_filters=
Disallow: /*?*subcats=
Disallow: /*?*sef_rewrite=
Disallow: /*?*tags.summary=
Disallow: /*?*features_hash=
Disallow: /*?*cid=
Disallow: /*?*phone_country=
Disallow: /*?*dispatch=
# Исключения для пагинации и языков (если используются)
Allow: /*?page=
Allow: /*?lang=

User-agent: Bingbot
Allow: /
Disallow: /admin*
Disallow: /login*
Disallow: /profiles-update*
Disallow: /search*
Disallow: /*?*items_per_page=
Disallow: /*?*sort_by=
Disallow: /*?*sort_order=
Disallow: /*?*currency=
Disallow: /*?*layout=
Disallow: /*?*variant_id=
Disallow: /*?*display=
Disallow: /*?*return_url=
Disallow: /*?*more_filters=
Disallow: /*?*subcats=
Disallow: /*?*sef_rewrite=
Disallow: /*?*tags.summary=
Disallow: /*?*cid=
Disallow: /*?*phone_country=
Disallow: /*?*dispatch=
Allow: /*?page=
Allow: /*?lang=

User-agent: YandexBot
Allow: /
Disallow: /admin*
Disallow: /login*
Disallow: /profiles-update*
Disallow: /search*
Disallow: /*?*items_per_page=
Disallow: /*?*sort_by=
Disallow: /*?*sort_order=
Disallow: /*?*currency=
Disallow: /*?*layout=
Disallow: /*?*variant_id=
Disallow: /*?*display=
Disallow: /*?*return_url=
Disallow: /*?*more_filters=
Disallow: /*?*subcats=
Disallow: /*?*sef_rewrite=
Disallow: /*?*tags.summary=
Disallow: /*?*features_hash=
Disallow: /*?*cid=
Disallow: /*?*phone_country=
Disallow: /*?*dispatch=
Allow: /*?page=
Allow: /*?lang=

# Запретить всем остальным ботам сканировать сайт
User-agent: *
Disallow: /

# Указать карту сайта
Sitemap: https://site.com/sitemap.xml```

У меня к примеру на сайте 2 языка, ru и en как закрыть все для en ?

Зачем?
Карт же перевязывает языковые версии страниц и поисковики понимают, что это одна и таже страница.
А если у вас модуль СайтМапа от АБ, то в нем они тоже связаны.

Не нравится когда в поиске вбиваешь название сайта и выходит мета описание и вывод заголовков категорий и там написано Электроника а потом снизу уже Apparel и прочее, ранее на другом проекте закрыл и норм было, выводились Одежда и все смотрелось куда приятней. помню писал что-то типа sl-en что ли )))

Для учета всех поведенческих факторов в robots.txt в секции User-agent: Yandex не должно быть ни Disallow: /?* ни Disallow: /?[название GET-параметра]*

Все GET-параметры надо перечислить через & в директиве Clean-Param.
Справка Яндекс Директива Clean-param - Вебмастер. Справка

Переписка с ТП Яндекса.
Вопрос снизу, ответ сверху.



Проверка в инструменте Вебмастера Анализ robots.txt одновременного использования директив Disallow: /?* и Clean-Param. Работает Disallow: /?*

Что делать с ваги…, простите, с пагинацией - холиварный вопрос среди сеошников.
Потому что нет однозначного консенсусного ответа.
Одни закрывают в Disallow: /?page=, потому что это дубли первой страницы другие открывают, потому что надо же как-то индексировать все товары.
Третьи каноникл на первую ставят.
Четвертые деоптимизируют непервые страницы и прописывают в мета-тегах нумерацию.
На маленьких сайтах (до 10000 страниц) я бы закрывал в Disallow: /*?page= для User-agent: * и в Clean-Param для User-agent: Yandex, чтобы не каннибалили первую страницу (категорию).
Canonical является рекомендацией, и может не срабатывать.
Деоптимизация тоже так себе выход, потому что листинг задаёт релевантность, которая может перебить мета-теги.
А вот на больших сайтах, где есть проблема нехватки краулингового бюджета я бы открывал пагинацию для индексирования, но со всеми этими Canonical и деоптимизациями

Возможно вам будет интересно.

Есть еще свежий вариант на топе одном
Розетка сделала страницы пагинации под города
1я Телевизоры Киев
2я Телевизоры Львов
3я Телевизоры Харьков
https://rozetka.com.ua/all-tv/c80037/page=2/
https://rozetka.com.ua/all-tv/c80037/page=3/

Да, это старая легенда, что оптимизация страниц пагинации по регионам поможет региональному ранжированию.
Крупные старые монстры могут вообще делать многое из того, что не стоит делать небольшим сайтам.

1 лайк

А как быть с вариациями? Тоже холиванрый вопрос. У меня большая часть товаров с вариациями (?variation_id=). У вариаций canonical настроен, но на практике они лезут в индекс и потом оттуда исключаются как неканонические и так по кругу. Ну или дублями могут стать. По идее их надо закрывать? Причем тоже для Яндекса через Clean-Param а отстальным через Disallow: *?*variation_id=. Так? Или не стоит закрывать вариации?

Конечно закрывайте, они не нужны в индексе. И canonical не поможет

А вот у меня страницы пагинации прикрыты только тегами noindex самой темы и имеют вид в урл /page-2 /page-3 и так далее.
Соответственно смотрю яндекс их заносит в индекс, а потом исключает как защищенные тегом noindex. И так похоже по кругу происходит.
Имеет смысл закрыть их в robots через Disallow: */page- и дя всех и для яндекса. Т.к через clean-param в этом случае не закрыть?
Или может оставить noindex и пусть туда сюда гоняет из индекса их?
И да, canonical первую станицу настроен

noindex закрывает от индексации, и поведенческие факторы не учитываются.
Не думаю, что на не первых страницах пагинации много посетителей оставляют прямо вот хорошие ПФ, но так бывает. Например в свадебных платьях.
Поэтому для Яндекса лучше Clean-Param

Ну так вывод то какой в итоге можно сделать? Выше вы писали что для избежания канибализма первой страницы остальные прикрыть прям в robots. Или для Яндекса через clean-param. В последнем посте упор сделали на сбор поведенческого с остальных страниц. В случае если страницы пагинации задаются не параметром в url, а имеют вид page-2 page-3 никакой clean-param не применить. Только полностью закрывать пагинацию в robots. Тогда никакого поведенческого не будет. Так что страшнее? Канибализм первой страницы пагинации или отсутствие поведенческого с остальных страниц?
Вот открытый вопрос

1 лайк