Идеальный robot.txt

Я себе такой сделал.

# Разрешить основным ботам доступ к важным страницам
User-agent: Googlebot
Allow: /
Disallow: /admin*
Disallow: /login*
Disallow: /profiles-update*
Disallow: /search*
Disallow: /*?*items_per_page=
Disallow: /*?*sort_by=
Disallow: /*?*sort_order=
Disallow: /*?*currency=
Disallow: /*?*layout=
Disallow: /*?*variant_id=
Disallow: /*?*display=
Disallow: /*?*return_url=
Disallow: /*?*more_filters=
Disallow: /*?*subcats=
Disallow: /*?*sef_rewrite=
Disallow: /*?*tags.summary=
Disallow: /*?*features_hash=
Disallow: /*?*cid=
Disallow: /*?*phone_country=
Disallow: /*?*dispatch=
# Исключения для пагинации и языков (если используются)
Allow: /*?page=
Allow: /*?lang=

User-agent: Bingbot
Allow: /
Disallow: /admin*
Disallow: /login*
Disallow: /profiles-update*
Disallow: /search*
Disallow: /*?*items_per_page=
Disallow: /*?*sort_by=
Disallow: /*?*sort_order=
Disallow: /*?*currency=
Disallow: /*?*layout=
Disallow: /*?*variant_id=
Disallow: /*?*display=
Disallow: /*?*return_url=
Disallow: /*?*more_filters=
Disallow: /*?*subcats=
Disallow: /*?*sef_rewrite=
Disallow: /*?*tags.summary=
Disallow: /*?*cid=
Disallow: /*?*phone_country=
Disallow: /*?*dispatch=
Allow: /*?page=
Allow: /*?lang=

User-agent: YandexBot
Allow: /
Disallow: /admin*
Disallow: /login*
Disallow: /profiles-update*
Disallow: /search*
Disallow: /*?*items_per_page=
Disallow: /*?*sort_by=
Disallow: /*?*sort_order=
Disallow: /*?*currency=
Disallow: /*?*layout=
Disallow: /*?*variant_id=
Disallow: /*?*display=
Disallow: /*?*return_url=
Disallow: /*?*more_filters=
Disallow: /*?*subcats=
Disallow: /*?*sef_rewrite=
Disallow: /*?*tags.summary=
Disallow: /*?*features_hash=
Disallow: /*?*cid=
Disallow: /*?*phone_country=
Disallow: /*?*dispatch=
Allow: /*?page=
Allow: /*?lang=

# Запретить всем остальным ботам сканировать сайт
User-agent: *
Disallow: /

# Указать карту сайта
Sitemap: https://site.com/sitemap.xml```

У меня к примеру на сайте 2 языка, ru и en как закрыть все для en ?

Зачем?
Карт же перевязывает языковые версии страниц и поисковики понимают, что это одна и таже страница.
А если у вас модуль СайтМапа от АБ, то в нем они тоже связаны.

Не нравится когда в поиске вбиваешь название сайта и выходит мета описание и вывод заголовков категорий и там написано Электроника а потом снизу уже Apparel и прочее, ранее на другом проекте закрыл и норм было, выводились Одежда и все смотрелось куда приятней. помню писал что-то типа sl-en что ли )))

Для учета всех поведенческих факторов в robots.txt в секции User-agent: Yandex не должно быть ни Disallow: /?* ни Disallow: /?[название GET-параметра]*

Все GET-параметры надо перечислить через & в директиве Clean-Param.
Справка Яндекс Директива Clean-param - Вебмастер. Справка

Переписка с ТП Яндекса.
Вопрос снизу, ответ сверху.



Проверка в инструменте Вебмастера Анализ robots.txt одновременного использования директив Disallow: /?* и Clean-Param. Работает Disallow: /?*

Что делать с ваги…, простите, с пагинацией - холиварный вопрос среди сеошников.
Потому что нет однозначного консенсусного ответа.
Одни закрывают в Disallow: /?page=, потому что это дубли первой страницы другие открывают, потому что надо же как-то индексировать все товары.
Третьи каноникл на первую ставят.
Четвертые деоптимизируют непервые страницы и прописывают в мета-тегах нумерацию.
На маленьких сайтах (до 10000 страниц) я бы закрывал в Disallow: /*?page= для User-agent: * и в Clean-Param для User-agent: Yandex, чтобы не каннибалили первую страницу (категорию).
Canonical является рекомендацией, и может не срабатывать.
Деоптимизация тоже так себе выход, потому что листинг задаёт релевантность, которая может перебить мета-теги.
А вот на больших сайтах, где есть проблема нехватки краулингового бюджета я бы открывал пагинацию для индексирования, но со всеми этими Canonical и деоптимизациями

Возможно вам будет интересно.

Есть еще свежий вариант на топе одном
Розетка сделала страницы пагинации под города
1я Телевизоры Киев
2я Телевизоры Львов
3я Телевизоры Харьков
https://rozetka.com.ua/all-tv/c80037/page=2/
https://rozetka.com.ua/all-tv/c80037/page=3/

Да, это старая легенда, что оптимизация страниц пагинации по регионам поможет региональному ранжированию.
Крупные старые монстры могут вообще делать многое из того, что не стоит делать небольшим сайтам.

1 лайк

А как быть с вариациями? Тоже холиванрый вопрос. У меня большая часть товаров с вариациями (?variation_id=). У вариаций canonical настроен, но на практике они лезут в индекс и потом оттуда исключаются как неканонические и так по кругу. Ну или дублями могут стать. По идее их надо закрывать? Причем тоже для Яндекса через Clean-Param а отстальным через Disallow: *?*variation_id=. Так? Или не стоит закрывать вариации?

Конечно закрывайте, они не нужны в индексе. И canonical не поможет

А вот у меня страницы пагинации прикрыты только тегами noindex самой темы и имеют вид в урл /page-2 /page-3 и так далее.
Соответственно смотрю яндекс их заносит в индекс, а потом исключает как защищенные тегом noindex. И так похоже по кругу происходит.
Имеет смысл закрыть их в robots через Disallow: */page- и дя всех и для яндекса. Т.к через clean-param в этом случае не закрыть?
Или может оставить noindex и пусть туда сюда гоняет из индекса их?
И да, canonical первую станицу настроен

noindex закрывает от индексации, и поведенческие факторы не учитываются.
Не думаю, что на не первых страницах пагинации много посетителей оставляют прямо вот хорошие ПФ, но так бывает. Например в свадебных платьях.
Поэтому для Яндекса лучше Clean-Param

Ну так вывод то какой в итоге можно сделать? Выше вы писали что для избежания канибализма первой страницы остальные прикрыть прям в robots. Или для Яндекса через clean-param. В последнем посте упор сделали на сбор поведенческого с остальных страниц. В случае если страницы пагинации задаются не параметром в url, а имеют вид page-2 page-3 никакой clean-param не применить. Только полностью закрывать пагинацию в robots. Тогда никакого поведенческого не будет. Так что страшнее? Канибализм первой страницы пагинации или отсутствие поведенческого с остальных страниц?
Вот открытый вопрос

1 лайк

у меня на всех сайтах сделано для пагинации в коде страниц noindex и ниодна страница не попадала в индекс ниразу.

<meta name="robots" content="noindex, follow"/>

Никак не могу понять в чем проблема переобхода, делаю Запросить индексирование отправляю постоянно пишет Заблокировано в robots.txt

И что означает Страница проиндексирована без контента? Мало того ссылающиеся страницы идут куда-то. Как убрать это?
http://epidsale.xyz/
http://rankplant.com/viola-maker.html кто это вообще и почему наши страницы ссылаются на них?

Вот мой robots.txt что в нем не так? Дайте пожалуйста нормальный robots.txt для гугла и для яндекса, у нас гугла, пожалуйста.

User-agent: *
Disallow: ?selected_section
Disallow: ?show_not_found_notification
Disallow: /collection_product
Disallow: /search/
Disallow: /variant
Disallow: /wishlist.delete
Disallow: /attachment
Disallow: /items_per_page
Disallow: /app/
Disallow: /store_closed.html
Disallow: /
?subcats

Disallow: /index.php

Disallow: product_id
Disallow: /
?match*
Disallow: features_hash

User-agent: Yandex
Clean-param: combination&match&subcats&pcode_from_q&pshort&pfull&pname&pkeywords&search_performed&q&dispatch&features_hash&product_id&post_redirect_url&promotion_id&page&sort&sort_by&sort_order&layout&return_url&block&position&s_layout&redirect_url&utm_sourse&frommarket&items_per_page&with_images&selected_section&clid&prev_url&n_items&show_not_found_notification&utm_medium&utm_campaign&utm_content&utm_term&block&source&region&region_name&placement&roistat&rf_parent_post_id&utm
Clean-param: &object_type&object_id&obj_prefix&route&tag_id&limit&path&variation_id&sl&product_review_id&variant_id&manufacturer_id&category_id&post_id&order&abt_in_popup&cookies_accepted&page_id&template&frmgrably

Host: https:/site.com
Sitemap: https://site.com/sitemap.xml