Добавление директивы в robots.txt

Добрый день!

Пришла рекомендация от Яндекс Вебмастера:

Добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал незначащие GET-параметры в URL. Робот Яндекса, используя эту директиву, не будет много раз обходить повторяющийся контент.

Как можно настроить данную директиву?
Заранее спасибо!

В User-Agent: Yandex добавляете Clean-param и там уже задаете параметры, которые нужно исключить, например:

Clean-param: selected_section&items_per_page

1 лайк

Вот мой вариант:
Clean-param: combination&match&subcats&pcode_from_q&pshort&pfull&pname&pkeywords&search_performed&q&dispatch&features_hash&product_id&post_redirect_url&promotion_id&page&sort_by&sort_order&layout&return_url&block&position&s_layout&redirect_url&utm_sourse&frommarket&items_per_page&with_images&selected_section&clid&prev_url&n_items&show_not_found_notification&utm_medium&utm_campaign&utm_content&utm_term&block&source&region&region_name&placement&roistat

3 лайка

А если в Robots вписать строку?
Disallow: *?*
Так никакие URL с параметрами не будут доступны поисковикам
И никаких Clean-param тогда не надо. Все смысловые странички должны быть без параметров в URL

Какие мнения общественности?

По Disallow как я понимаю робот все равно ходит, просто в индекс страницы не попадают. А через Clean-param он получает базовую страницу без get параметров, за счет чего экономится краулинговый бюджет. Как то так, если ошибаюсь поправьте…

У меня во такими “шмурдяками” забит вебмастер на которые он начал уже ругаться

site/obj_prefix=main_info_title_&object_id=45612&object_type=P&post_redirect_url=index.php%3Fdispatch%3Dproducts.view%26product_id%3D45612%26selected_section%3Ddiscussion%23discussion&rf_parent_post_id=279

У меня месяц назад было 160000 загруженных страниц из них 70000 в индексе, как раз прилетело письмо от Яндекса про clean param, после добавления в роботс параметров, осталось 100000 загруженных, количество в индексе не изменилось. Из позитивного заметил, что в обходе стали все чаще мелькать страницы категорий, а фигни похожей на ту как вы прислали не стало вообще.

clean-param только яндекс понимает.

У Гугла в серч консоли тоже есть раздел куда можно вставить get параметры.

webmaster жжет при проверке страницы с параметрами из этого перечня:

URL не принадлежит указанному домену

Это не url это сама директива clean-param из роботса

Хз, я этот список собирал недели 2, все урлы проверял через проверку роботс в вебмастере, с такой проблемой не сталкивался.

не, я вставил тоже такую строку и в вебмастере где проверка роботса подсунул url с этими параметрами

Это просто весь набор человек собрал параметров, в реальности такой странички естественно нет.
Можно скомбинировать disallow *?* и clean-param
первый прибьет если вдруг не все попадет под последний )

Попробуйте урл с фильтрами прогнать через проверку или ссылку которую дает кнопка “добавить в сравнение” у меня очень много таких ссылок было по результатам обхода, при том что они закрыты noindex

Следом за ними полезли адреса с utm метками для директа, они похоже кэшируются и потом их также робот Яндекса обходит.

я подставил … все нормально