Добавление директивы в robots.txt


#1

Добрый день!

Пришла рекомендация от Яндекс Вебмастера:

Добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал незначащие GET-параметры в URL. Робот Яндекса, используя эту директиву, не будет много раз обходить повторяющийся контент.

Как можно настроить данную директиву?
Заранее спасибо!


#2

В User-Agent: Yandex добавляете Clean-param и там уже задаете параметры, которые нужно исключить, например:

Clean-param: selected_section&items_per_page


#3

Вот мой вариант:
Clean-param: combination&match&subcats&pcode_from_q&pshort&pfull&pname&pkeywords&search_performed&q&dispatch&features_hash&product_id&post_redirect_url&promotion_id&page&sort_by&sort_order&layout&return_url&block&position&s_layout&redirect_url&utm_sourse&frommarket&items_per_page&with_images&selected_section&clid&prev_url&n_items&show_not_found_notification&utm_medium&utm_campaign&utm_content&utm_term&block&source&region&region_name&placement&roistat


#4

А если в Robots вписать строку?
Disallow: *?*
Так никакие URL с параметрами не будут доступны поисковикам
И никаких Clean-param тогда не надо. Все смысловые странички должны быть без параметров в URL

Какие мнения общественности?


#5

По Disallow как я понимаю робот все равно ходит, просто в индекс страницы не попадают. А через Clean-param он получает базовую страницу без get параметров, за счет чего экономится краулинговый бюджет. Как то так, если ошибаюсь поправьте…


#6

У меня во такими “шмурдяками” забит вебмастер на которые он начал уже ругаться

site/obj_prefix=main_info_title_&object_id=45612&object_type=P&post_redirect_url=index.php%3Fdispatch%3Dproducts.view%26product_id%3D45612%26selected_section%3Ddiscussion%23discussion&rf_parent_post_id=279


#7

У меня месяц назад было 160000 загруженных страниц из них 70000 в индексе, как раз прилетело письмо от Яндекса про clean param, после добавления в роботс параметров, осталось 100000 загруженных, количество в индексе не изменилось. Из позитивного заметил, что в обходе стали все чаще мелькать страницы категорий, а фигни похожей на ту как вы прислали не стало вообще.


#8

clean-param только яндекс понимает.


#9

У Гугла в серч консоли тоже есть раздел куда можно вставить get параметры.


#10

webmaster жжет при проверке страницы с параметрами из этого перечня:

URL не принадлежит указанному домену


#11

Это не url это сама директива clean-param из роботса


#12

Хз, я этот список собирал недели 2, все урлы проверял через проверку роботс в вебмастере, с такой проблемой не сталкивался.


#13

не, я вставил тоже такую строку и в вебмастере где проверка роботса подсунул url с этими параметрами


#14

Это просто весь набор человек собрал параметров, в реальности такой странички естественно нет.
Можно скомбинировать disallow *?* и clean-param
первый прибьет если вдруг не все попадет под последний )


#15

Попробуйте урл с фильтрами прогнать через проверку или ссылку которую дает кнопка “добавить в сравнение” у меня очень много таких ссылок было по результатам обхода, при том что они закрыты noindex


#16

Следом за ними полезли адреса с utm метками для директа, они похоже кэшируются и потом их также робот Яндекса обходит.


#17

я подставил … все нормально