Robots.txt

Я понимаю, что тема поднимается уже в миллионный раз. Уверен был, что найду поиском. Поискал. Пришел к выводу, что со сменой версий закрытие многих url-ов от индексации потеряло актуальность. Не хотелось бы что-то упустить и дать роботам проиндексировать лишние страницы.

Для 4.4.3 роботс положу ниже. Буду благодарен, если появятся комментарии на тему: добавить/убрать.

User-agent: *
Disallow: /images/thumbnails/
Disallow: /app/
Disallow: /design/
Disallow: /var/
Disallow: /store_closed.html
Disallow: /*features_hash=

Sitemap: http://mysite.ru/sitemap.xml
Host: mysite.ru

Всем ответившим заранее благодарен.

1 лайк

Я тут подумал, наверное стОит добавить

Disallow: /*products.search

и закрыть результаты поиска.

СтОит?

User-agent: Yandex
Clean-param: items_per_page&sort_by&sort_order

User-agent: *
Disallow: /app/
Disallow: /store_closed.html
Disallow: админ_скрипт.php
Disallow: /login
Disallow: /index.php?dispatch=products.newest&
Disallow: /index.php?dispatch=products.search
Disallow: /index.php?dispatch=products.quick_view
Host: www.сайт.ru
Sitemap: http://www.сайт.ru/sitemap.xml

У меня вот так

Disallow: админ_скрипт.php

bad idea, first thing where most look for admin link is in robots.txt

1 лайк

Disallow: админ_скрипт.php

bad idea, first thing where most look for admin link is in robots.txt

in fact, the name of the script looks like this (as an example):

34xkjrnd753dfadmin.php.

And the rule is written:

Disallow: *admin.php

without this rule, the script is indexed by Yandex...

Доброго дня, коллеги! У меня по robots.txt ест два момента: в нем жестко прописан хост с HTTPS и еще 1 параметр:

Clean-param: items_per_page&sort_by&sort_order
Host: https://site.ru

Как считаете, по обоим моментам, правильно ли сделано?

Доброго дня, коллеги! У меня по robots.txt ест два момента: в нем жестко прописан хост с HTTPS и еще 1 параметр:

Clean-param: items_per_page&sort_by&sort_order
Host: https://site.ru

Как считаете, по обоим моментам, правильно ли сделано?

Clean-param надо отдельно для яндекса бота прописать, гугл этого не знает, это чисто фишка яндекса, поэтому гугл будет ругаться

Clean-param надо отдельно для яндекса бота прописать, гугл этого не знает, это чисто фишка яндекса, поэтому гугл будет ругаться

Что думаете про:

Disallow: /*features_hash=

У нас, видимо разные версии. URLы по-разному формруются.

С точки зрения синтаксиса тут не будет ошибок?:

Disallow: /*dispatch=products.newest&
Disallow: /*dispatch=products.search
Disallow: /*dispatch=products.quick_view

Нормально. можно даже без слэша, звёздочка же есть )

Что думаете про:

Disallow: /*features_hash=

У нас, видимо разные версии. URLы по-разному формруются.

С точки зрения синтаксиса тут не будет ошибок?:

Disallow: /*dispatch=products.newest&
Disallow: /*dispatch=products.search
Disallow: /*dispatch=products.quick_view

У вас 4.4.х ?

У вас 4.4.х ?

Да. 4.4.3

Нормально. можно даже без слэша, звёздочка же есть )

А если указать

Disallow: *dispatch*

Вместо трех строк - одну. Так не проще будет? Или я что-то упускаю таким образом?

А если указать

Disallow: *dispatch*

Вместо трех строк - одну. Так не проще будет? Или я что-то упускаю таким образом?

Я бы не стал так рисковать

Я бы не стал так рисковать

А в чем риск? Я не создавал страниц с именем *dispatch*, значит закрываем страницы, которые генерирует CMS.

Или я не прав?

User-agent: Yandex
Clean-param: items_per_page&sort_by&sort_order

User-agent: *
Disallow: /app/
Disallow: /store_closed.html
Disallow: админ_скрипт.php
Disallow: /login
Disallow: /index.php?dispatch=products.newest&
Disallow: /index.php?dispatch=products.search
Disallow: /index.php?dispatch=products.quick_view
Host: www.сайт.ru
Sitemap: http://www.сайт.ru/sitemap.xml

У меня вот так

Прописал:

User-agent: Yandex
Clean-param: items_per_page&sort_by&sort_order

Но инструмент проверки robots.txt от Гугла ругается на эту запись: http://prntscr.com/e3gk5w

Хотя эта секция файла адресована не ему... У Вас так же?

Консоль Google по-моему до сих пор не умеет распознавать принадлежность информации в User-agent, то есть она выдает только общие рекомендации по ошибкам в Robots.txt, вне сависимости от того, для какого поисковика они составлены. А работать все должно нормально, ведь разграничения по секциям прописаны правильно.

У меня 2?.

  1. Может сам автор @alex_vp вот этого поста Robots.txt ответит. Я пока не настраивал Robot.txt. Достаточно ли такой настройки для большинства или еще что-то нужно?

  2. У меня сейчас витрина закрыта и стоит заглушка store_closed.html. Но из-за нее многие сервисы ругаются или не работают, если смотреть про оптимизацию страницы. А в документации указано, если на хостинге указано, что лежит файл robots.tx., то инструкции из CMS игнорируются.

Можно ли поступить следующим образом?

  1. Открыть витрину.
  2. В Robots.txt прописать Disallow: *

Т.к. сайт пока не индексируется, по поиску его не найти, только по прямому заходу. Прямой вход мне не страшен, сайт особо никто не знает :slight_smile:
Я спокойно его тестирую, и настраиваю.

Я вообще не пойму как это все теперь работает и кто косячит, сайт или Яндекс. Раньше clean-param нормально отрабатывал, а сегодня увидел, что вебмастер каждый день игнорируя эту инструкцию добавляет страницы в индекс. Лежит файл робота в корне, в котором эта инструкция прописана, и есть настройка вадминке, где стандартные записи. Яндекс вебмастер говорит что видит именно мой файл. Но упорно индексирует страницы с закрытыми мной параметрами. завтра буду разбираться…
А что 2?

А, понял, два вопроса )
Думаю, что алгоритм верный, закрытый от индексирования сайт и не должен индексироваться, либо сервисам по оптимизации скармливать ссылку с параметром store_access_key

1 лайк

Было бы круто, если бы Вы выложили итоговый вариант на текущий момент. С последней датой правки.
А то, я уже потерял нить.

1 лайк