Как защититься от парсинга и 100% загрузки процессора?

Со вчерашнего дня сайт атаковали боты, роботы, не знаю кто… стоит плагин антибот, но не спасло. Думаю, что парсили товарку. Сегодня в 6 утра загрузка упала. Процесс “парсинга” жрет ресурсы до 100%. Как быть? Что делать? Кто сталкивался? Что сайты у тебя лежат волнами и ничего не сделать?

Может аналитика или веб мастер гуляет по сайту? )))

Хостера просить помочь.
Через КлаудФлейр сайт пустить пытаться.
В access.log можно посмотреть откуда запросы.
Есть команды ssh чтобы посмотреть с каких ip идут запросов больше всего.
В общем разные есть варианты.
Мы перешли на КлаудФлейр, но даже его обходят постоянно боты, но в нем хоть по логам и графикам их банить удобно по разным параметрам.

Ставить AWStats, смотреть кто регулярно из ботов сканит сайт, ненужных банить вот этим кодом вставить в .htaccess

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (SemrushBot|AhrefsBot|BLEXBot|MJ12bot|feed|link|DotBot|nbot|Amazonbot) [NC]
RewriteRule .* - [F,L]

чаще всего падает сервер из-за яндекс ботов, сделать скорость обхода до минимума 0.2 в вебмастере яндекса.

Есть ещё зедпрайс он же 7прайс. Который используют поставщики для контроля цен.
Он также безбожно может ронять сайт.

Кстати если поставить ПейджКеш от @CS-Commerce, то сайту будет сильно полегче. Он правда на сколько я помню полезным ботам страницы без Кеша показывает, а вот всяким парсерам прайсов уже из кеша, ведь они прикидываются обычными людьми.

1 лайк

cloudflare точно спасет. Можно настроить разные уровни защиты от ddos (а то, что у вас происходит - сродни ddos). А вообще лучше ресурсы увеличить. Минимум 2 ядра и 4Гб памяти, и если это просто парсинг или аналитика или и то и другое, то должно хватить

3 ядра и 4 оперативы кладут яндекс боты с минимальной скоростью обхода. зависит еще от количества страниц и качества самого железа.

1 лайк

для понимания что видно в AWStats - https://imgur.com/7t8L92X
после того как баните через htaccess - нагрузка CPU сразу снижается.

Рейт лимит там не работает нормально.
Я даже на своем ИП пробовал делать 2 запроса за 10 секунд. Оно третий запрос банит, а четвертый уже пропускает.
И капчу боты многие тоже к сожалению обходят.
Побанил их по другим признакам.

Вы кстати не знаете как сделать там капчу сложнее, а не просто 1 галочка? Хотя бы как у кугла с картинками.

у мне платный тариф
подключен супербот проверка
куча правил
и вот боты проходят эту смешную капчу
спасает только блок

та даже я ее обхожу
просто надо скормить парсеру куки и вперед…

супер бот против дос атак, в вашем случае бесполезен

на самый крайний случай можно блокировать по подсети asn
security-waf-tools
AS35048 block

вот эта ботная asn например biterika

Так Клауд сам показывает все сети.
Но вы не понимаете, это не тупые ддосы от китайцев и т.п., боты умные. В основном работают через мобильных операторов местных.
Вы же не будете блокировать мобильный трафик.
Поэтому ручками - все+юзер-агент+реферер+ещё что-то.
И вот такие пляски регулярно, т.к. они тоже адаптируются.

Есть идея заказать модуль который бы просто подменял ботам содержимое страницы, чтобы парсеры прайсов получали у ней доступ, но видели другие цены и поставщики не заё меня…

Если кто желает скинуться на такое, то приглашаю.

Подскажите как заблокировать эти сети своими руками? https://ip-ranges.amazonaws.com/ip-ranges.json

в cloudflare легко
в амазон авс где-то в настройках днс или файрвол

интересует только прямое решение без сторонних сервисов.

Есть пcевдо-решения типа https://marketplace.cs-cart.com/security.html

уже решил, список подсетей добавлен в htaccess с приставкой Deny from