Защита cs-cart от копирования


#1

Здравствуйте! Подскажите, а на cs-cart есть какая-то защита от парсинга каталога товаров?


#2

Нет и это в целом бесполезно. Этой защиты нет ни у ламоды, ни у озона, ни у wildberries. Спрашивать откуда я знаю лучше не надо :slight_smile:


#3

Полностью защитить от парсинга нельзя. Но, можно немного затруднить парсинг. Например, поставить ограничение на частое открытие страницы в связке IP+браузер. В этом случае, если программа начнет парсить ваш каталог, то быстро сделать это не получится.

Или расставить в тексте ссылки на внутренние страницы сайта. Тогда программа спарсит ваш каталог вместе со ссылками на ваш сайт и убирать их тоже будет время.

Также рассмотрите защиту от копирования контента в Яндекс Вебмастере. Информация о сайте - Оригинальные тексты.


#4

КонтентДовнлоадер это все победит )) Бессмысленная трата времени эти защиты.
Имхо лучший вариант - ватермарки на картинки. В Карте это норм реализовано. Такие сайты смысла парсить мало.


#5

Вроде бы это негативно сказывается на выдачу картинок в поисковых системах. И плюс страдает немного юзабилити и пользовательский опыт.


#6

если у вас сайт по торговле картинками наверное это важно.

Подскажите как именно страдает пользователь?


#7

кого-то могут раздражать ватермарки на изображениях.


#8

Мне приходилось немало парсить сайты, спарсил наверное под сотню различных интернет-магазинов, в процессе сталкиваясь с различными препятствиями. По итогу могу сказать что любые попытки защиты бессмысленны и обходятся вообще не напрягаясь, без каких-то особо специфических знаний. Но есть три вещи(вспомнил сейчас три), которые могут огорчить желающего стырить контент, и с большой вероятностью заставить передумать этим заниматься на вашем сайте. Первая - вотермарки на изображениях. Ценность сайта разом падает многократно. Разумеется, появляются мысли фотки взять с одного сайта, а описания и прочее с другого, но там свои заморочки, зачастую увеличивающие трудозатраты до уровня нецелесообразности. Вторая - отсутствие артикулов производителей на страницах товаров в отдельных полях, или в строго определенном месте. Если на сайте используется какой-то свой внутренний код, а артикулы товара являются частью наименования, причем без определенных признаков, встречаются и в середине и в конце, то результаты парсинга сложно сопоставить со своей номенклатурой и заниматься этим так же не особо интересно. Есть варианты, конечно же, но опять ведущие к увеличению трудозатрат и увеличению вероятности ошибок. Третье, наименее очевидное - это регулярные упоминания названия компании в описании, включения в описания товаров вариантов доставки в различной форме, каких-то особенностей именно вашего интернет-магазина в произвольной форме. Когда после десятка-другого операций “Поиск-замена” в описаниях сохраняется всё-равно множество признаков сайта-источника, да вдобавок к тому уже портятся сами описания, ценность так же падает, отказаться именно от ваших описаний могут на этапе, когда весь контент уже спарсили.

Но, по правде говоря, не вижу смысла об этом думать. Если вы не один из лидеров рынка парсить вас вряд ли кто-то будет. Если же хотят спарсить с какими-то специфическими целями - всё-равно необходимое получат, так или иначе. Можете посмотреть, сейчас даже компании есть парсящие все топовые интернет-магазины вообще, причем ежесуточно. И можно купить результаты, за вполне адекватные деньги. Результаты используются чаще всего для аналитики цен, услугами таких компаний пользуются не только интернет-магазины, но и производители товаров, для аналитики рынка, контроля цен. Подумайте, если ежедневно, на постоянной основе, парсят сотни топовых сайтов, на многих из которых по несколько сотен тысяч товаров, сможете ли вы что-то противопоставить этому, не закрыв сайт от посетителей? Не думаю.


#9

Мы делали такую задачу для сервиса где парсинг собсно и является продуктом сервиса. Пишите в ЛС покажем живой пример


#10

А имеет значение, “находит” ватермарк на само изображение или оно просто на белом фоне в углу?
Хочется минимизировать видимость водяного знака для рядового пользователя. С одной стороны такой водяной знак можно вырезать в любом графическом редакторе и получить исходное изображение. Но это работает, если вручную достаточно взять себе парочку изображений. Если парсится каталог из 50 тысяч позиций, то вручную же потом не будет никто из этих 50 тысяч картинок вырезать водяной знак? Или это можно как-то автоматизировать и стоит тогда водяной знак ставить где-нибудь по центру изображений?


#11

Если водяной знак в каком-то определенном месте на белом фоне, то вы его сможете затереть даже пустым белым ватермарком без прозрачности, установленным перед импортом в тот же CS-Cart. Есть и софт для массовой обработки изображений, позволяющий делать массовую обработку большого количества изображений.


#12

Подскажите, есть ли всё-таки какие-то минимальные защиты (типа ограничение обращений с одного IP) для защиты сайта от парсинга?
Очень много сил вложено в составление базы товаров для сайта, по сути получается уникальный в своём сегменте сайт, очень не хочется, чтобы его спарсили.
Понимаю, что при желании всё равно спарсят, то ведь лучше хоть какая-то минимальная защита, чем вообще её отсутствие?
Ватермарки уже стоят на изображениях. Текстовых описаний практически нет, основной упор на характеристики. Как-то прятать артикулы/маркировки товаров тоже нельзя, т.к. это на SEO скажется.


#13

такое наверняка можно на сервере настроить.

но профи это не остановит, а если возьмутся парсить сайт с ватермарками для последующей их замены на чистые, то наверняка это будет делать профи.
все что загружается в браузер - можно спарсить.


#14

Попробуйте у хостера спросить, они что-нибудь подскажут. Это к ним ближе, чем к CS-Cart


#15

А теоретически, если какое-то подобное ограничение поставить, это не повлияет на нормальную работу по работе с магазином, например, когда я импортирую/экспортирую товары и т.д.?


#16

ваш IP можно в белый список добавить
может забаниться какой то полезный IP например гугла, если они решат сканить с нового IP и будет беда

Вы зря заморачиваетесь, уверяю вас, что если захотят спарсить ваш магазин, то спарсят.
ContentDownloader очень мощная и гибкая штука.

Ватермарки пожалуй лучшая защита, обычно такие сайты обходят стороной, ведь есть куча без марок.

Кстати еще проверьте нет ли доступа к исходникам картинок. А то зная структуру CMS частенько просто заменив часть урла картинки можно забрать исходную без ватермарки.


#17

Не парьтесь, еще ни одного сайта не видел, который бы не удалось спарсить когда захочется. Нереально это. Добавьте на фотки ватермарки, а в тексты о товарах какие-то особенности своей компании(например куда обращаться по какому-то вопросу, или ссылки на другие разделы с уникальными комментариями или еще что, что потребует проработки внимательной ручной). Все попытки технически ограничить обречены на провал. В мире много тысяч проксей, можно каждую страницу вашего сайта с отдельного IP открывать, можно делать это не торопясь… в общем всё-равно не убережете. А вот если вы будете в описаниях товаров помогать своим же клиентам ориентироваться у вас на сайте, пояснять как взаимодействовать с вашей компанией - это будет только плюсом вам и вашему сайту, а ценность контента радикально снизит. Ну и покажите что это всё ваше поисковикам через соответствующие сервисы, дополнительно(тексты и т.д.).


#18

Встретился мне только один магазин, который очень мощно защитился.
фотос
Но они там очень сильно заморочились…


#19

Мы клиенту и ЯМаркет парсим. Со скрипом, но дело идет


#20

В нашем сегменте наш сайт не будет иметь аналогов по заполненности характеристик для товаров, поэтому переживаю. Т.е. могут спарсить характеристики, а фото свои оставить.
А словесные описания для данных товаров практически не имеют пользы, поэтому их нет и соответственно ссылки и упоминания своего магазина дать негде.