Предзаказ - Модуль анализа цен конкурентов


#81

Скажите, модуль будет работать с 4.10.4 ?


#82

Разработка ведется на 4.11.4 (пока нет возможности сказать касаемо устаревших версий платформы).


#83

Я, наверное, поторопился объявлять на конец этого месяца первый релиз, разработчик настолько широко засел отрабатывать парсинг сайтов, которые защищаются от парсинга, меняя код, что уже есть большое число операторов обработки страниц.
Плюс появились кейсы с магазинами, которые догружают цены по промокоду хитрым способом (после загрузки страницы, как, например: розетка).
Сейчас мы работаем над тем, чтобы выдать уже в первой версии максимально широкий функционал правил парсинга (так как главное в функционале - получение данных).
Скорее всего по готовности модуля предложим пользователям дать самые сложные варианты конкурентов и покажем, как модуль разбирается с ними в видео с полным циклом настройки.


#84

Сразу закину, чтобы потом не забыть(потом продублирую), сложного конкурента


#85

разработчик вписывает правила сразу в сам модуль?
покажите плиз хоть скрины настроек модуля
тут же многие знакомы близко с Content Downloader и может что хорошее подскажем


#86

Для того, чтобы было понимание публикуем небольшое видео с текущими возможностями по настройке парсинга конкурента (и да, не пугайтесь, этот конкурент - очень крупный и для него непростые настройки, мы специально на этапе разработки берем именно такие кейсы, следующим разберем ОЗОН, который еще более защищен от такой работы).


#87

Устрашающие настроены границы парсинга и их очистка.
Обратите еще раз внимание как делает Content Downloader.
Просто берется начало парсинга и конец.

т.е. для примера из розетки вместо не очень понятной конструкции

Можно было бы просто задать
начало парсинга — product-prices__big_color_red"> —
конец парсинга — < —

и применить очистку всего кроме чисел
и мы бы получили 1885


#88

И пожалуйста добавьте математику.
%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5

Т.к. промокоды иногда дают не конечную цену,а придется применять вычисления.
Например будет написано, что промокод дает 15% скидку и тогда надо будет считать.


#89

Выглядит конечно все впечатляюще!


#90

Именно так и работает правило “удалить текст вне текстовых меток” - указываете начальную метку и конечную. И все что снаружи этих меток - будет удалено.
У этого правила есть обратный механизм - “удалить текст внутри текстовых меток”.

Что касается очистки - есть отдельные правила очистки (лишних пробелов и непечатаемых символов, а также html-тегов).

На этапе парсинга в правилах - математики не будет. Но если атрибут товара “Промоакция/Скидка” будет парсить число, то это значение можно будет использовать в формулах расчета цены товара с делением на 100. Формулы расчета будут представлены уже на странице товара. Но это уже второй этап разработки, к которому уже приступили, и мы обязательно предоставим демо-видео работы.


#91

Набор правил будет расширяться, чтобы можно было любой исходный код, в котором есть нужная информация, распарсить. Но многие популярные сайты имеют защиту от парсинга.
К примеру, Rozetka - если зайти через браузер - вы увидите хорошую html структуру, и чуть ли не одним css-селектором, через “Панель разработчика”, получаете нужную цену. Но если вы скачаете страницу товара как бот, то у вас этого класса вообще может не быть. И все цены представлены в коде как js-массив. И тут уже так просто не распарсишь.


#92

Настройки управления Юзер-агентом и куками конечно же будут.


#93

открыл код страницы из примера
view-source:https://rozetka.com.ua/70447040/p70447040/
но так и не смог найти в нем теги из видео
не находит в нем даже слова itemprop. это и поверглов недоумение как же оно работает.
может мне Розетка какую то другую версию страницы действительно показывает
спасибо за разъяснения

%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5


#94

Вот какой код отдает rozetka всем поисковикам по этому товару - http://i.abt.team/i/rozetka.txt


#95

Теперь все стало на свои места. Спасибо!


#96

А типовые ссылки
http://joxi.ru/l2ZbBO1CEnedZ2
надо будет вручную проставлять?
или какой то авто механизм будет?


#97

Типовые ссылки - это для настройки парсинга, вы добавляете все кейсы (типовые сценарии страниц конкурента). Ну я приведу пример: у вас на сайте могут использоваться одновременно два шаблона карточки товара: По умолчанию и Большое изображение, эти страницы имеют разный код, соответственно их нужно парсить по -разному. Для этого и необходимы типовые страницы - примеры, чтобы настроить по ним отработку парсинга и убедиться, что ничего не будет пропускаться.

А далее просто ассоциируете ваша страница - страница конкурента (тут будет и экспорт - импорт) и все работает само.

Если какая - то страница не спарсилась, то добавляете ее в типовую и настраиваете для нее также, как для других.


#98

Возможно глупые вопросы, но всё же:

  1. будут ли какие-то прокси использоваться для парсинга цен, на случай если на сайтах стоит защита
  2. настройки необходимо будет проводить разово для каждого сайта и потом только подставлять ссылки на товары , или для каждого товара/сайта каждый раз полный цикл настроек?

#99

Совсем не глупые вопросы

  1. мы планируем добавить поддержку прокси серверов в последующих (не первом) релизе + будут другие методы работы с защитой (об этом я буду информировать)
  2. да, настройка конкурента 1 раз (пока у него что то не поменяется в верстке) далее только ассоциации наша страница - страница конкурента

Первый релиз будет скоро, мы в него вложим базовый функционал, чтобы все пользователи смогли настроить у себя конкурентов и получить первые данные (далее по обратной связи мы поймем, что необходимо пользователям и спланируем дальнейшее развитие модуля).


#100

Если у конкурента что то поменяется в верстке, модуль будет показывать что появилась ошибка и настройку следует изменить?