Минусов гляжу ТСу наставили, правда видать глаз режет кому то :)
LOCK в многопотоке
-
@xclsv said in LOCK в многопотоке:
Зная число товаров на одной странице можно вычислить число страниц
Не выйдет. На некоторых страницах али вставляет рекламный товар в списке выдачи. На одной странице 48 товаров, а может быть 47 если рекламный товар будет на странице.
Я делаю парсер для любой страницы выдачи али. Пока план такой: запускать 100 торов по одному для каждого потока, затем в одном потоке загружать первую страницу, получать с нее 48 урлов на товары и, получив ссылку на вторую страницу, составить список ссылок на все 100 страниц выдачи. Затем запустить в 100 потоках парсинг каждой страницы (3 гет запроса в трех потоках на товар), с выводом данных в глобальный список с индексом 1+48*page_index, после удалить из него пустые строчки, которые появятся из-за возможного появления рекламного товара на странице.
Не знаю только на сколько али понравится около 1000 запросов в секунду, есть у вас опыт с парсерами? -
@xclsv said in LOCK в многопотоке:
Делаете один запрос к странице №100500. Автоматически попадёте на последнюю, откуда и спарсите количество страниц рубрики.
С чего вы это взяли?
Вот вторая страница
Вот 100500
Вы про скорость парсинга не знаете? Думаю 1000 в секунду не стоит, а то обвинят в ддос атаке) -
@senerg said in LOCK в многопотоке:
С чего вы это взяли?
Вот вторая страница
Вот 100500С того что снифал запрос не с параметром страницы браузера, а запрос к странице через "перейти к странице" в правом нижнем углу экрана.

В ответ сервер али редиректит на последнюю или на 100 страницу(смотря что меньше).@senerg said in LOCK в многопотоке:
Вы про скорость парсинга не знаете? Думаю 1000 в секунду не стоит, а то обвинят в ддос атаке)
Али выдержит и 1кк запросов в секунду без проблем. Если будет блок по ip - добавьте прокси.
А вообще, беспокойство за бан чуток противоречит политике разработки многопоточных скриптов =) -
@xclsv said in LOCK в многопотоке:
Али выдержит и 1кк запросов в секунду без проблем. Если будет блок по ip - добавьте прокси.
А вообще, беспокойство за бан чуток противоречит политике разработки многопоточных скриптов =)Нет, не противоречит, просто интересуюсь как на практике дела. Думаю, что качать с них 100 мегабит будет палевно, даже если прокси постоянно менять. Хочу какой-то средний вариант подобрать, чтобы по нагрузке для них было не заметно.
-
@xclsv said in LOCK в многопотоке:
В ответ сервер али редиректит на последнюю или на 100 страницу(смотря что меньше).
Во время редиректа с введенной страницей номер 999 проходит вот такой запрос:
https://gj.mmstat.com/ae.pc_click.statweb_ae_click?gmkey=&gokey=ae_project_id%3D15218%26ae_page_type%3Dlist%26ae_page_area%3Dlist%26ae_button_type%3Dpage_go%26ae_object_type%3Dpage_num%26ae_object_value%3D999%26ae_ismember%3Dfalse%26ae_user_id%3D11.139.3.106.1542308148948.206313.4%26ae_click_behavior%3Dleft%26st_page_id%3Dn690ff97kt0cau3e16718bffe4721b6af70910a2df%26ali_apache_track%3D-%26jsver%3Daplus_std%26lver%3D8.7.2%26pver%3D0.4.10%26cache%3Dc3d53e6%26_slog%3D0&cna=N690FF97kT0CAU3eZX8xNubH&spm-cnt=2114.search0104.0.0.4deb3eadGK29lt&logtype=2А после него уже как-то высчитывает, что страниц в данном случае всего две и отправляет второй запрос сюда:
https://www.aliexpress.com/wholesale?isrefine=y&site=glo&g=y&SortType=total_tranpro_desc&SearchText=dress&page=2&CatId=200003482&initiative_id=SB_20181115110022&needQuery=n&pvId=10-100019007,5-100014064,14-173,200000329-200001248,200000446-200001484,100004669-100006419Честно говоря, у меня пока не достаточно знаний чтобы его повторить.
-
@senerg said in LOCK в многопотоке:
Честно говоря, у меня пока не достаточно знаний чтобы его повторить
Его нет необходимости повторять
Выполните запрос к 999 странице и оставьте галочку "следовать переадресациям". В ответ должен прийти код последней страницы. -
@xclsv said in LOCK в многопотоке:
Выполните запрос к 999 странице и оставьте галочку "следовать переадресациям"
Показывает несуществующую страницу.
https://www.aliexpress.com/wholesale?isrefine=y&site=glo&g=y&SortType=total_tranpro_desc&SearchText=dress&page=999&CatId=200003482&initiative_id=SB_20181115110022&needQuery=n&pvId=10-100019007,5-100014064,14-173,200000329-200001248,200000446-200001484,100004669-100006419 -
@senerg said in LOCK в многопотоке:
@xclsv said in LOCK в многопотоке:
Выполните запрос к 999 странице и оставьте галочку "следовать переадресациям"
Показывает несуществующую страницу.
https://www.aliexpress.com/wholesale?isrefine=y&site=glo&g=y&SortType=total_tranpro_desc&SearchText=dress&page=999&CatId=200003482&initiative_id=SB_20181115110022&needQuery=n&pvId=10-100019007,5-100014064,14-173,200000329-200001248,200000446-200001484,100004669-100006419Вообще, там другой запрос надо делать. Но я попробовал и фокус не проканал. Для определения переадресации выполняется какой-то скрипт, имя которого хранится в атрибуте кнопки ОК.
Что ж. Я был не прав. Может Вам хотя бы будет полезной информация о том, что больше 100 страниц али не отдает. Не знаю, решили ли Вы свою задачу или нет, но зная это, в большинстве случаев максимальное количество страниц можно найти всего в несколько запросов методом бисекции.
-
@senerg said in LOCK в многопотоке:
@xclsv said in LOCK в многопотоке:
Для определения переадресации выполняется какой-то скрипт, имя которого хранится в атрибуте кнопки ОК.
Как разгадать какой скрипт получает последнюю страницу вы тоже не знаете?
Пока недостаточно знаний для этого. Какой именно скрипт понятно. Вроде бы должно быть достаточно его выполнить, но у меня так и не получилось.