пока ни как. используй модуль captcha custom, он не палится
Проблема с парсером где ожидается подгрузка страницы
-
Здравствуйте, решил сделать парсер твиттера как было в одном из видео по бас и хотел заьнстить, можно ли получить 1кк ссылок на посты и у меня возникла такая проблема, что бас не может получить более 1300-1500 ссылок.
-
@alexqwerty создайте общий список (или текстовый документ). Получили 1к ссылок - сохранили в список или текстовик и продолжили дальше получать ссылки.
-
@uraabk у меня получается ссылка, потом сравнивается она с той которая должна быть, потом если соответствует условию, то сохраняется, далее получается колличество всего ссылок, с учётом новых которые подгрузились и это обновляет колличество построений цикла. Тоесть с каждой итерацией ссылка записывается в файл и с каждой последующей файл дополняется. Не подскажете, как в данном случае быть, ТК все упирается в потолок 1300-1500 ссылок?
-
@alexqwerty а что после 1300-1500 происходит? Перестают подгружаться ссылки? - скорее всего сайт блокирует работу, думая, что вы робот.
-
@uraabk парсер пишет что не получается получить колличество элементов и соответственно и нужный элемент. Думаю что сервису нет надобности бороться с парсером тк он просто листает ленту. Примечательно что если сделать просто цикл прокрутки ленты то он листает все 100к раз, а если попросить его начать пврсить с 1 элемента то на 1600 каком то он замирает
-
@alexqwerty так может сначала пролистать 100к раз, а потом xpath получить сразу все ссылки?
-
@alexqwerty 20 часов? Да вы ненормальный человек)) А post/get запросами не пробовали? Может быть просто не хватает памяти и из-за этого зависает?
-
@uraabk парсер листает ленту вк как человек и потом получает ссылку на пост, на все уходит 1 секунда на 100к ушел день. Насчёт нехватки памяти я подумал и сегодня планирую это проверить, очень вероятно что проблема в этом. Что вы подрузаметаете под гет запросами?
-
@alexqwerty место листания ленты в браузере и тратя кучу времени на это (не говоря уже о ресурсах) посылать/получать запросы. Это в разы сократит время и не будет использовать кучу ресурсов, но скорее всего от частых запросов вк начнет выводить капчу...
-
@alexqwerty вот тут видео есть https://youtu.be/fC97DG2MHQM?t=4542 в описании таймкоды.