Проблема с парсером где ожидается подгрузка страницы



  • Здравствуйте, решил сделать парсер твиттера как было в одном из видео по бас и хотел заьнстить, можно ли получить 1кк ссылок на посты и у меня возникла такая проблема, что бас не может получить более 1300-1500 ссылок.



  • @alexqwerty создайте общий список (или текстовый документ). Получили 1к ссылок - сохранили в список или текстовик и продолжили дальше получать ссылки.



  • @uraabk у меня получается ссылка, потом сравнивается она с той которая должна быть, потом если соответствует условию, то сохраняется, далее получается колличество всего ссылок, с учётом новых которые подгрузились и это обновляет колличество построений цикла. Тоесть с каждой итерацией ссылка записывается в файл и с каждой последующей файл дополняется. Не подскажете, как в данном случае быть, ТК все упирается в потолок 1300-1500 ссылок?



  • @alexqwerty а что после 1300-1500 происходит? Перестают подгружаться ссылки? - скорее всего сайт блокирует работу, думая, что вы робот.



  • @uraabk парсер пишет что не получается получить колличество элементов и соответственно и нужный элемент. Думаю что сервису нет надобности бороться с парсером тк он просто листает ленту. Примечательно что если сделать просто цикл прокрутки ленты то он листает все 100к раз, а если попросить его начать пврсить с 1 элемента то на 1600 каком то он замирает



  • @alexqwerty так может сначала пролистать 100к раз, а потом xpath получить сразу все ссылки?



  • @uraabk пробовал, 20 часов подгружал, но в итоге парсер там же завис. Можешь скинуть какую нибудь ссылку на то что ты имеешь ввиду



  • @alexqwerty 20 часов? Да вы ненормальный человек)) А post/get запросами не пробовали? Может быть просто не хватает памяти и из-за этого зависает?



  • @uraabk парсер листает ленту вк как человек и потом получает ссылку на пост, на все уходит 1 секунда на 100к ушел день. Насчёт нехватки памяти я подумал и сегодня планирую это проверить, очень вероятно что проблема в этом. Что вы подрузаметаете под гет запросами?



  • @alexqwerty место листания ленты в браузере и тратя кучу времени на это (не говоря уже о ресурсах) посылать/получать запросы. Это в разы сократит время и не будет использовать кучу ресурсов, но скорее всего от частых запросов вк начнет выводить капчу...



  • @uraabk не могли бы вы дать направление где найти информацию об этом?



  • @alexqwerty вот тут видео есть https://youtu.be/fC97DG2MHQM?t=4542 в описании таймкоды.



  • @uraabk больше спасибо


Log in to reply