Да очень просто, как по мне , так даже удобней чем логи копать.
После каждого ошибка-опасного действия втавляю кубик с запросом в котором записываю в базу № потока и № этого самого кубика который запрос делает. В конце скрипта (точнее в конце потока) делаю запрос к базе удаляю все записи которые относятся к этому потоку(по № потока).
Если поток отработал правильно, дошел до конца, он удаляет из базы все свои записи.
Если поток отвалился, соответственно запрос на удаление не сделал, записи в базе остались.
Таким образом в базе остаются только записи отвалившихся потоков.
Screenshot from 2021-11-01 18-17-14.png
смотрю на последнюю запись отвалившегося потока, ищу (поиском) по номеру кубика нужный кубик, вижу где скрипт отвалился. Думаю почему, исправляю, пробую дальше
Парсер OK.RU
-
Кто нибудь делал парсер юзеров из группы одноклассников? Начал делать для себя, но скорость просто отвратительная - 600 человек парсит в течении 2-х минут, то есть если будет необходимо спарсить группу из 100к, то потребуется 5 часов. Делал через скрол и xpath запрос. И еще вопрос, можно как нибудь этих участников из списка отслеживать (онлайн или активность в этой группе )?
-
Чтобы увеличить в разы скорость парсинга можно сделать так - скролить до конца страницы (чтобы показался последний юзер к примеру, или чтобы такой то элемент был виден на экране... или через мобильную версию сайта, там обычно постранично показывается это дело), получить исходный код страницы (с помощью блочка) и с помощью регулярки всё это дело распарсить, находится это дело в разделе Регулярные выражения, нужно выбрать Извлечь все данные. Оно всех юзеров запишет в список, и скорость парсинга считай мгновенная. Просто нужно додумать, как загружать сразу всю страницу
-
@bms.java был такой опыт опыт - отключаешь картинки, цсс, рекламу и тд - оставляешь голый штмл и скрипты для подгрузки юзеров - делаешь бесконечный скролинг с паузой 1500-2000 и периодическим нажатием на ссылку показать еще. Но есть одно но - ты ни как не сможешь спарсить всю группу и скажу тебе по большому секрету - этого ни в коем случае не нужно делать - не совершай моих ошибок! Спарсить сможешь максимум 3000 чел - за редким исключением было 3500 и даже 4300 - но это предел. Самое главное - для чего тебе юзеры? Ты наверняка приглашаешь их в свою тематическую группу - и если это так - то лучше запастить ключами и брать с группы не максим пользователей а первых 50-100 человек на выдаче - это последние активные пользователи - то есть последние вступившие и последние онлайн - из опыта - все что ниже - очень много ботов и фейков - и просто старых страниц - которые уже никто не посещает - а лимит по приглашениям никто к сожалению не отменял. Через API та же беда - дал нагнать 25000 с 3 акков и предел - теперь лимиты то на аккаунте то на группе(. Кстати онлайн пользователей то же можно отделять - инфа где то здесь на форуме есть...
