Парсер OK.RU



  • Кто нибудь делал парсер юзеров из группы одноклассников? Начал делать для себя, но скорость просто отвратительная - 600 человек парсит в течении 2-х минут, то есть если будет необходимо спарсить группу из 100к, то потребуется 5 часов. Делал через скрол и xpath запрос. И еще вопрос, можно как нибудь этих участников из списка отслеживать (онлайн или активность в этой группе )?



  • Плюс еще вопросик появился. Xpath мне выдал вот такой текст
    "<a href="/profile/574938966846" class="clickarea"/>",
    как мне теперь получить только значение href?



  • Чтобы увеличить в разы скорость парсинга можно сделать так - скролить до конца страницы (чтобы показался последний юзер к примеру, или чтобы такой то элемент был виден на экране... или через мобильную версию сайта, там обычно постранично показывается это дело), получить исходный код страницы (с помощью блочка) и с помощью регулярки всё это дело распарсить, находится это дело в разделе Регулярные выражения, нужно выбрать Извлечь все данные. Оно всех юзеров запишет в список, и скорость парсинга считай мгновенная. Просто нужно додумать, как загружать сразу всю страницу



  • Так и делаю, скролом загружаю всех пользователей и парсю их через xpath запрос. Только в том и дело, что скрол занимает очень долго времени.
    P.S У одноклассников даже в моб версии пользователи открываются через скрол



  • @bms.java был такой опыт опыт - отключаешь картинки, цсс, рекламу и тд - оставляешь голый штмл и скрипты для подгрузки юзеров - делаешь бесконечный скролинг с паузой 1500-2000 и периодическим нажатием на ссылку показать еще. Но есть одно но - ты ни как не сможешь спарсить всю группу и скажу тебе по большому секрету - этого ни в коем случае не нужно делать - не совершай моих ошибок! Спарсить сможешь максимум 3000 чел - за редким исключением было 3500 и даже 4300 - но это предел. Самое главное - для чего тебе юзеры? Ты наверняка приглашаешь их в свою тематическую группу - и если это так - то лучше запастить ключами и брать с группы не максим пользователей а первых 50-100 человек на выдаче - это последние активные пользователи - то есть последние вступившие и последние онлайн - из опыта - все что ниже - очень много ботов и фейков - и просто старых страниц - которые уже никто не посещает - а лимит по приглашениям никто к сожалению не отменял. Через API та же беда - дал нагнать 25000 с 3 акков и предел - теперь лимиты то на аккаунте то на группе(. Кстати онлайн пользователей то же можно отделять - инфа где то здесь на форуме есть...



  • Спасибо, про вывод юзеров по алгоритму активности и онлайн не знал, так и буду делать - парсить первых 100 - 200.



  • @bms.java

    как мне теперь получить только значение href?

    //a/@href

    0_1479743062516_Href.png


Log in to reply
 

  • 4
  • 16
  • 1
  • 6
  • 7
  • 8
  • 1
  • 8