Помогите со скриптом



  • Добрый вечер. Пытаюсь спарсить с ramblerTop100 урлы сайтов через xpath, но не получается. Вот сам скрипт 0_1479921651013_new_parser_li.xml



  • @bms.java не стал ковырять чужой скрипт, вот тебе сделал пример, без браузера, только на запросах.
    alt text

    0_1479929901940_rambler-top100.xml

    В настройках можно указать с какой по какую страницы парсить.
    Указать задержку между запросами.

    открывать результаты так http://ipic.su/img/img7/fs/kiss_414kb.1479927422.jpg после завершения работы скрипта.

    В зависимости от твоих целей (объемов парсинга, страниц то так >4500) и методов (если будут баны, нужны прокси) парсинга, рекомендую сделать проверку на получение нужной страницы. Переделать под многопоток, если много будешь парсить, сделать логирование, если вдруг сервис отдал не те данные, то использовать другой прокси или сделать n попыток, и только потом брать другой прокси.. и т.д. это уже все по вкусу. Я тебе предоставил каркас рабочий, если сервис банить не будет, то можно все спарсить без изменений скрипта.
    Чтобы спарсить 1000 страниц, уйдет около 30мин. Если оставить указанную задержку. Если уменьшишь задержку , то больше шансов, что сервис будет блокировать запросы.



  • @bms.java Я бы такой xpath юзал
    //*[contains(@class, 'projects-table_catalogue')]//a[not(contains(@href, 'rambler')) and (contains(@href, 'http://') or contains(@href, 'https://'))]/@href


Log in to reply
 

  • 10
  • 5
  • 5
  • 9
  • 3
  • 5
  • 5
  • 2