Помогите со скриптом

Поддержка
  • Добрый вечер. Пытаюсь спарсить с ramblerTop100 урлы сайтов через xpath, но не получается. Вот сам скрипт 0_1479921651013_new_parser_li.xml

  • @bms.java не стал ковырять чужой скрипт, вот тебе сделал пример, без браузера, только на запросах.
    alt text

    0_1479929901940_rambler-top100.xml

    В настройках можно указать с какой по какую страницы парсить.
    Указать задержку между запросами.

    открывать результаты так http://ipic.su/img/img7/fs/kiss_414kb.1479927422.jpg после завершения работы скрипта.

    В зависимости от твоих целей (объемов парсинга, страниц то так >4500) и методов (если будут баны, нужны прокси) парсинга, рекомендую сделать проверку на получение нужной страницы. Переделать под многопоток, если много будешь парсить, сделать логирование, если вдруг сервис отдал не те данные, то использовать другой прокси или сделать n попыток, и только потом брать другой прокси.. и т.д. это уже все по вкусу. Я тебе предоставил каркас рабочий, если сервис банить не будет, то можно все спарсить без изменений скрипта.
    Чтобы спарсить 1000 страниц, уйдет около 30мин. Если оставить указанную задержку. Если уменьшишь задержку , то больше шансов, что сервис будет блокировать запросы.

  • @bms.java Я бы такой xpath юзал
    //*[contains(@class, 'projects-table_catalogue')]//a[not(contains(@href, 'rambler')) and (contains(@href, 'http://') or contains(@href, 'https://'))]/@href

  • 0 Votes
    11 Posts
    1207 Views
  • 0 Votes
    8 Posts
    929 Views
  • 0 Votes
    9 Posts
    1235 Views
  • 0 Votes
    10 Posts
    1115 Views
  • 0 Votes
    12 Posts
    2131 Views