Помогите со скриптом

bms.java

Добрый вечер. Пытаюсь спарсить с ramblerTop100 урлы сайтов через xpath, но не получается. Вот сам скрипт 0_1479921651013_new_parser_li.xml

Bot_Sculptor

@bms.java не стал ковырять чужой скрипт, вот тебе сделал пример, без браузера, только на запросах.
alt text

0_1479929901940_rambler-top100.xml

В настройках можно указать с какой по какую страницы парсить.
Указать задержку между запросами.

открывать результаты так http://ipic.su/img/img7/fs/kiss_414kb.1479927422.jpg после завершения работы скрипта.

В зависимости от твоих целей (объемов парсинга, страниц то так >4500) и методов (если будут баны, нужны прокси) парсинга, рекомендую сделать проверку на получение нужной страницы. Переделать под многопоток, если много будешь парсить, сделать логирование, если вдруг сервис отдал не те данные, то использовать другой прокси или сделать n попыток, и только потом брать другой прокси.. и т.д. это уже все по вкусу. Я тебе предоставил каркас рабочий, если сервис банить не будет, то можно все спарсить без изменений скрипта.
Чтобы спарсить 1000 страниц, уйдет около 30мин. Если оставить указанную задержку. Если уменьшишь задержку , то больше шансов, что сервис будет блокировать запросы.

support

@bms.java Я бы такой xpath юзал
//*[contains(@class, 'projects-table_catalogue')]//a[not(contains(@href, 'rambler')) and (contains(@href, 'http://') or contains(@href, 'https://'))]/@href

Bablosoft

Помогите со скриптом

Что можно придумать со строками?

Помогите пожалуйста грамотно раскидать в массив?!

Помогите понять в чем проблема

Помогите упростить скрипт

Работа со сменой юзер-агента