У меня был очень похожий опыт, но я остановился на другом решении.
Я тоже тестировал скрипт на 8 ядерном 32 гб дедике с широким каналом и там еле еле 10 потоков шло.
Работающими решением оказалось взять 32 ядерный локальный сервер с 64 оперативки, на не очень быстром канале, с сокс5, на нем 100+ потоков запускалось.
Скрипт тот же, никаких оптимизаций не делалось.
Стоит конечно побольше, чем аренда дедика но тут уж зависит от окупаемости твоей темы, стоит ли оно того или нет.
Но соксы могут быть узким местом, по возможности нужно делать свои соксы. Для этого, можно брать дешевые VPS и установить сокс через опенсурсный софт microsocks для линукса (в инете полно инструкций по установке, занимает не более 5 минут вручную, и можно установку через БАС автоматизировать также на случай если нужны сотни соксов).
POST/GET запрос по селектору
-
Пробую перевести парсер на HTTP-клиент. Подскажите как запросом получить содержание элемента на странице. Например, есть на странице кнопка которая содержит ссылку на другую страницу, как запросом получить эту ссылку? В общем как в ответе получить содержимое нужного элемента. Пробовал селектор ставить в значение параметра запроса, но что то не то выдает. Нагуглить не получилось, киньте ссылку, где доходчиво написано, или пример какой нибудь.
-
@Fox Суть проблемы не понял пока. Твой скрипт находит 0 ссылок у меня в режиме запуска. Поменял google на яндекс взял первый попавшийся xpath и все сработало как надо. На моем сайте почему то не работает, может в xpath адресе ошибка, копирую xpath в хроме через инспектор.
Буду разбираться, огромное спасибо за помощь!!!
