У меня был очень похожий опыт, но я остановился на другом решении.
Я тоже тестировал скрипт на 8 ядерном 32 гб дедике с широким каналом и там еле еле 10 потоков шло.
Работающими решением оказалось взять 32 ядерный локальный сервер с 64 оперативки, на не очень быстром канале, с сокс5, на нем 100+ потоков запускалось.
Скрипт тот же, никаких оптимизаций не делалось.
Стоит конечно побольше, чем аренда дедика но тут уж зависит от окупаемости твоей темы, стоит ли оно того или нет.
Но соксы могут быть узким местом, по возможности нужно делать свои соксы. Для этого, можно брать дешевые VPS и установить сокс через опенсурсный софт microsocks для линукса (в инете полно инструкций по установке, занимает не более 5 минут вручную, и можно установку через БАС автоматизировать также на случай если нужны сотни соксов).
Мелкие вопросы по XPATH
-
Здраствуйте. Пишу парсер по методике из стрима, есть такие вопросы.
Есть выражение //*[@id="element11111"]/div/a[5] (получено из кода браузера- сохранить как xpath). Что подставить вместо 11111 чтобы получилось "elementЛюбое число". А также что значит /div/a[5], нужно это вообще указывать чтобы он находил все такие элементы на странице?Р.S. Номера типа 11111 Не порядковые, можно считать даже что рандомные
-
@bronshik
Замените наcontains(@id, 'element')//*[contains(@id, 'element')]/div/a[5]А также что значит /div/a[5], нужно это вообще указывать чтобы он находил все такие элементы на странице?
Весь xpath значит найти все пятые ссылки на странице, родителем которых есть div, родителем которого есть элемент с id element11111