У меня был очень похожий опыт, но я остановился на другом решении.
Я тоже тестировал скрипт на 8 ядерном 32 гб дедике с широким каналом и там еле еле 10 потоков шло.
Работающими решением оказалось взять 32 ядерный локальный сервер с 64 оперативки, на не очень быстром канале, с сокс5, на нем 100+ потоков запускалось.
Скрипт тот же, никаких оптимизаций не делалось.
Стоит конечно побольше, чем аренда дедика но тут уж зависит от окупаемости твоей темы, стоит ли оно того или нет.
Но соксы могут быть узким местом, по возможности нужно делать свои соксы. Для этого, можно брать дешевые VPS и установить сокс через опенсурсный софт microsocks для линукса (в инете полно инструкций по установке, занимает не более 5 минут вручную, и можно установку через БАС автоматизировать также на случай если нужны сотни соксов).
Вопрос по поисковой выдаче яндекса
-
https://docs.google.com/document/d/1PdfKMDfoqFIlF4tN1jKrOf1iZ1rqESy2xVMIj3uuV3g/pub - я по хпас паршу гугл
-
@my3uka Fiddler вот ваш мануал. Ну или что то подобное. Чтобы он сохранял не только сами запросы, но страницы и вообще все. А мануал.. ну какой мануал прошел в браузере сел курить сниффер. Сморим заголовки response /request глядь он чота непонятное secret кокойто, или hash, или id или еще чего вы точно не слали добавляет. Или запрос оригинальный какой)) Угусь, запомнили чо он слал лезем на страницы раньше (тут нам и пригодится именно способность fiddlera сохранить все) и смотрим где это нам присваивается. fiddler это можно просто копируем значение и тупо его ищем в истории. Нашли понятно. Теперь его выдергиваем сразу. При первом заходе на страницу, регуляркой, json, или xpathом каждый случай индивидуален и подставляем. И вот таким вот нехитрым способом мы перебираем все. В конце отсеиваем то от чего можно отказаться. И получаем искомое. Бывает что серваки прикалываются надо получить не абы чо, а заголовок. Ок берем и это бас умеет. Находите как он назывался и получаете. И так далее.
з/ы Если очень упростить твой следующий заголовок или response сидит в предыдущем body
