У меня был очень похожий опыт, но я остановился на другом решении.
Я тоже тестировал скрипт на 8 ядерном 32 гб дедике с широким каналом и там еле еле 10 потоков шло.
Работающими решением оказалось взять 32 ядерный локальный сервер с 64 оперативки, на не очень быстром канале, с сокс5, на нем 100+ потоков запускалось.
Скрипт тот же, никаких оптимизаций не делалось.
Стоит конечно побольше, чем аренда дедика но тут уж зависит от окупаемости твоей темы, стоит ли оно того или нет.
Но соксы могут быть узким местом, по возможности нужно делать свои соксы. Для этого, можно брать дешевые VPS и установить сокс через опенсурсный софт microsocks для линукса (в инете полно инструкций по установке, занимает не более 5 минут вручную, и можно установку через БАС автоматизировать также на случай если нужны сотни соксов).
Вопрос об REGEX
-
Привет, ребята, я пытаюсь извлечь эту информацию в REGEX:
<a id="ember12737" data-control-id="xQ0cyDo0SuewLUR/2owMoA==" data-control-name="search_srp_result" href="/in/servicio-de-empleo-colegio-de-polit%C3%B3logos-y-soci%C3%B3logos-7542b825/" class="search-result__wrapper search-result__result-link ember-view"> <figure class="search-result__image mt4 mb3 mh2"> <div id="ember12738" class="presence-entity presence-entity--size-3 ember-view"><div id="ember12739" aria-label="Servicio de Empleo Colegio de Politólogos y Sociólogos" class=" presence-entity__image EntityPhoto-circle-3 ember-view" style="background-image:
Кто-нибудь знает, как это сделать? Благодарю вас!
-
@cacats Я люблю регулярки и написал бы вам регулярку, но парсить html лучше всего через xpath
//a[@data-control-name="search_srp_result"]/@hrefПолучаете код страницы и применяете это выражение xpath

-
@fox said in Вопрос об REGEX:
//a[@data-control-name="search_srp_result"]/@href
Большое вам спасибо, я попробую прямо сейчас!