Как вариант: закидываем все url страниц любым удобным способом в список, и в начале работы из этого списка берём рандомный элемент. Данный элемент - нужная ссылка, её грузим в браузере и далее по сценарию.
Только как вы его сможете идентифицировать среди других потоков? Вам проще изначально сохранять эти данные в переменной вне обработчика в любом удобном виде (в зависимости от задачи разумеется). В таком случае вы сможете сделать с этим потоком что угодно и где угодно.
Здравствуйте!
хочу настроить парсинг по сайту.
Вот ссылка - https://www.find-org.com/search/all/?val=01
Там когда заходишь - есть часть ссылок серых - недействующие организации, а часть - черные - т.е. те которые актуальные.
Вопрос - как спарсить только ссылки на действующие организации?
возможно ли это вообще? ума не приложу как это сделать...
Быстрее всего спарсить через xpath:
//p/a[@href and ..//span[not(contains(@class,'not'))]]