@suvorov_jr2 Спарсить все ссылки сайта по шаблону и не придётся проверять на дубли , а просто удалять из txt при успешном посте. Или если у сайта id статьи в виде цифры ,как здесь https://otvet.mail.ru/question/231973765 , то сгенерируй лям цифр для статей и рассылай комменты без проверки на дубли. Ещё можно проверять перед постингом, наличие на странице уникального слова, которое есть только в твоём спаме.
Как сделать парсинг части ссылок со страницы (по стилю)?
-
Здравствуйте!
хочу настроить парсинг по сайту.
Вот ссылка - https://www.find-org.com/search/all/?val=01
Там когда заходишь - есть часть ссылок серых - недействующие организации, а часть - черные - т.е. те которые актуальные.
Вопрос - как спарсить только ссылки на действующие организации?
возможно ли это вообще? ума не приложу как это сделать... -
@brotok said in Как сделать парсинг части ссылок со страницы (по стилю)?:
Здравствуйте!
хочу настроить парсинг по сайту.
Вот ссылка - https://www.find-org.com/search/all/?val=01
Там когда заходишь - есть часть ссылок серых - недействующие организации, а часть - черные - т.е. те которые актуальные.
Вопрос - как спарсить только ссылки на действующие организации?
возможно ли это вообще? ума не приложу как это сделать...Быстрее всего спарсить через xpath:
//p/a[@href and ..//span[not(contains(@class,'not'))]]Тестовый скрипт