@suvorov_jr2 Спарсить все ссылки сайта по шаблону и не придётся проверять на дубли , а просто удалять из txt при успешном посте. Или если у сайта id статьи в виде цифры ,как здесь https://otvet.mail.ru/question/231973765 , то сгенерируй лям цифр для статей и рассылай комменты без проверки на дубли. Ещё можно проверять перед постингом, наличие на странице уникального слова, которое есть только в твоём спаме.
Как спарстиь все внутренние ссылки на сайте?
-
@Ranout получайте значение атрибута "href" для тега "a" и ее домен, если домены совпадают, то скорей всего ссылка внутренняя, но может быть и редирект, если надо 100% то придется сделать хотя бы get запрос по ней.
-
@IvanM said in Как спарстиь все внутренние ссылки на сайте?:
у верстальщиков могут быть свои "заскоки".
В большинстве случаев это тег "a", так это влияет на СЕО и обычно всетаки верстают как положено. Иногда только клик может js код обрабатывать, но это редко и обычно такое бывает в интерфейсах ЛК и тп, а не на общедоступных страницах.
-
@Inwnew said in Как спарстиь все внутренние ссылки на сайте?:
Xpath - Получить каждый xml:
//a[not(contains(@href, "http")) and not(contains(@*, "javascript"))]/@hrefдальше дубли и ссылки на главную или ненужные уже сами чистите.
исключаете http зачем? имхо, это лишнее, ссылки внутри могут быть и такие.
Вернее так. Все ссылки могут оказаться абсолютными. Поэтому их надо получить и исключить ведущие на "левый" домен -