MATCH>{{game}}
Как спарстиь все внутренние ссылки на сайте?
-
@Ranout получайте значение атрибута "href" для тега "a" и ее домен, если домены совпадают, то скорей всего ссылка внутренняя, но может быть и редирект, если надо 100% то придется сделать хотя бы get запрос по ней.
-
@IvanM said in Как спарстиь все внутренние ссылки на сайте?:
у верстальщиков могут быть свои "заскоки".
В большинстве случаев это тег "a", так это влияет на СЕО и обычно всетаки верстают как положено. Иногда только клик может js код обрабатывать, но это редко и обычно такое бывает в интерфейсах ЛК и тп, а не на общедоступных страницах.
-
@Inwnew said in Как спарстиь все внутренние ссылки на сайте?:
Xpath - Получить каждый xml:
//a[not(contains(@href, "http")) and not(contains(@*, "javascript"))]/@hrefдальше дубли и ссылки на главную или ненужные уже сами чистите.
исключаете http зачем? имхо, это лишнее, ссылки внутри могут быть и такие.
Вернее так. Все ссылки могут оказаться абсолютными. Поэтому их надо получить и исключить ведущие на "левый" домен -