Внутренние ссылки с сайта



  • Есть ли какой-то простой способ через Xpath или регулярки вытащить с любой страницы только внутренние ссылки в виде http://domain.ru ?
    Сейчас вытаскиваю все ссылки с помощью Xpath, потом ищу те, которые начинаются с "/" или имени домена, а потом склеиваю их с http или https в зависимости от сайта и с самим доменом
    Всё это куча условий и очень нечитабельно. Может есть более простой путь?



  • @LastCrow said in Внутренние ссылки с сайта:
    Можно через регулярки найти внутренние ссылки

    которые начинаются с "/" или имени домена

    По крайней мере лишних ссылок среди них уже не будет



  • Я надеялся, что может есть уже какой-то готовый модуль
    Ну что ж, буду мучиться с регулярками тогда :)


Log in to reply