Регулярное выражение для поиска ссылок



  • День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения

    href="([^"]+)" 
    

    Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:

    https://dubovik.studio/masters
    https://dubovik.studio/akcii/
    https://dubovik.studio/nashi-raboty
    https://dubovik.studio/kontakty/
    https://dubovik.studio/stati/
    

    Но ни одну из ссылок она не находит, вот что находит:
    ссылки.txt

    Почему ссылки не подходят под регулярку?



  • @Naineten said in Регулярное выражение для поиска ссылок:

    День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения

    href="([^"]\S+)" 
    

    Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:

    https://dubovik.studio/masters
    https://dubovik.studio/akcii/
    https://dubovik.studio/nashi-raboty
    https://dubovik.studio/kontakty/
    https://dubovik.studio/stati/
    

    Но ни одну из ссылок она не находит, вот что находит:
    ссылки.txt

    Почему ссылки не подходят под регулярку?

    Действие "Xpath получить каждый xml":

    //a/@href
    


  • @Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.



  • @Naineten said in Регулярное выражение для поиска ссылок:

    @Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.

    С xpath на вашем сайте нет проблем, получает как надо
    https://clip2net.com/s/44ORLN7



  • @Naineten said in Регулярное выражение для поиска ссылок:

    День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения

    href="([^"]+)" 
    

    Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:

    https://dubovik.studio/masters
    https://dubovik.studio/akcii/
    https://dubovik.studio/nashi-raboty
    https://dubovik.studio/kontakty/
    https://dubovik.studio/stati/
    

    Но ни одну из ссылок она не находит, вот что находит:
    ссылки.txt

    Почему ссылки не подходят под регулярку?

    CSS> a -- находит все ссылки


Log in to reply