Регулярное выражение для поиска ссылок

Naineten

День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения

href="([^"]+)"

Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:

https://dubovik.studio/masters
https://dubovik.studio/akcii/
https://dubovik.studio/nashi-raboty
https://dubovik.studio/kontakty/
https://dubovik.studio/stati/

Но ни одну из ссылок она не находит, вот что находит:
ссылки.txt

Почему ссылки не подходят под регулярку?

Fox

@Naineten said in Регулярное выражение для поиска ссылок:

День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]\S+)" 
Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters
https://dubovik.studio/akcii/
https://dubovik.studio/nashi-raboty
https://dubovik.studio/kontakty/
https://dubovik.studio/stati/
Но ни одну из ссылок она не находит, вот что находит:
ссылки.txt

Почему ссылки не подходят под регулярку?

Действие "Xpath получить каждый xml":

//a/@href

Naineten

@Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.

Inwnew

@Naineten said in Регулярное выражение для поиска ссылок:

@Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.

С xpath на вашем сайте нет проблем, получает как надо
https://clip2net.com/s/44ORLN7

spoiler

denanotherday

@Naineten said in Регулярное выражение для поиска ссылок:

День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]+)" 
Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters
https://dubovik.studio/akcii/
https://dubovik.studio/nashi-raboty
https://dubovik.studio/kontakty/
https://dubovik.studio/stati/
Но ни одну из ссылок она не находит, вот что находит:
ссылки.txt

Почему ссылки не подходят под регулярку?

CSS> a -- находит все ссылки

Bablosoft

Регулярное выражение для поиска ссылок

Модуль для дебага

Как зациклить просмотр ссылок

Создаю парсер для сбора статистики игр с сайта букмекерской конторы,для дальнейшей работы в экселе.Проблема с записью списка в эксель.

Подскажите регулярное выражение

Как передать клик (enter в поле поиска Google)