@vik998
Кек, считай что байт удался. Но я потратил 5 минут спешл фо ю
fd9675c5-27cd-40e6-a3a0-3e484fc6dc0a-image.png
8fa97767-7830-4c75-9997-71d8dce7e6f7-image.png
0f631459-00a5-47ac-9c76-826807a89b52-image.png
dbe62c30-5b07-4073-9517-7a36ed676671-image.png
27ec49d4-8851-4400-af4a-caeaf46b2a69-image.png
65a2e3f6-548f-41ce-a71d-e1e4b6ef1d34-image.png
5bcb7688-f709-4069-bc7e-935e3e5159d3-image.png
248605f0-80be-4a6e-a4f6-297644ad2edc-image.png
168c3b2f-d6c3-4f56-8884-cb575180b515-image.png
fb991926-b5a6-4fc3-a6a5-78a47f63c49e-image.png
7cb5ece1-7e12-42f6-9a2d-4f9a216c7178-image.png
Регулярное выражение для поиска ссылок
-
День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]+)"Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters https://dubovik.studio/akcii/ https://dubovik.studio/nashi-raboty https://dubovik.studio/kontakty/ https://dubovik.studio/stati/Но ни одну из ссылок она не находит, вот что находит:
ссылки.txtПочему ссылки не подходят под регулярку?
-
@Naineten said in Регулярное выражение для поиска ссылок:
День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]\S+)"Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters https://dubovik.studio/akcii/ https://dubovik.studio/nashi-raboty https://dubovik.studio/kontakty/ https://dubovik.studio/stati/Но ни одну из ссылок она не находит, вот что находит:
ссылки.txtПочему ссылки не подходят под регулярку?
Действие "Xpath получить каждый xml":
//a/@href -
@Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.
-
@Naineten said in Регулярное выражение для поиска ссылок:
@Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.
С xpath на вашем сайте нет проблем, получает как надо
https://clip2net.com/s/44ORLN7 -
@Naineten said in Регулярное выражение для поиска ссылок:
День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]+)"Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters https://dubovik.studio/akcii/ https://dubovik.studio/nashi-raboty https://dubovik.studio/kontakty/ https://dubovik.studio/stati/Но ни одну из ссылок она не находит, вот что находит:
ссылки.txtПочему ссылки не подходят под регулярку?
CSS> a -- находит все ссылки