@sten30 До сих пор не догоняю в чем проблема списки в текст переводить и обратно. Не нравится кубиками, можно кучу примеров найти на node.js как это делается.
Разница в скоросте работы в режиме записи и в режиме запуска огромная при прохождению по циклам. Мне все же кажется что ты просто до конца не разобрался как свою задачу оптимальней решить, я почти уверен, что в скорости БАС не будет уступать если верно сконструировать логику.
Регулярное выражение для поиска ссылок
-
День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]+)"Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters https://dubovik.studio/akcii/ https://dubovik.studio/nashi-raboty https://dubovik.studio/kontakty/ https://dubovik.studio/stati/Но ни одну из ссылок она не находит, вот что находит:
ссылки.txtПочему ссылки не подходят под регулярку?
-
@Naineten said in Регулярное выражение для поиска ссылок:
День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]\S+)"Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters https://dubovik.studio/akcii/ https://dubovik.studio/nashi-raboty https://dubovik.studio/kontakty/ https://dubovik.studio/stati/Но ни одну из ссылок она не находит, вот что находит:
ссылки.txtПочему ссылки не подходят под регулярку?
Действие "Xpath получить каждый xml":
//a/@href -
@Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.
-
@Naineten said in Регулярное выражение для поиска ссылок:
@Fox Спасибо, но у меня с этим способом какие-то проблемы были, не всегда ссылки находило на разных сайтах. Хотелось бы понять почему именно регулярка эти ссылки не воспринимает. (на этом сайте всё отлично). Пожалуй сделаю симбиоз из этих двух методов. Если у кого-то так же как и у меня проблемы с поиском ссылок через xpath - регулярка выше здраво работает почти везде.
С xpath на вашем сайте нет проблем, получает как надо
https://clip2net.com/s/44ORLN7 -
@Naineten said in Регулярное выражение для поиска ссылок:
День добрый. Нужен ваш совет. Задача - извлечь все потенциально "видимые" ссылки с сайта перед фильтрацией. Делаю я это с помощью "Извлечь все данные" и такого регулярного выражения
href="([^"]+)"Например, есть сайт https://dubovik.studio/ , где много динамических кнопок и всего прочего, что осложняет нажатие на такие ссылки, но помимо этого он ещё и не все из этих ссылок находит изначально. Вот те, что как минимум нужно видеть в списке после использования регулярки:
https://dubovik.studio/masters https://dubovik.studio/akcii/ https://dubovik.studio/nashi-raboty https://dubovik.studio/kontakty/ https://dubovik.studio/stati/Но ни одну из ссылок она не находит, вот что находит:
ссылки.txtПочему ссылки не подходят под регулярку?
CSS> a -- находит все ссылки