"Первое вхождение" с регуляркой в [[SAVED_PAGE_HTML]] вешает BAS



  • Парсер телефонов и email'ов с сайта - тривиальная, в принципе, задача.
    Попытка посмотреть в [[SAVED_PAGE_HTML]] первое вхождение регулярки (Обычный фильтр на email):

    ([0-9\,a-zA-Z\,!\$&\*-=\^`\|~\#%'\+/\?_\{\}\.]+@[0123456789\,a-zA-Z\,\.]+\.+?\w+?\w+?)
    

    Вешает BAS на ряде сайтов (Например на nn-potolki.ru).
    В случае режима записи он потом может отмереть (А может и нет).
    В случае многопотока - просто зависание интерфейса и Freeze от Винды.

    С чем это может быть связано?
    Снова какая-то защита сайтов?

    В целом, ИМХО, если код взят в переменную, то дальше должно всё нормально работать (Не думаю, что все сайты настолько большие, что это действие повесит мощную систему). Альтернатива, кстати? Искать через xPath - это всё равно та же регулярка. В 90% случаев она отрабатывает штатно.

    Была мысль повесить ограничение времени на это действие, но в интерфейсе нет обычных "часов" (Иконки).

    alt text

    Если только перед этим действием переопределить общий Таймаут, а потом вернуть его как было... Но это слегка костыль)



  • @AngelOfAncient https://community.bablosoft.com/topic/14820/string
    Здесь есть парсер телефонов и почт.


Log in to reply