Регулярные выражения



  • Ребята помогите пожалуйста с парсингом элемента через регулярку.
    http://prntscr.com/n28dvr
    Нужно спарсить все в строку. Опыта у меня очень мало и я учусь, прежде чем писать на форум пол дня читал, пробовал сам сделать через "Конструктор Регулярных Выражений", но что-то делаю не так. Заранее спасибо за помощь.



  • </span>([^<]+)</div>
    


  • Спасибо огромное за помощь. Скажи пожалуйста как это нужно было сделать через конструктор? Чтобы бы я на будущее знал)))



  • Я не знаю, по-началу пробовал, не получилось... Лучше изучить регулярку самому.



  • В любом случае спасибо))



  • @artsamdev said in Регулярные выражения:

    Ребята помогите пожалуйста с парсингом элемента через регулярку.
    http://prntscr.com/n28dvr
    Нужно спарсить все в строку. Опыта у меня очень мало и я учусь, прежде чем писать на форум пол дня читал, пробовал сам сделать через "Конструктор Регулярных Выражений", но что-то делаю не так. Заранее спасибо за помощь.

    Html документ лучше парсить через xpath.



  • @fox said in Регулярные выражения:

    Html документ лучше парсить через xpath.

    У меня были моменты, где парсилось только регуляркой...



  • @profitget said in Регулярные выражения:

    @fox said in Регулярные выражения:

    Html документ лучше парсить через xpath.

    У меня были моменты, где парсилось только регуляркой...

    Ни разу не сталкивался с такой ситуацией. Всегда есть либо родитель, либо сестринские элементы с каким нибудь статичным атрибутом (не обязательно классом).


    Если есть на примере страница где xpath бессилен, буду рад посмотреть. Только прикладывайте не код элемента, а всю страницу файлом.



  • @fox said in Регулярные выражения:

    Только прикладывайте не код элемента, а всю страницу файлом.

    да если полный путь проложить от начала страницы то получить можно, но у меня был случай когда структура html документа менялась из-за того, что иногда хостинг вставлял свою рекламу в код (услуги, скидки и пр. предлагал) и единственный выход - регулярные выражения, которые работают всегда...



  • @profitget said in Регулярные выражения:

    @fox said in Регулярные выражения:

    Только прикладывайте не код элемента, а всю страницу файлом.

    да если полный путь проложить от начала страницы то получить можно, но у меня был случай когда структура html документа менялась из-за того, что иногда хостинг вставлял свою рекламу в код (услуги, скидки и пр. предлагал) и единственный выход - регулярные выражения, которые работают всегда...

    Ни разу не использовал абсолютный путь для xpath выражения :D.

    Структура html документа меняется не полностью и всегда есть элементы со статичными атрибутами к которым можно прицепится. Регулярки я люблю, но в парсинге html они менее надёжны и более ресурсозатратные (Была ситуация, когда я полностью убрал регулярки из скрипта и смог снизить нагрузку на проц на ! 30% !)


    Если сможете - пришлите код страницы для примера.



  • @fox , ах да вспомнил ещё один случай применения регулярки - это когда разные шаблоны на одном движке, и чтобы для каждого сайта не создавать свой xpath, пользуюсь регуляркой...

    @fox said in Регулярные выражения:

    но в парсинге html они менее надёжны

    Не разу не подводили...

    @fox said in Регулярные выражения:

    более ресурсозатратные

    может быть, но я пока этого не проверял... да и как проверить, если с регуляркой процессор загружен на 1-3%...



  • @profitget said in Регулярные выражения:

    @fox , ах да вспомнил ещё один случай применения регулярки - это когда разные шаблоны на одном движке, и чтобы для каждого сайта не создавать свой xpath, пользуюсь регуляркой...

    @fox said in Регулярные выражения:

    но в парсинге html они менее надёжны

    Не разу не подводили...

    @fox said in Регулярные выражения:

    более ресурсозатратные

    может быть, но я пока этого не проверял... да и как проверить, если с регуляркой процессор загружен на 1-3%...

    От последующей полемики пожалуй откажусь, каждый волен использовать любые доступные ему инструмены



  • This post is deleted!


  • @sazhin Вам что нужно https:// выдернуть?
    alt text

    Или ваша цель то что за протоколом?
    Вот страница создания регулярок от баса
    https://bablosoft.github.io/RegexpConstructor/
    У вас целевое это https)



  • @sazhin

    var url = "https://user:pass@sub.example.com:8080/p/a/t/h?query=string#hash";
    [[URL_SCHEME]] = url.split(':')[0];
    


  • This post is deleted!


  • @sazhin said in Регулярные выражения:

    @tts9 said in Регулярные выражения:

    Регулярное выражение верное, но BAS выдаёт ошибку.

    У меня все работает по вашей регулярке))
    Но лучше использовать split, как посоветовал @Oyasumi-Punpun



  • @sazhin Если регуляркой всё-таки, то такой:

    (?<=^)([a-z][a-z0-9+\-.]*)(?=:)
    


  • This post is deleted!


  • @sazhin said in Регулярные выражения:

    @uraabk
    Пожалуйста, линкани шаблон с регуляркой, а то SyntaxError: Parse error во время выполнения действия

    0_1554120544760_demoo.xml


Log in to reply
 

  • 2
  • 20
  • 10
  • 9
  • 4
  • 9
  • 4
  • 2