Спарсить запись Wordpress



  • Не получается составить рег. выражение.
    Есть страничка, движок wordpress.

    1. Браузером захожу.
    2. Код страницы записываю в SAVED_PAGE_HTML
    3. Рег. выражения - извлечь все данные
      Сама регулярка <!--\ .post_content\ -->(.)<!--\ /.post_content\ -->
      извлекаю из [[SAVED_PAGE_HTML]]
      и записываю в SCAN_RESULT_LIST
      ну и как бы ничего не выходит.

    Задача спарсить весь пост. Все что между тегами <!-- .post_content --> <!-- /.post_content -->
    парсить вместе с тегами.



  • \-\-\\\ \.post_content\\\ \-\->(.+?)<!\-\-\\\ /\.post_content\\\ \-\->
    

    Используй конструктор регулярных выражений, в БАС->Инструменты



  • Я его и использовал. Регулярка не срабатывает, никакого результата не отдает.



  • О! Регулярки!
    @Kodak Ты бы хоть для примера приложил содержимое страницы из [[SAVED_PAGE_HTML]].

    Так то должно подойти элементарное:

    <\!-- \.post_content -->([\s\S]*)<\!-- \/\.post_content -->
    

    Либо спросить @DrPrime на счёт применения Xpath :D



  • @Fox xpath не понимает комментарии, как и браузер



  • @Kodak

    <!\-\-\ \.post_content\ \-\->(.*?)<!\-\-\ /\.post_content\ \-\->
    

    Составил с 1 раза в конструкторе, все подошло.
    Ваша будет работать только тогда, когда результат содержит 1 символ.
    Нужно в конструкторе выбирать не только значания, но и сколько раз оно может встречаться http://prntscr.com/god8xc



  • @support Подтверждаю, вашей регуляркой BAS находит нужную информацию по задаче автора:

    Задача спарсить весь пост. Все что между тегами <!-- .post_content --> <!-- /.post_content -->
    парсить вместе с тегами.

    Только в случае, если нет переносов строки.
    С переносами, подойдёт моя регулярка, что выше:

    <\!-- \.post_content -->([\s\S]*)<\!-- \/\.post_content -->
    

    Вот пример скрипта.



  • @Fox Я уже обновил конструктор так, чтобы под любой символ подходили переносы строки, как раз по вашему примеру.


Log in to reply