Как написать парсер (получить текст), чтобы не захватывал цитату (делаю парсер форума)?



  • Здравствуйте, уважаемые эксперты!
    Сегодня промучился - ничего не получается.
    Хочу написать парсер форума b17.ru
    Вот пример поста:
    https://www.b17.ru/forum/topic.php?id=130689&p=5#topic_top
    Там идет сначала цитата в большинстве случаев а потом ам текст, вот скриншот:
    https://i.imgur.com/gINUrXY.png
    Я хочу чтобы извлекалось все кроме цитаты... Как это сделать? Уже намучился серьезно со всем этим..(
    Или это на данном форуме невозможно реализовать с помощью bas? Какой селектор выбрать, чтобы извлечь только текст (без цитат?)...
    Надеюсь на вашу помощь, т.к. понял что у меня не хватает мозгов для подобной реализации...(



  • @brotok said in Как написать парсер (получить текст), чтобы не захватывал цитату (делаю парсер форума)?:

    Здравствуйте, уважаемые эксперты!
    Сегодня промучился - ничего не получается.
    Хочу написать парсер форума b17.ru
    Вот пример поста:
    https://www.b17.ru/forum/topic.php?id=130689&p=5#topic_top
    Там идет сначала цитата в большинстве случаев а потом ам текст, вот скриншот:
    https://i.imgur.com/gINUrXY.png
    Я хочу чтобы извлекалось все кроме цитаты... Как это сделать? Уже намучился серьезно со всем этим..(
    Или это на данном форуме невозможно реализовать с помощью bas? Какой селектор выбрать, чтобы извлечь только текст (без цитат?)...
    Надеюсь на вашу помощь, т.к. понял что у меня не хватает мозгов для подобной реализации...(

    Самое первое, что пришло в голову - это удалить из кода все цитаты :D

    Действие "заменить строку", регулярное выражение:

    <div class=quote[\s\S]*?<\/div>
    

    а из полученной переменной через xpath достать каждый текст:

    //td[@class="mes qq"]
    

    Вот тестовый скрипт


Log in to reply