@brotok said in Как написать парсер (получить текст), чтобы не захватывал цитату (делаю парсер форума)?:
Здравствуйте, уважаемые эксперты!
Сегодня промучился - ничего не получается.
Хочу написать парсер форума b17.ru
Вот пример поста:
https://www.b17.ru/forum/topic.php?id=130689&p=5#topic_top
Там идет сначала цитата в большинстве случаев а потом ам текст, вот скриншот:
https://i.imgur.com/gINUrXY.png
Я хочу чтобы извлекалось все кроме цитаты... Как это сделать? Уже намучился серьезно со всем этим..(
Или это на данном форуме невозможно реализовать с помощью bas? Какой селектор выбрать, чтобы извлечь только текст (без цитат?)...
Надеюсь на вашу помощь, т.к. понял что у меня не хватает мозгов для подобной реализации...(
Самое первое, что пришло в голову - это удалить из кода все цитаты :D
Действие "заменить строку", регулярное выражение:
<div class=quote[\s\S]*?<\/div>
а из полученной переменной через xpath достать каждый текст:
//td[@class="mes qq"]
Вот тестовый скрипт