как получить текст страницы
-
привет
подскажите как получить чистый текст страницы
xpath //body ругается
Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации
-
@oltan said in как получить текст страницы:
привет
подскажите как получить чистый текст страницы
xpath //body ругается
Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информацииМожешь регуляркой дернуть из кода страницы.
-
@fastspace
не я еще могу попросить алису из яндекса прочитать содержимое страницы.
а можно как то проще ?
-
@oltan said in как получить текст страницы:
@fastspace
не я еще могу попросить алису из яндекса прочитать содержимое страницы.
а можно как то проще ?А что там сложного? 2 действия - сохранить код страницы. Второй извлечь текст регулярным выражением в переменную.
-
@fastspace
я не исключаю что могу ошибиться , но даже спарсить прокси на некоторых форумах по 2 страницы обсуждения.
Очень прошу вас подсказать волшебную регулярку которая сможет забрать видимый текст со странички.
-
@oltan что бы тут помогли, надо больше информации. А не так - "У меня не работает Бас, что делать"
-
@uraabk
какой информации ?
я задал вопрос - как получить видимый текст со все страницы
испробывал 2 способа
xpath получить текст //body - выдает ошибку
Получить тексе >CSS>body - возвращает не только текст на странице но и кучу информации из стилей которая не отображается в данный моментя попросил совета - посоветовали регулярки но без конкретики
я не сомневаюсь что регулярками можно много что сделать но думаю это точно не проще вышеуказаных методов
да и считаю что задача должна решаться встроенными методами так как задача встречается почти во всех проектах.
-
@oltan Как вариант: селекторным циклом можно получить текст, при этом сделать селектор, в котором видимый текст присутствует, универсальным.
Страницы же разные, с каждой страницы своим методом получать можно, Вам просто накидали вариантов.
-
@oltan Если не нравятся регулярки, то можете к полученному коду применять xpath, только из вкладки Xpath , а не http
-
@oltan ну вот, вы задали вопрос - получили ответ.
Посмотрите как другие задают вопросы и какие ответы получают - https://community.bablosoft.com/topic/6284/не-получается-получить-текст
-
@uraabk
да спасибо - по оформлению пример хороший - буду стараться в дальнейшем так и делать
но мой вопрос про текст все страницы - и не думал что body как то надо уточнять - это ведь основной тег или нет ??
-
@oltan смотря на каком сайте. Лучше получать код всей страницы. Или конкретные данные сразу.