как получить текст страницы

oltan

привет
подскажите как получить чистый текст страницы
xpath //body ругается
Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации

FastSpace

@oltan said in как получить текст страницы:

привет
подскажите как получить чистый текст страницы
xpath //body ругается
Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации

Можешь регуляркой дернуть из кода страницы.

oltan

@fastspace
не я еще могу попросить алису из яндекса прочитать содержимое страницы.
а можно как то проще ?

FastSpace

@oltan said in как получить текст страницы:

@fastspace
не я еще могу попросить алису из яндекса прочитать содержимое страницы.
а можно как то проще ?

А что там сложного? 2 действия - сохранить код страницы. Второй извлечь текст регулярным выражением в переменную.

oltan

@fastspace
я не исключаю что могу ошибиться , но даже спарсить прокси на некоторых форумах по 2 страницы обсуждения.
Очень прошу вас подсказать волшебную регулярку которая сможет забрать видимый текст со странички.

uraabk

@oltan что бы тут помогли, надо больше информации. А не так - "У меня не работает Бас, что делать"

oltan

@uraabk
какой информации ?
я задал вопрос - как получить видимый текст со все страницы
испробывал 2 способа
xpath получить текст //body - выдает ошибку
Получить тексе >CSS>body - возвращает не только текст на странице но и кучу информации из стилей которая не отображается в данный момент

я попросил совета - посоветовали регулярки но без конкретики
я не сомневаюсь что регулярками можно много что сделать но думаю это точно не проще вышеуказаных методов
да и считаю что задача должна решаться встроенными методами так как задача встречается почти во всех проектах.

Inwnew

@oltan Как вариант: селекторным циклом можно получить текст, при этом сделать селектор, в котором видимый текст присутствует, универсальным.

Страницы же разные, с каждой страницы своим методом получать можно, Вам просто накидали вариантов.

? Offline

@oltan Если не нравятся регулярки, то можете к полученному коду применять xpath, только из вкладки Xpath , а не http

uraabk

@oltan ну вот, вы задали вопрос - получили ответ.
Посмотрите как другие задают вопросы и какие ответы получают - https://community.bablosoft.com/topic/6284/не-получается-получить-текст

oltan

@uraabk
да спасибо - по оформлению пример хороший - буду стараться в дальнейшем так и делать
но мой вопрос про текст все страницы - и не думал что body как то надо уточнять - это ведь основной тег или нет ??

uraabk

@oltan смотря на каком сайте. Лучше получать код всей страницы. Или конкретные данные сразу.

Bablosoft

как получить текст страницы

Копировать текст с тегами телеграм

Сохранить текст с переносом строки

Как выделить текст в редакторе?

Json получить значения

как получить текст прокси в логах