как получить текст страницы

oltan

привет
подскажите как получить чистый текст страницы
xpath //body ругается
Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации

FastSpace

@oltan said in как получить текст страницы:

привет
подскажите как получить чистый текст страницы
xpath //body ругается
Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации

Можешь регуляркой дернуть из кода страницы.

oltan

@fastspace
не я еще могу попросить алису из яндекса прочитать содержимое страницы.
а можно как то проще ?

FastSpace

@oltan said in как получить текст страницы:

@fastspace
не я еще могу попросить алису из яндекса прочитать содержимое страницы.
а можно как то проще ?

А что там сложного? 2 действия - сохранить код страницы. Второй извлечь текст регулярным выражением в переменную.

oltan

@fastspace
я не исключаю что могу ошибиться , но даже спарсить прокси на некоторых форумах по 2 страницы обсуждения.
Очень прошу вас подсказать волшебную регулярку которая сможет забрать видимый текст со странички.

uraabk

@oltan что бы тут помогли, надо больше информации. А не так - "У меня не работает Бас, что делать"

oltan

@uraabk
какой информации ?
я задал вопрос - как получить видимый текст со все страницы
испробывал 2 способа
xpath получить текст //body - выдает ошибку
Получить тексе >CSS>body - возвращает не только текст на странице но и кучу информации из стилей которая не отображается в данный момент

я попросил совета - посоветовали регулярки но без конкретики
я не сомневаюсь что регулярками можно много что сделать но думаю это точно не проще вышеуказаных методов
да и считаю что задача должна решаться встроенными методами так как задача встречается почти во всех проектах.

Inwnew

@oltan Как вариант: селекторным циклом можно получить текст, при этом сделать селектор, в котором видимый текст присутствует, универсальным.

Страницы же разные, с каждой страницы своим методом получать можно, Вам просто накидали вариантов.

? Offline

@oltan Если не нравятся регулярки, то можете к полученному коду применять xpath, только из вкладки Xpath , а не http

uraabk

@oltan ну вот, вы задали вопрос - получили ответ.
Посмотрите как другие задают вопросы и какие ответы получают - https://community.bablosoft.com/topic/6284/не-получается-получить-текст

oltan

@uraabk
да спасибо - по оформлению пример хороший - буду стараться в дальнейшем так и делать
но мой вопрос про текст все страницы - и не думал что body как то надо уточнять - это ведь основной тег или нет ??

uraabk

@oltan смотря на каком сайте. Лучше получать код всей страницы. Или конкретные данные сразу.

Bablosoft

как получить текст страницы

Вопрос как включить режим инкогнито?

Как получить элемент страницы текстом?

Бразуере осталось картинка прошлой страницы

new Date().toJSON() помогите получить ответ как в консоли

как сделать нескольок потоков, не нашел что то как в вики показан? скачал недавно, и разбираюсь.