как получить текст страницы



  • привет
    подскажите как получить чистый текст страницы
    xpath //body ругается
    Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации



  • @oltan said in как получить текст страницы:

    привет
    подскажите как получить чистый текст страницы
    xpath //body ругается
    Получить текс >CSS>body - получает не только текст страницы а еще кучу какой то не нужной мне информации

    Можешь регуляркой дернуть из кода страницы.



  • @fastspace
    не я еще могу попросить алису из яндекса прочитать содержимое страницы.
    а можно как то проще ?



  • @oltan said in как получить текст страницы:

    @fastspace
    не я еще могу попросить алису из яндекса прочитать содержимое страницы.
    а можно как то проще ?

    А что там сложного? 2 действия - сохранить код страницы. Второй извлечь текст регулярным выражением в переменную.



  • @fastspace
    я не исключаю что могу ошибиться , но даже спарсить прокси на некоторых форумах по 2 страницы обсуждения.
    Очень прошу вас подсказать волшебную регулярку которая сможет забрать видимый текст со странички.



  • @oltan что бы тут помогли, надо больше информации. А не так - "У меня не работает Бас, что делать"



  • @uraabk
    какой информации ?
    я задал вопрос - как получить видимый текст со все страницы
    испробывал 2 способа
    xpath получить текст //body - выдает ошибку
    Получить тексе >CSS>body - возвращает не только текст на странице но и кучу информации из стилей которая не отображается в данный момент

    я попросил совета - посоветовали регулярки но без конкретики
    я не сомневаюсь что регулярками можно много что сделать но думаю это точно не проще вышеуказаных методов
    да и считаю что задача должна решаться встроенными методами так как задача встречается почти во всех проектах.



  • @oltan Как вариант: селекторным циклом можно получить текст, при этом сделать селектор, в котором видимый текст присутствует, универсальным.

    Страницы же разные, с каждой страницы своим методом получать можно, Вам просто накидали вариантов.



  • @oltan Если не нравятся регулярки, то можете к полученному коду применять xpath, только из вкладки Xpath , а не http



  • @oltan ну вот, вы задали вопрос - получили ответ.
    Посмотрите как другие задают вопросы и какие ответы получают - https://community.bablosoft.com/topic/6284/не-получается-получить-текст



  • @uraabk
    да спасибо - по оформлению пример хороший - буду стараться в дальнейшем так и делать
    но мой вопрос про текст все страницы - и не думал что body как то надо уточнять - это ведь основной тег или нет ??



  • @oltan смотря на каком сайте. Лучше получать код всей страницы. Или конкретные данные сразу.


Log in to reply