Всем спасибо, разобрался как работать с xml + xpath, на пайтоне просто немного по другому. Обнял <3 Они уже закрыли лазейку через isTrue, написал по другому.
Скопировать текст с переносами
-
Я понимаю что это должно быть просто, но пошла уже вторая неделя...
В общем, как получить нормальный текст с переносами?
Допустим вот с этой страницы
https://www.litres.ru/diana-soul/serdce-luksuma-princessa-dostoyna-smerti-53608013/
Есть текст
Мир, в который меня притащили против воли, суров и жесток. Здесь властвуют холод и снег, а люди выживают только благодаря люксуму. Его сложно добыть, но еще сложнее активировать. Лишь носители королевской крови способны на это, и по несчастливой неслучайности – последней принцессой древнего рода оказалась именно я. Теперь за мной идет охота. Одна сторона желает меня использовать, вторая жаждет моей смерти. Я же просто хочу домой, и постоянно оглядываясь назад, слышу дыхание охотника – чей взгляд будоражит и рождает страх…Выбираю "Получить текст" и получаю результат в одну строку:
Мир, в который меня притащили против воли, суров и жесток. Здесь властвуют холод и снег, а люди выживают только благодаря люксуму. Его сложно добыть, но еще сложнее активировать.Лишь носители королевской крови способны на это, и по несчастливой неслучайности – последней принцессой древнего рода оказалась именно я.Теперь за мной идет охота. Одна сторона желает меня использовать, вторая жаждет моей смерти.Я же просто хочу домой, и постоянно оглядываясь назад, слышу дыхание охотника – чей взгляд будоражит и рождает страх…Как его нормально скопировать?
-
@chelovek42
Как вариант выделить все на странице, скопировать в буфер обмена и удалить лишнее регулярками. -
@chelovek42 Там каждый абзац это отдельный тег <p> поэтому правильней будет получать текст для каждого такого тега по отдельности и класть его список, а затем этот список объединить в строку используя в качестве разделителя символ переноса строк
-
@UserTrue В принципе хороший метод если точно известно что текст на всех страницах стандартизирован и ничего лишнего там появляться больше не будет. Помню столкнулся с похожей проблемой где текст заполняют разные пользователи и почти каждый добавляет в разметку чего - нибудь своего. В итоге код который заменяет определенные символы на другие разросся на столько, что решил забить и сделать как описал выше. Но если известно что там только этот символ, то тогда этот метод будет лучше.