Как сделать парьсинг то ли html, то ли текстовой страницы (фрагмента)?

brotok

Здравствуйте!
Пытаюсь написать парсер госзакупок российских - что то не особо получается если честно...

Хотелось бы извлечь только нужные данные - например, номер тлефона, организации и т.д. (пометил на скриншоте красной полосой).
Но если это невозможно (а так оно наверно и есть) - то как хотя бы весь этот блок (раздел IV) - извлечь из общей страницы чтобы не качать всю страницу целиком... Это возможно вообще?

0_1566939034249_GkzFBTY[1].png

http://zakupki.gov.ru/epz/contract/printForm/view.html?contractInfoId=48799835

uraabk

@brotok все возможно. Главное составить правильный xpath

По типу такого, будет доставать всю таблицу, идущую за заголовком "Раздел IV"

 >XPATH> //center[contains(text(),'Раздел IV')]/following::table[1]

Аналогичная тема - https://community.bablosoft.com/topic/6786/комбинированное-селектирование-элементов-match-и-css

brotok

XPATH> //center[contains(text(),'Раздел IV')]/following::table/tbody/tr[4]/td[10]

Спасибо! я так понимаю надо просто цифру менять и все, чтобы другие ячейки вылавливать?

uraabk

@brotok said in Как сделать парьсинг то ли html, то ли текстовой страницы (фрагмента)?:

XPATH> //center[contains(text(),'Раздел IV')]/following::table/tbody/tr[4]/td[10]

Спасибо! я так понимаю надо просто цифру менять и все, чтобы другие ячейки вылавливать?

Да, если таблицы на других страницах схожие. В ином случае, придется изменять немного xpath

Bablosoft

Как сделать парьсинг то ли html, то ли текстовой страницы (фрагмента)?

Как сделать чтобы сайт epic games работал в басе?

Как заставить что-то написать моего телеграм бота в мой тг-чат?

Можно ли сделать так, чтобы скрипт останавливал работу через какое-то время?

Как можно сделать пропуск ошибки?

Как обойти внутренние(с уровнем вложенности 2) страницы сайта?