так же пробовал вместо решение капчи-ставить ручное управление браузером, все равно без результата!
Вопрос по поисковой выдаче яндекса
-
Подскажите, пожалуйста, Xpath часто не находит в поисковой выдаче, то что нужно, из- за этого поток начинается заново и проблема в том что в html код поисковой выдачи лишь немного меняется и этого достаточно, чтобы Xpath не нашёл нужного элемента, так вот есть ли какой нибудь метод, чтобы это можно избежать?
Во всех Xpath запросах я указывал абсолютный путь, например так:
>XPATH> /html/body/header/nav/div/div/div/ul/li[1]/ul/li[1]/a
Но этого как я понимаю не достаточно? -
https://docs.google.com/document/d/1PdfKMDfoqFIlF4tN1jKrOf1iZ1rqESy2xVMIj3uuV3g/pub - я по хпас паршу гугл
-
@my3uka Fiddler вот ваш мануал. Ну или что то подобное. Чтобы он сохранял не только сами запросы, но страницы и вообще все. А мануал.. ну какой мануал прошел в браузере сел курить сниффер. Сморим заголовки response /request глядь он чота непонятное secret кокойто, или hash, или id или еще чего вы точно не слали добавляет. Или запрос оригинальный какой)) Угусь, запомнили чо он слал лезем на страницы раньше (тут нам и пригодится именно способность fiddlera сохранить все) и смотрим где это нам присваивается. fiddler это можно просто копируем значение и тупо его ищем в истории. Нашли понятно. Теперь его выдергиваем сразу. При первом заходе на страницу, регуляркой, json, или xpathом каждый случай индивидуален и подставляем. И вот таким вот нехитрым способом мы перебираем все. В конце отсеиваем то от чего можно отказаться. И получаем искомое. Бывает что серваки прикалываются надо получить не абы чо, а заголовок. Ок берем и это бас умеет. Находите как он назывался и получаете. И так далее.
з/ы Если очень упростить твой следующий заголовок или response сидит в предыдущем body
