Был их клиентом потом ушел
почему ушел
у AWM Proxy как оказалось лимиты на запросы к любым гугл сервисам
и я даже не использовал их прокси для решения recaptcha-2
а просто на сайтах которые я гоняю были кнопки для решения этих каптч
Все более ни где там обращения к гугл сервисам не было, ну хотя может быть они файлы гугл аналитики считают тоже как обращение к гугл сервисам, бог их знает.
В итоге мои скрипты работали только пол дня потом наступал лимит этих обращений и все гуд бай до полуночи.
Вопрос по поисковой выдаче яндекса
-
Подскажите, пожалуйста, Xpath часто не находит в поисковой выдаче, то что нужно, из- за этого поток начинается заново и проблема в том что в html код поисковой выдачи лишь немного меняется и этого достаточно, чтобы Xpath не нашёл нужного элемента, так вот есть ли какой нибудь метод, чтобы это можно избежать?
Во всех Xpath запросах я указывал абсолютный путь, например так:
>XPATH> /html/body/header/nav/div/div/div/ul/li[1]/ul/li[1]/a
Но этого как я понимаю не достаточно? -
https://docs.google.com/document/d/1PdfKMDfoqFIlF4tN1jKrOf1iZ1rqESy2xVMIj3uuV3g/pub - я по хпас паршу гугл
-
@my3uka Fiddler вот ваш мануал. Ну или что то подобное. Чтобы он сохранял не только сами запросы, но страницы и вообще все. А мануал.. ну какой мануал прошел в браузере сел курить сниффер. Сморим заголовки response /request глядь он чота непонятное secret кокойто, или hash, или id или еще чего вы точно не слали добавляет. Или запрос оригинальный какой)) Угусь, запомнили чо он слал лезем на страницы раньше (тут нам и пригодится именно способность fiddlera сохранить все) и смотрим где это нам присваивается. fiddler это можно просто копируем значение и тупо его ищем в истории. Нашли понятно. Теперь его выдергиваем сразу. При первом заходе на страницу, регуляркой, json, или xpathом каждый случай индивидуален и подставляем. И вот таким вот нехитрым способом мы перебираем все. В конце отсеиваем то от чего можно отказаться. И получаем искомое. Бывает что серваки прикалываются надо получить не абы чо, а заголовок. Ок берем и это бас умеет. Находите как он назывался и получаете. И так далее.
з/ы Если очень упростить твой следующий заголовок или response сидит в предыдущем body
