Вопрос по поисковой выдаче яндекса



  • Подскажите, пожалуйста, Xpath часто не находит в поисковой выдаче, то что нужно, из- за этого поток начинается заново и проблема в том что в html код поисковой выдачи лишь немного меняется и этого достаточно, чтобы Xpath не нашёл нужного элемента, так вот есть ли какой нибудь метод, чтобы это можно избежать?
    Во всех Xpath запросах я указывал абсолютный путь, например так:
    >XPATH> /html/body/header/nav/div/div/div/ul/li[1]/ul/li[1]/a
    Но этого как я понимаю не достаточно?



  • @Lasqa Используйте относительный путь Xpath и лучше пишите его сами. Так надёжнее.



  • @fox В каком смысле "лучше пишите его сами", то есть каждый раз самому вписывать путь?





  • @my3uka Спасибо вам, это очень очень очень годно! Я думаю, теперь мой вопрос исчерпан, тема закрыта!



  • @my3uka вот еще бы такой же мануальчик по get\post)



  • @paini я сам ищу такой мануал по гет-пост.



  • Ребята, нет таких мануалов, все банально, отлавливаете запрос, анализируете его и пытаетесь аналогично с имитировать...



  • @bigorat Вот в том то и дело,что если бы кто пальцем показал по шагам.В поисковиках результата - 0


  • Banned

    @my3uka Fiddler вот ваш мануал. Ну или что то подобное. Чтобы он сохранял не только сами запросы, но страницы и вообще все. А мануал.. ну какой мануал прошел в браузере сел курить сниффер. Сморим заголовки response /request глядь он чота непонятное secret кокойто, или hash, или id или еще чего вы точно не слали добавляет. Или запрос оригинальный какой)) Угусь, запомнили чо он слал лезем на страницы раньше (тут нам и пригодится именно способность fiddlera сохранить все) и смотрим где это нам присваивается. fiddler это можно просто копируем значение и тупо его ищем в истории. Нашли понятно. Теперь его выдергиваем сразу. При первом заходе на страницу, регуляркой, json, или xpathом каждый случай индивидуален и подставляем. И вот таким вот нехитрым способом мы перебираем все. В конце отсеиваем то от чего можно отказаться. И получаем искомое. Бывает что серваки прикалываются надо получить не абы чо, а заголовок. Ок берем и это бас умеет. Находите как он назывался и получаете. И так далее.

    з/ы Если очень упростить твой следующий заголовок или response сидит в предыдущем body


  • Banned

    @my3uka Вы ищите мануалы не как сделать бота на постгетах)), а тестировщики по. Правильно поставленная задача 50% решения. Мы очень пересекаемся с ними.
    гугл


Log in to reply
 

  • 7
  • 7
  • 2
  • 9
  • 5
  • 4
  • 3
  • 54