Проблема с пагинацией при парсинге Google



  • Суть в следующем при парсинге выдачи гугла по ключевым запросам при условиях:
    на странице пагинации есть кнопка "следующая" то скрипт после парсинга результатов жмет на эту кнопку если этой кнопки нет то просто парсит результаты на странице (при условии что они есть, то есть при наличии " h3 <a" если нет то переходит в начало и берет новый key) а после переходит к новой итерации и парсит новый ключ.
    Если в выдаче более 10-20 страниц пагинации то иногда при эмуляции движения и клика мышкой по ссылке в пагинации "следующая" почему то страница просто обновляется, то есть были на 19 странице (в блоке пагинации показывает более 20 страниц и кнопку "следующая") скрипт загружает снова эту же страницу и так по кругу. При остановке записи и попытке выполнить клик по любой другой странице пагинации тот же результат, в чем проблема понять не могу, сам скрипт 0_1477034062405_вроде рабочий и без лишнего.xml (UPD: Перезалил. Немного пофиксил скрипт, добавил "финиш" и проверку капчи при пагинации) с BAS работаю 3 день, опыта в программировании никакого (хотя есть зенка но хочу перелезьт на BAS)

    задача скрипта собрать по списку ключей все результаты выдачи гугла по каждому запросу. Заранее благодарен очень надеюсь на помощь.

    Баг лезет постоянно при парсинге выдачи по запросу - запчасти субару
    обычно после 13-16 страницы, также встречается проблема когда при переходе на www.google.com и вводе текста скрипт перекидывает обратно на www.google.com с пустой поисковой строкой и так как не проходит проверку на присутствие элементов на страниице начинает следующую итерацию так и не получив никаких данных по текущему ключевому запросу и затерает его



  • Может проделки нового дизайна... Попробуйте старый юзерагент поставить что бы старый дизайн отображался
    Opera/9.00 (Windows NT 5.1; U; fi)
    alt text



  • Увы, это не так, попробовал следовать вашему совету, задал единственный юзер-агент проблема не в том что скрипт не кликает на ссылку перехода тут проблем никаких, CSS статичен и не меняется а вот гугл почему то после клика просто обновляет страницу вместо перехода к следующей
    принтскрин

    и всегда на одном и том же месте, как будто издевается )



  • спустя минут 20 снова кликнул в режиме "только выполнить" и страница 20 открылась, видимо все таки есть ограничение



  • @Shraibikus На всякий случай добавьте немного "случайности" между действиями (Самое простое Спать rand(1000,10000) между перелистываниями страниц, может есть другие способы, но я не знаю). Интернет постепенно "умнеет", повторяющиеся действия многие уже умеют фиксировать. У яндекса в метриках даже пункт специальный есть "Роботы". Наверняка и гугл так умеет, только гугл многое не показывает.
    В последнее время поисковики пытаются всячески прятать ключевые слова в своих базах, а тут скрипт демонстрирует такой откровенный скоростной сбор.



  • @Shraibikus

    Если в выдаче более 10-20 страниц пагинации то иногда при эмуляции движения и клика мышкой по ссылке в пагинации "следующая" почему то страница просто обновляется, то есть были на 19 странице (в блоке пагинации показывает более 20 страниц и кнопку "следующая") скрипт загружает снова эту же страницу и так по кругу. При остановке записи и попытке выполнить клик по любой другой странице пагинации тот же результат, в чем проблема понять не могу, сам скрипт 0_1477034062405_вроде рабочий и без лишнего.xml (UPD: Перезалил. Немного пофиксил скрипт, добавил "финиш" и проверку капчи при пагинации) с BAS работаю 3 день, опыта в программировании никакого (хотя есть зенка но хочу перелезьт на BAS)

    Долго юзал ваш скрипт, такой проблемы не наблюдал.
    Вы используете прокси? Если да, то повторяется ли проблема без прокси?
    Во время того, как переход не происходит, что во вкладке с сетевыми запросами http://prnt.sc/cyas7y есть ли там ошибки?



  • @support Приветствую, да конечно, в данном шаблоне который скинул изначально парсятся прокси с Hide Me и потом уже осуществляется парсинг выдачи(разумеется только через прокси). и проблема появлялась неоднократно именно на запросе "субару запчасти", ошибок в сетевом соединении нет



  • @Shraibikus повторяется ли проблема без прокси?


Log in to reply