Парсинг с авторизацией

Поддержка
  • На даном этапе моих знаний недостаточно потому все таки прошу о помощи, так как не програмист но люблю учится - хотя тяжело временем доходит. С фейсбуком кажысь больше проблем нет. Прикрепил проэкт, две проблемы:

    1. Время от времени возникает ошыбка загрузки страницы, такого типа
      [611378366] [22:09:55] Поток №1 : Can't resolve query //div[@class='leaflet-popup-content']/div[@class='map__popup']/div[@class='map__popup-header']/div[@class='map__popup-title']
      После этого критическая ошыбка и остановка парсинга. Читал о игнорировании ошибок но ничего у мене не работает
    2. Вторая проблема, даже после ошибки и остановки парсинга часть даных собираеться. Но после повторного запуска те же даные собираються снова. Читал о функции "Удалить Текущий Элемент", но нечего не вышло.
      Если у кого то будет 5 минут - прошу посмотреть и хотя б ткнуть что делаю не правильно.
      СпасибоPrzedszkola_edu_pl_робочий.xml
  • @Dodok В таком случае,можно подумать о покупке аккаунтов.Сейчас уже не занимаюсь ФБ,но неск месяцев назад,жили акки спокойно на одном покупном прокси,по 2-4 шт.Акков было порядка 70 и все живы.Как сейчас там дела обстоят,не могу сказать...

  • @MRM1987 said in Парсинг с авторизацией:

    [611378366] [22:09:55] Поток №1 : Can't resolve query //div[@class='leaflet-popup-content']/div[@class='map__popup']/div[@class='map__popup-header']/div[@class='map__popup-title']

    Это означает,что вы не правильно делаете xpath запрос,проверьте точность

  • @MRM1987 said in Парсинг с авторизацией:

    Читал о функции "Удалить Текущий Элемент", но нечего не вышло.

    А делали в этой же функции галочку"удалить из базы мгновенно"?

  • @paini Так дело в том что парсит например 200 ссылок и все ок. Потом в одном месте стопорится и все. Я не думаю что на конкретной странице верстка другая и xpath другой.

  • @MRM1987 у меня была такая же проблема,но дело было в качестве прокси

  • Сделай проверку данных,например игнорь ошибку,а после проверяй актуальность данных и если они присутствуют,то продолжай,если нет,то просто удаляй ....

  • Не думаю что проблема в прокси. На сайте кажеться вообще никакой защиты кроме авторизации по фейсбук. Датакол собрал ссылки в несколько потоков без прокси и все ок.

  • @MRM1987 У тебя в первом действии получить текст не снята галка
    9f57d377-927d-4a6b-bd30-d84085f1e36f-image.png

  • И так же я не вижу ни одного действия,которое удаляло бы строки данных.Ни в исходном файле ни из загружаемого списка.

  • @paini said in Парсинг с авторизацией:

    @MRM1987 У тебя в первом действии получить текст не снята галка
    9f57d377-927d-4a6b-bd30-d84085f1e36f-image.png

    Поэтому и возникает твоя первая ошибка

  • @paini Спасибо большое ! Сейчас запущу тест.

  • @paini Галочки убрал где нужно. Появились ошибки таймаута по загрузке старниц- поставил игнор ошибок. Работает пока не вылазит такая ошибка Таймаут во время выполнения lenght for[documentRoot all .map] - сталкивались с таким ?

  • @paini Поищу сохраненные файлы, перероблял скрипт много раз - ничего не получалось.

  • @MRM1987 С таким не сталкивался.Вам бы лучше через ресурс работать,не как у вас в цикле сейчас сделано

  • 0 Votes
    2 Posts
    361 Views
  • 0 Votes
    14 Posts
    1167 Views
  • 0 Votes
    1 Posts
    337 Views
  • 0 Votes
    7 Posts
    794 Views
  • -1 Votes
    4 Posts
    667 Views