Парсинг с авторизацией

Поддержка
  • @MRM1987 said in Парсинг с авторизацией:

    Если прикуплю левых акаунтов фейсбук для авторизации, как сделать поочередную авторизацию по каждому из них ? Если логиниться с одного ип не будут ли они блокироваться ?

    Будут 100% .Покупайте хорошие прокси,адекватный отпечаток+профиль с историей

  • @paini Парсинг происходит не на фейсе а на другом сайте - ссылка выше. Информация на сайте появляеться только при авторизации при помощи фейсбука. Можно про мультиаккаутинг подробнее ?

  • @MRM1987 said in Парсинг с авторизацией:

    Нужна помощь в настройке парсинга с авторизацией. Настроил по инструкциях и видео парсер сайта https://www.przedszkola.edu.pl/.
    Для сбора нужной мне информации нужно залогиниться на сайте с помощью профиля фейсбук. До этого имел дело только с датакол но в нем как раз мне не удалось настроить авторизацию по фейсбук. Проблема в том что после сбора с нескольких страниц BAS снова логиниться через фейсбук, после н-ой попытки фейсбук блокирует акакунт.

    Можно как то сделать один раз авторизацию, и после этого только парсинг ? страниц парсинга около 10 000 шт.
    Мокно как то вручную уменьшить скорость парсинга ?
    Если прикуплю левых акаунтов фейсбук для авторизации, как сделать поочередную авторизацию по каждому из них ? Если логиниться с одного ип не будут ли они блокироваться ?
    Спасибо!

    Я бы в первую очередь попробовал сон между переходами на новую страницу, хотя бы пару сек.
    Использовал профиль с отпечатком.

    В вашем случае не скорость важна, а живучесть для выполнения необходимой работы.

  • Спасибо, про отпечатки только вчера узнал. Скорость не важна, хоть неделю.

  • @paini попробую

  • @paini ФБ только на регу злой, авторизация там куда проще идет.

  • На даном этапе моих знаний недостаточно потому все таки прошу о помощи, так как не програмист но люблю учится - хотя тяжело временем доходит. С фейсбуком кажысь больше проблем нет. Прикрепил проэкт, две проблемы:

    1. Время от времени возникает ошыбка загрузки страницы, такого типа
      [611378366] [22:09:55] Поток №1 : Can't resolve query //div[@class='leaflet-popup-content']/div[@class='map__popup']/div[@class='map__popup-header']/div[@class='map__popup-title']
      После этого критическая ошыбка и остановка парсинга. Читал о игнорировании ошибок но ничего у мене не работает
    2. Вторая проблема, даже после ошибки и остановки парсинга часть даных собираеться. Но после повторного запуска те же даные собираються снова. Читал о функции "Удалить Текущий Элемент", но нечего не вышло.
      Если у кого то будет 5 минут - прошу посмотреть и хотя б ткнуть что делаю не правильно.
      СпасибоPrzedszkola_edu_pl_робочий.xml
  • @Dodok В таком случае,можно подумать о покупке аккаунтов.Сейчас уже не занимаюсь ФБ,но неск месяцев назад,жили акки спокойно на одном покупном прокси,по 2-4 шт.Акков было порядка 70 и все живы.Как сейчас там дела обстоят,не могу сказать...

  • @MRM1987 said in Парсинг с авторизацией:

    [611378366] [22:09:55] Поток №1 : Can't resolve query //div[@class='leaflet-popup-content']/div[@class='map__popup']/div[@class='map__popup-header']/div[@class='map__popup-title']

    Это означает,что вы не правильно делаете xpath запрос,проверьте точность

  • @MRM1987 said in Парсинг с авторизацией:

    Читал о функции "Удалить Текущий Элемент", но нечего не вышло.

    А делали в этой же функции галочку"удалить из базы мгновенно"?

  • @paini Так дело в том что парсит например 200 ссылок и все ок. Потом в одном месте стопорится и все. Я не думаю что на конкретной странице верстка другая и xpath другой.

  • @MRM1987 у меня была такая же проблема,но дело было в качестве прокси

  • Сделай проверку данных,например игнорь ошибку,а после проверяй актуальность данных и если они присутствуют,то продолжай,если нет,то просто удаляй ....

  • Не думаю что проблема в прокси. На сайте кажеться вообще никакой защиты кроме авторизации по фейсбук. Датакол собрал ссылки в несколько потоков без прокси и все ок.

  • @MRM1987 У тебя в первом действии получить текст не снята галка
    9f57d377-927d-4a6b-bd30-d84085f1e36f-image.png

  • И так же я не вижу ни одного действия,которое удаляло бы строки данных.Ни в исходном файле ни из загружаемого списка.

  • @paini said in Парсинг с авторизацией:

    @MRM1987 У тебя в первом действии получить текст не снята галка
    9f57d377-927d-4a6b-bd30-d84085f1e36f-image.png

    Поэтому и возникает твоя первая ошибка

  • @paini Спасибо большое ! Сейчас запущу тест.

  • @paini Галочки убрал где нужно. Появились ошибки таймаута по загрузке старниц- поставил игнор ошибок. Работает пока не вылазит такая ошибка Таймаут во время выполнения lenght for[documentRoot all .map] - сталкивались с таким ?

  • @paini Поищу сохраненные файлы, перероблял скрипт много раз - ничего не получалось.

  • 0 Votes
    16 Posts
    274 Views
  • 0 Votes
    9 Posts
    1187 Views
  • 0 Votes
    6 Posts
    1519 Views
  • 0 Votes
    7 Posts
    1124 Views
  • 0 Votes
    12 Posts
    3320 Views