Парсинг с авторизацией



  • Добрый день!
    Нужна помощь в настройке парсинга с авторизацией. Настроил по инструкциях и видео парсер сайта https://www.przedszkola.edu.pl/.
    Для сбора нужной мне информации нужно залогиниться на сайте с помощью профиля фейсбук. До этого имел дело только с датакол но в нем как раз мне не удалось настроить авторизацию по фейсбук. Проблема в том что после сбора с нескольких страниц BAS снова логиниться через фейсбук, после н-ой попытки фейсбук блокирует акакунт.

    1. Можно как то сделать один раз авторизацию, и после этого только парсинг ? страниц парсинга около 10 000 шт.
    2. Мокно как то вручную уменьшить скорость парсинга ?
    3. Если прикуплю левых акаунтов фейсбук для авторизации, как сделать поочередную авторизацию по каждому из них ? Если логиниться с одного ип не будут ли они блокироваться ?
      Спасибо!


  • Так все правильно.Любой сайт будет блокировать парсинг,уж тем более фэйс.Тут только мультиаккаунтинг,ну или ограничение скорости парсинга.



  • @MRM1987 said in Парсинг с авторизацией:

    Мокно как то вручную уменьшить скорость парсинга ?

    Ну разумеется,на это есть функция "спать"



  • @MRM1987 said in Парсинг с авторизацией:

    Если прикуплю левых акаунтов фейсбук для авторизации, как сделать поочередную авторизацию по каждому из них ? Если логиниться с одного ип не будут ли они блокироваться ?

    Будут 100% .Покупайте хорошие прокси,адекватный отпечаток+профиль с историей



  • @paini Парсинг происходит не на фейсе а на другом сайте - ссылка выше. Информация на сайте появляеться только при авторизации при помощи фейсбука. Можно про мультиаккаутинг подробнее ?



  • @MRM1987 said in Парсинг с авторизацией:

    Нужна помощь в настройке парсинга с авторизацией. Настроил по инструкциях и видео парсер сайта https://www.przedszkola.edu.pl/.
    Для сбора нужной мне информации нужно залогиниться на сайте с помощью профиля фейсбук. До этого имел дело только с датакол но в нем как раз мне не удалось настроить авторизацию по фейсбук. Проблема в том что после сбора с нескольких страниц BAS снова логиниться через фейсбук, после н-ой попытки фейсбук блокирует акакунт.

    Можно как то сделать один раз авторизацию, и после этого только парсинг ? страниц парсинга около 10 000 шт.
    Мокно как то вручную уменьшить скорость парсинга ?
    Если прикуплю левых акаунтов фейсбук для авторизации, как сделать поочередную авторизацию по каждому из них ? Если логиниться с одного ип не будут ли они блокироваться ?
    Спасибо!

    Я бы в первую очередь попробовал сон между переходами на новую страницу, хотя бы пару сек.
    Использовал профиль с отпечатком.

    В вашем случае не скорость важна, а живучесть для выполнения необходимой работы.



  • Спасибо, про отпечатки только вчера узнал. Скорость не важна, хоть неделю.



  • @paini попробую



  • @paini ФБ только на регу злой, авторизация там куда проще идет.



  • На даном этапе моих знаний недостаточно потому все таки прошу о помощи, так как не програмист но люблю учится - хотя тяжело временем доходит. С фейсбуком кажысь больше проблем нет. Прикрепил проэкт, две проблемы:

    1. Время от времени возникает ошыбка загрузки страницы, такого типа
      [611378366] [22:09:55] Поток №1 : Can't resolve query //div[@class='leaflet-popup-content']/div[@class='map__popup']/div[@class='map__popup-header']/div[@class='map__popup-title']
      После этого критическая ошыбка и остановка парсинга. Читал о игнорировании ошибок но ничего у мене не работает
    2. Вторая проблема, даже после ошибки и остановки парсинга часть даных собираеться. Но после повторного запуска те же даные собираються снова. Читал о функции "Удалить Текущий Элемент", но нечего не вышло.
      Если у кого то будет 5 минут - прошу посмотреть и хотя б ткнуть что делаю не правильно.
      СпасибоPrzedszkola_edu_pl_робочий.xml


  • @Dodok В таком случае,можно подумать о покупке аккаунтов.Сейчас уже не занимаюсь ФБ,но неск месяцев назад,жили акки спокойно на одном покупном прокси,по 2-4 шт.Акков было порядка 70 и все живы.Как сейчас там дела обстоят,не могу сказать...



  • @MRM1987 said in Парсинг с авторизацией:

    [611378366] [22:09:55] Поток №1 : Can't resolve query //div[@class='leaflet-popup-content']/div[@class='map__popup']/div[@class='map__popup-header']/div[@class='map__popup-title']

    Это означает,что вы не правильно делаете xpath запрос,проверьте точность



  • @MRM1987 said in Парсинг с авторизацией:

    Читал о функции "Удалить Текущий Элемент", но нечего не вышло.

    А делали в этой же функции галочку"удалить из базы мгновенно"?



  • @paini Так дело в том что парсит например 200 ссылок и все ок. Потом в одном месте стопорится и все. Я не думаю что на конкретной странице верстка другая и xpath другой.



  • @MRM1987 у меня была такая же проблема,но дело было в качестве прокси



  • Сделай проверку данных,например игнорь ошибку,а после проверяй актуальность данных и если они присутствуют,то продолжай,если нет,то просто удаляй ....



  • Не думаю что проблема в прокси. На сайте кажеться вообще никакой защиты кроме авторизации по фейсбук. Датакол собрал ссылки в несколько потоков без прокси и все ок.



  • @MRM1987 У тебя в первом действии получить текст не снята галка
    9f57d377-927d-4a6b-bd30-d84085f1e36f-image.png



  • И так же я не вижу ни одного действия,которое удаляло бы строки данных.Ни в исходном файле ни из загружаемого списка.



  • @paini said in Парсинг с авторизацией:

    @MRM1987 У тебя в первом действии получить текст не снята галка
    9f57d377-927d-4a6b-bd30-d84085f1e36f-image.png

    Поэтому и возникает твоя первая ошибка


Log in to reply
 

  • 4
  • 5
  • 11
  • 2
  • 19
  • 3
  • 4
  • 4