Парсер информации с одного профиля в многопоточном режиме (вопрос)



  • Доброго времени суток всем. Никак не могу решить вопрос по поводу парсинга с одного аккаунта всех юзеров. Если парсить на одном потоке 100 млн, то уйдёт очень много времени.

    Вот конец запроса на скролинг
    limit=10&offset=10
    limit=10&offset=20
    limit=10&offset=30
    и т.д.

    Как спарсить всех подписчиков на чтобы потоки не пересекались? Иначе будет неимоверно много дублей.

    Буду благодарен за любую помощь.
    P.S. Схожие темы не удалось найти... Смотрел стрим 5-и часовой который. Там схожая ситуация, но так и не была решена.



  • @lisialoss said in Парсер информации с одного профиля в многопоточном режиме (вопрос):

    Доброго времени суток всем. Никак не могу решить вопрос по поводу парсинга с одного аккаунта всех юзеров. Если парсить на одном потоке 100 млн, то уйдёт очень много времени.

    Вот конец запроса на скролинг
    limit=10&offset=10
    limit=10&offset=20
    limit=10&offset=30
    и т.д.

    Как спарсить всех подписчиков на чтобы потоки не пересекались? Иначе будет неимоверно много дублей.

    Буду благодарен за любую помощь.
    P.S. Схожие темы не удалось найти... Смотрел стрим 5-и часовой который. Там схожая ситуация, но так и не была решена.

    разбейте заранее все ссылки и поместите в ресурс, а затем запускайте функцию в многопотоке с использованием этого ресурса



  • @Fox это получится 10 млн+ ссылок. А как можно быстро это сделать? Может есть какие-то специализированные софты? Ексель столько строк не сделает.



  • @lisialoss said in Парсер информации с одного профиля в многопоточном режиме (вопрос):

    @Fox это получится 10 млн+ ссылок. А как можно быстро это сделать? Может есть какие-то специализированные софты? Ексель столько строк не сделает.

    Используйте BAS и результат записывайте в базу



  • @Fox Только что попробовал, долго в один поток. В этом случае тоже нужен многопоток. И получается, что вопрос тот же, что и в начале.



  • @lisialoss said in Парсер информации с одного профиля в многопоточном режиме (вопрос):

    @Fox Только что попробовал, долго в один поток. В этом случае тоже нужен многопоток. И получается, что вопрос тот же, что и в начале.

    Долго составлять список ссылок? Ну разделите и его на многопоток, создайте ресурс по сотням и используйте его в многопотоке в циклах для генерации ссылок.. но что то это всё очень похоже на какой то огород..



  • @Fox Хорошо. Буду пробовать, думал есть решение без списка ссылок. В любом случае Спасибо за отклик.



  • @lisialoss said in Парсер информации с одного профиля в многопоточном режиме (вопрос):

    @Fox Хорошо. Буду пробовать, думал есть решение без списка ссылок. В любом случае Спасибо за отклик.

    есть решение и без списка ссылок, например в цикле сразу создавать асинхронные потоки с определённым промежутком ссылок. А результат скидывать в ресурс


Log in to reply