Если фри, то выше кинули, если через сервисы, можно также "вдохновиться" моим скриптом решалки Яндекс капчи, там ровно такая же суть, но прикручено решение через антигейт (с ручными индусами), но можно так и любой сервис с индусами прикрутить. Решение на гуру не чекал, баланса небыло на аке)
как узнать адекватный лимит потоков для сайтов?
-
не уверен в какой раздел эту тему пихнуть, оставлю здесь, если чо перенесите куда надо
вопрос такой - через бас делаю всякое разное на разных сайтах, но обратил внимание что когда ставишь больше 5-6 потоков с сайтом начинается твориться что-то странное. Один просто переставал выдавать какие-то страницы с инфой через 10-20минут с начала работы, и продолжал работу только через 30-60минут отдыха. Другие сайты так же глючили, какие-то наворачивались через 3 дня работы в 15 потоков я так понимаю там админ кипиш наводил, ибо на самой странице ни капчи не было, ничего, соответственно "до меня" они не проверяли ничего и врядли стояли какие-то лимиты.
Сейчас методом экспериментов понял - ставишь 5-6 потоков макс и тогда нормально работает месяцами без проблем, стучит, вбивает, собирает инфу и т.д.
Недавно стал еще отключать загрузку картинок, чтобы меньше дрочить и сам сайт и своего провайдера и впн и комп и бас.
вопросы следующие:
Какие еще улучшения можно сделать чтобы максимально облегчить нагрузку на таргет-сайт чтоб он нормально себя чувствовал и не жаловался админу
Как-то можно вычислить\предположить сколько потоков будет реально нормально работать? Ну там например по количеству месячного траффика как-то прикинуть, а то вдруг можно и 100 потоков поставить, а я стесняюсь? Заинтересовался потому что сейчас надо прочекать 500к записей, а с моими 6 потоками на это уйдет 2 месяца
В планах перейти на работу через гет\пост запросы, так думаю намного лучше будет, но тут бы сначала нормально с UI баса разобраться полностью для начала как и что работает, перед тем как идти дальшеВобщем буду рад любым советам и мнениям
-
F Fox moved this topic from Запросы функционала on
-
нашел такой пост, буду пробовать оптимизировать все остальное
@mik888em Постарайтесь оптимизировать скрипт.
https://wiki.bablosoft.com/doku.php?id=ru:how_to_optimize_scriptну это в плане работы самой программы. а кто что скажет по поводу возможного количества потоков как прикинуть\рассчитать?
-
наконец-то перешел с временных профилей на постоянные(просто для скачки инфы там где не проверяют ничего) - есть разница, хотя бы в том что 70% файлов не загружаются каждый раз по-новой, а достаются из кеша профиля. сразу заметно КПД поднялся в разы, хотя для этого пришлось разобраться с настройками бас. вчера дошел до этих настроек, посмотрел и о**ел разница объема скачивания почти в 10 раз с отключенным и включенным кешем
осталось разобраться как попроще блочить ненужные скрипты и прочие картинки отсюда, буду пинать чат жпт посмотрим что он мне расскажет)

-
сюда же для записи добавлю
@Ajshma said in Выпущена 24.0.2 версия BrowserAutomationStudio:
@travkin на счет тормозов. Делюсь:
Основные методы оптимизации работы в многопотоке:- Отключение картинок
- Пауза между потоками от 5 секунд
- Производительность браузера 10
- Уменьшение масштаба браузера
- Очистка лога через каждые 1-3 секунды