Парсинг страницы с условием
-
Здравствуйте!
Стоит такая задача:
Есть список ссылок в тхт
Нужно зайти на каждую
Проверить в коде наличие конкретного текста
Если есть - скачать хтмл в папку
Если нет - пропускОчень пригодились бы подсказки сообщества в плане какие блоки в этой последовательности использовать.
Опыта у меня в BAS совсем мало, сейчас активно изучаю мануалы. Бюджета нет, а сделать надо. Поэтому буду рад любой помощи. Заранее благодарю. -
Каким кубиком можно очистить текст в переменной от лишних символов? Этим текстом потом будет называться итоговый файл в папке, чтобы конфликтов не было.
Чиститься будет регуляркой - [^a-zA-Zа-яА-Я0-9_ ]Делаю так:
- Xpath получить текст - тут я забираю такой фрагмент кода //h1[@class='text-dark text-center text-sm-left overflow-hidden']
- Потом его надо чем-то обработать и сохранить в другую переменную, уже "чистовую", которая будет в имени файла.
Вопрос - чем обработать? Видать поплыл уже, не могу найти инструмент.
-
@spam Дай бог здоровья, помогло! Увы, как новорег, не могу репутации накинуть за помощь.
Возник вопрос по каптче. Так как у меня бомж-версия проекта, то каптчу я буду пока решать вручную внутри BASa.
Как сделать так, чтобы при возникновении каптчи скрипт вставал на паузу и ждал, пока я ее решу? А когда решу, то ехал дальше по сюжету.Сейчас выглядит так:

-
@spam said in Парсинг страницы с условием:
проверяй наличие селектора капчи по url или xpath элемента и если есть выкидывай действие
Спасибо, изучу
@spam said in Парсинг страницы с условием:
Но проще через сервис. стоит копейки
Да у меня база на 50к ссылок. На сайте прикручен клауд, посчитал, надо 5 тыр потратить, а я чет совсем не готов
Скажи, пожалуйста, а что это может быть? Блоки с таймаутами убрал, всё равно вылазит. Не пойму, куда смотреть

-
Как в кубиках должно выглядеть решение recaptcha v2?
Я так понимаю, надо ставить проверку наличия капчи на странице через if при каждой загрузке страницы, так? Если есть, то решить, если нет, то пропустить.Или может быть сразу поставить найти блок и решить капчу, и дополнить кубиком игнор ошибок, чтобы было проще?
Сейчас выглядит так:

-
Как победить эту ситуацию?
В сапорте rucaptcha отправили в сапорт BAS.Суть в том, что наборы картинок решаются слишком долго. Например, решило с лестницами, выезжает следующий набор со светофорами и идет большая пауза перед решением. И так решает 3-4 набора, потом заканчивается время и вылазит ошибка, как на скрине.

-
@spam прокси от proxy6, ipv4. Прокси норм, пару дней назад даже перелопатил 1к ссылок без капчи. А в среднем где-то 300-400 без капчи.
Отпечатки не использую.
Сейчас выглядит так:
Сейчас смотрю лог после ночной работы скрипта, куча ошибок с капчей. При этом в панели пишет, что решено 349 наборов, но ни одна капча не пройдена полностью на сайте.
Ошибки такие, идут в рандомном порядке:
Произошла ошибка : Captcha not visible
Произошла ошибка : CAPTCHA_FAIL : ERROR_NO_SLOT_AVAILABLE
Произошла ошибка : CAPTCHA_FAIL : ERROR_ZERO_CAPTCHA_FILESIZE
Произошла ошибка : Recaptcha 2 wait timeout
Произошла ошибка : Не удалось дождаться загрузки recaptcha/*/payload





