Парсинг страницы с условием

Поддержка
  • Здравствуйте!

    Стоит такая задача:
    Есть список ссылок в тхт
    Нужно зайти на каждую
    Проверить в коде наличие конкретного текста
    Если есть - скачать хтмл в папку
    Если нет - пропуск

    Очень пригодились бы подсказки сообщества в плане какие блоки в этой последовательности использовать.
    Опыта у меня в BAS совсем мало, сейчас активно изучаю мануалы. Бюджета нет, а сделать надо. Поэтому буду рад любой помощи. Заранее благодарю.

  • @Den-0 начните с этой темы: https://community.bablosoft.com/topic/949/часто-задаваемые-вопросы

    также поможет прочтение справки к модулям и действиям:
    a2dc4c36-8605-4117-bd3b-606150870788-image.png

  • @spam спасибо, изучу

  • Каким кубиком можно очистить текст в переменной от лишних символов? Этим текстом потом будет называться итоговый файл в папке, чтобы конфликтов не было.
    Чиститься будет регуляркой - [^a-zA-Zа-яА-Я0-9_ ]

    Делаю так:

    1. Xpath получить текст - тут я забираю такой фрагмент кода //h1[@class='text-dark text-center text-sm-left overflow-hidden']
    2. Потом его надо чем-то обработать и сохранить в другую переменную, уже "чистовую", которая будет в имени файла.

    Вопрос - чем обработать? Видать поплыл уже, не могу найти инструмент.

  • @Den-0 f3033a92-2da4-4e33-89a5-b085bf4a4e9e-image.png

    Либо JS.

  • @spam Подскажите, пожалуйста, нашел как регуляркой чистить, результат норм. Но не пойму, что надо указывать в поле "Заменить на". А с пустым полем ошибка в скрипте.

    image.png

  • @spam Дай бог здоровья, помогло! Увы, как новорег, не могу репутации накинуть за помощь.

    Возник вопрос по каптче. Так как у меня бомж-версия проекта, то каптчу я буду пока решать вручную внутри BASa.
    Как сделать так, чтобы при возникновении каптчи скрипт вставал на паузу и ждал, пока я ее решу? А когда решу, то ехал дальше по сюжету.

    Сейчас выглядит так:

    image.png

  • Я так понимаю, что нужна какая-то проверка на этапе загрузке страницы?
    Нет каптчи - едем дальше
    Есть каптча - пауза с таймаутом для решения

    Как это лучше сделать? И проще.

  • @Den-0 проверяй наличие селектора капчи по url или xpath элемента и если есть выкидывай действие:
    cb429061-6f32-4642-8d6e-7a53ca8f04ce-image.png

    Но проще через сервис. стоит копейки

  • @spam said in Парсинг страницы с условием:

    проверяй наличие селектора капчи по url или xpath элемента и если есть выкидывай действие

    Спасибо, изучу

    @spam said in Парсинг страницы с условием:

    Но проще через сервис. стоит копейки

    Да у меня база на 50к ссылок. На сайте прикручен клауд, посчитал, надо 5 тыр потратить, а я чет совсем не готов

    Скажи, пожалуйста, а что это может быть? Блоки с таймаутами убрал, всё равно вылазит. Не пойму, куда смотреть
    b3dd40cf-8771-47ea-b37c-956e70a6e532-image.png

  • @Den-0 оберни блок загрузки страницы в обработку ошибок

    0e43ddb1-22f8-4ad5-85b3-f869b424c1de-image.png

  • Как в кубиках должно выглядеть решение recaptcha v2?
    Я так понимаю, надо ставить проверку наличия капчи на странице через if при каждой загрузке страницы, так? Если есть, то решить, если нет, то пропустить.

    Или может быть сразу поставить найти блок и решить капчу, и дополнить кубиком игнор ошибок, чтобы было проще?

    Сейчас выглядит так:

    7ed8cda1-8e10-45ad-a735-99af4408d0e9-image.png

  • Как победить эту ситуацию?
    В сапорте rucaptcha отправили в сапорт BAS.

    Суть в том, что наборы картинок решаются слишком долго. Например, решило с лестницами, выезжает следующий набор со светофорами и идет большая пауза перед решением. И так решает 3-4 набора, потом заканчивается время и вылазит ошибка, как на скрине.

    image.png

  • Какие отпечатки и прокси используешь ?

  • @spam прокси от proxy6, ipv4. Прокси норм, пару дней назад даже перелопатил 1к ссылок без капчи. А в среднем где-то 300-400 без капчи.

    Отпечатки не использую.
    Сейчас выглядит так:

    6a41d41a-5f6b-47d9-8f5a-fefc53f6eef7-image.png

    Сейчас смотрю лог после ночной работы скрипта, куча ошибок с капчей. При этом в панели пишет, что решено 349 наборов, но ни одна капча не пройдена полностью на сайте.

    Ошибки такие, идут в рандомном порядке:
    Произошла ошибка : Captcha not visible
    Произошла ошибка : CAPTCHA_FAIL : ERROR_NO_SLOT_AVAILABLE
    Произошла ошибка : CAPTCHA_FAIL : ERROR_ZERO_CAPTCHA_FILESIZE
    Произошла ошибка : Recaptcha 2 wait timeout
    Произошла ошибка : Не удалось дождаться загрузки recaptcha/*/payload

  • @Den-0 если один и тот же сайт долбишь без отпечатков, то не удивительно.
    По прокси написал в личку.

  • @spam Спасибо, изучу. И по отпечаткам тоже займусь

    Отпечатки могут как-то влиять на скорость решения капчи? Или только на факт её появления?

  • 0 Votes
    3 Posts
    478 Views
  • 0 Votes
    3 Posts
    493 Views
  • Парсинг JSON

    Moved Поддержка
    0 Votes
    2 Posts
    481 Views
  • 0 Votes
    2 Posts
    516 Views
  • 0 Votes
    3 Posts
    734 Views