Код страницы и его быстродействие

Поддержка
  • Привет, появилась потребность парсить сайт temu.com (китайский маркет-плейс), и т.к. наши братья китайцы прикрутили на сайт нормальную защиту для таких случаев, единственным способом остался веб браузер. Отключил все картинки и прочие ненужные всплывающие окна, суть в чем, страницу проматываю и нажимаю кнопку "показать больше товаров", подгружается HTML, который я сохраняю для своих нужд. Естественно, с каждой подгрузкой, его вес увеличивается, уже дошло до выполнения "Код страницы" около 5-8 минут, а это много. Может есть JS команды, которые внутри браузера более быстро вытянут мне HTML код страницы?

  • Юзайте через сниффер.

  • @gurkin4 это была самая первая реализация, на кнопке "показать больше товаров" при подгрузке создается secret_token из 120 символов, который собственно используется только 1 раз, и более не работает, сам запрос легко отслеживается, но вот повторное использование его практически невозможно, т.к. этот токен генерится из переменных, зашитых где-то на серверной части как я понял

  • @jprk1 вы можете попробовать удалять уже собранные части html
    Выполнить код на элементе self.remove()

  • @UserTrue спасибо, попробую

  • @jprk1 said in Код страницы и его быстродействие:

    ... единственным способом остался веб браузер.

    А чем еще пробовал, кроме браузера? Или там куча Javascript кода, который исполняется только в браузере и ничего, кроме браузера смысла не имеет?

  • @jprk1 код страницы не нужен, можешь парсинг вызвать прям в консоли браузера. Есть метод document_evaluate (написал по памяти как то так). Я большие страницы в несколько секунд парсил.

  • @FastSpace said in Код страницы и его быстродействие:

    @jprk1 код страницы не нужен

    Вероятно, ему так удобнее для дебага:

    1. Скачал страницу, сохранил
    2. Запустил скрипт, распарсил данные

    Я тоже так когда-то делал.

  • @sergerdn верно, распарс через сервер на питоне)

  • @sergerdn да, показать больше товаров как раз через js обрабатывается, обычные запросы видят только 1ую страницу, последующие через запрос можно получить через ключ, о котором писал в топике, который шифрованный.

  • 0 Votes
    2 Posts
    300 Views
  • Chatgpt и node

    Поддержка
    0 Votes
    3 Posts
    613 Views
  • 0 Votes
    2 Posts
    551 Views
  • hosts и proxy DNS

    Поддержка
    0 Votes
    18 Posts
    4769 Views
  • 0 Votes
    4 Posts
    1173 Views