Как организовать быстрый парсинг страниц на содержание текста?



  • Есть 200 страниц html, я сделал открытие каждой страницы по очереди и проверку с помощью >MATCH> совпадений с определенным текстом. Проблема в том что это очень медленно.
    Можно ли в БАСЕ как-то сделать чтобы он БЫСТРО парсил код каждой страницы на совпадение с моим текстом?



  • @Ilgiz многопоточность



  • @Ilgiz
    Используйте http-клиент. Get запрос на страницу и далее indexOf к коду страницы



  • @tet-vivi многопоточность я сделал, но там тоже сильно не ускоряется из-за открытия страниц в каждом потоке. Нужно чтобы в каждом потоке все быстро делалось.



  • @GameBot А можно поподробнее? Как использовать http клиент, как сделать этот Get запрос и что такое indexOf?



  • @Ilgiz действие get-запрос значение - нужный URL. Чтобы получить код страницы - действие Содержание ответа.
    Проблемы могут быть, если содержимое страницы генерируется через js.

    Про indexOf можно в яндексе поискать или тут на форуме



  • @GameBot Спасибо, нашел! Попробую.



  • Все сделал, но возникли проблемы. Скрипт нужен чтобы искать на какой странице Etsy находится товар.
    С помощью Get запроса я получаю код страницы, ищу там товар IndexOf.

    В итоге находит на какой-то странице товар, открывает эту страницу в БАСе как обычно браузером, и в 50% товар там, а в 50% нет (при этом если через браузер найти страницу с товаром, то в этом случае уже Get запрос ее на той странице не находит).

    В чем может быть проблема и как ее решить?

    Или может быть можно как-то с помощью get запроса кликнуть по товару, не заходя через браузер на эту страницу?


Log in to reply
 

  • 1
  • 16
  • 12
  • 22
  • 8
  • 6
  • 2
  • 2