@Fox Охх.. Все равно спасибо за помощь
Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много)
-
Здравствуйте!
Подскажите пожалуйста, с помощью какого инструмента можно проверить вхождение 5-10 фраз на страницах (их очень много, больше 10.000 штук).
Цель - найти сайты, где есть форма обратной связи.
Нужно чтобы поиск срабатывал на вхождение таких фраз, как:
ОСТАВИТЬ ЗАЯВКУ
ЗАКАЗАТЬ ЗВОНОК
ЗАКАЗАТЬ ОБРАТНЫЙ ЗВОНОК
ОБСУДИТЬ ПРОЕКТ
и т.п.
Можно ли это сделать с минимальной нагрузкой на процессор? Т.к. если сначала прогружать целиком страницу, то там будет огромное количество кода, картинок, и т.п. возможно это можно сделать как-то проще? Заранее спасибо за любую подсказку и рекомендацию) -
Логика:
- ищем формы на странице(долго)
- внутри формы или около нее ищем ключевые слова(быстро)
Реализация:
- браузером получаем страницу
- берем ее сгенереный код и передаем в скрипт
document.getElementsByTagName('html')[0].innerHTML- скриптом(любым) уже ищем формы и все такое. Можно искать с помощью регулярный выражений, это будет быстро, но не надёжно. Надежно все таки разбирать dom, это надёжно, но не быстро.
https://lxml.de/performance.html
Есть специализированные инструменты - https://en.a-parser.com/. Я пользовался когда-то, работал у меня отменно. Потом забил и стал писать все скреперы сам.
-
@sergerdn said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
Надежно все таки разбирать dom, это надёжно, но не быстро.
Можно сделать быстро. Нужно подключать метод документ эвуалате с циклом, у меня страницу перебирает за 0.3 сек, если она большая типо ютуб или пикабу с 50к постами, то 0.6 сек.
Для сравнения басовское действие получить только страницу в переменную занимает секунды 4 на большом сайте.Возможно это надо для пф. Мне кто-то говорил если оставлять такие заявки растет траст к профилю, как-то хотел сделать поиск таких форм, а потом вспомнил что я не кручу ПФ и мне это не надо :D
В любом случае задача автора, это заказ на фрилансе и то не каждый с ней справится.
-
@FastSpace said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
это заказ на фрилансе и то не каждый с ней справится.
Задача в реализации простая с наличием хоть какого-то опыта в парсинге сайтов.
-
@sergerdn said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
@FastSpace said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
это заказ на фрилансе и то не каждый с ней справится.
Задача в реализации простая с наличием хоть какого-то опыта в парсинге сайтов.
Задача у автора не сделать ЛИЖБЫ работало. А сделать чтобы работало еще с минимальной нагрузкой на процессор и наверно скорость тоже. Моё решение кокраз такое.