Проблема на всех проектах сервера.
Операционка Скриншот 02-11-2023 145612.jpg
Здравствуйте!
Подскажите пожалуйста, с помощью какого инструмента можно проверить вхождение 5-10 фраз на страницах (их очень много, больше 10.000 штук).
Цель - найти сайты, где есть форма обратной связи.
Нужно чтобы поиск срабатывал на вхождение таких фраз, как:
ОСТАВИТЬ ЗАЯВКУ
ЗАКАЗАТЬ ЗВОНОК
ЗАКАЗАТЬ ОБРАТНЫЙ ЗВОНОК
ОБСУДИТЬ ПРОЕКТ
и т.п.
Можно ли это сделать с минимальной нагрузкой на процессор? Т.к. если сначала прогружать целиком страницу, то там будет огромное количество кода, картинок, и т.п. возможно это можно сделать как-то проще? Заранее спасибо за любую подсказку и рекомендацию)
Логика:
Реализация:
document.getElementsByTagName('html')[0].innerHTML
https://lxml.de/performance.html
Есть специализированные инструменты - https://en.a-parser.com/. Я пользовался когда-то, работал у меня отменно. Потом забил и стал писать все скреперы сам.
@sergerdn said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
Надежно все таки разбирать dom, это надёжно, но не быстро.
Можно сделать быстро. Нужно подключать метод документ эвуалате с циклом, у меня страницу перебирает за 0.3 сек, если она большая типо ютуб или пикабу с 50к постами, то 0.6 сек.
Для сравнения басовское действие получить только страницу в переменную занимает секунды 4 на большом сайте.
Возможно это надо для пф. Мне кто-то говорил если оставлять такие заявки растет траст к профилю, как-то хотел сделать поиск таких форм, а потом вспомнил что я не кручу ПФ и мне это не надо :D
В любом случае задача автора, это заказ на фрилансе и то не каждый с ней справится.
@FastSpace said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
это заказ на фрилансе и то не каждый с ней справится.
Задача в реализации простая с наличием хоть какого-то опыта в парсинге сайтов.
@sergerdn said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
@FastSpace said in Как проверить вхождение фраз на странице (с минимальной нагрузкой на процессор, т.к. сайтов для проверки очень много):
это заказ на фрилансе и то не каждый с ней справится.
Задача в реализации простая с наличием хоть какого-то опыта в парсинге сайтов.
Задача у автора не сделать ЛИЖБЫ работало. А сделать чтобы работало еще с минимальной нагрузкой на процессор и наверно скорость тоже. Моё решение кокраз такое.