@spam Спасибо, изучу. И по отпечаткам тоже займусь
Отпечатки могут как-то влиять на скорость решения капчи? Или только на факт её появления?
Здравствуйте всем!
уважаемые профи подскажите ПЖЛ куда копать, чтобы сделать парсер контента. То есть вытащить статьи из сайтов. Сайты конечно же всегда с разным хтмл кодом. Как пример по аналогии с x-parser light или a-parser.
Парсить один конкретный отдельный сайт не вызывает трудностей - xpath прекрасно с этим справляется - а вот разные сайты не могу понять как - везде же разный код.
Вариант "Получить текст xPath" с помощью такого выражения //body - это не вариант, берется весь текст сайта . Может как то можно подключить библиотеку javaScript, ту же jQuery и с помощью нее можно парсить контент с разных сайтов, где заранее не известен хтмл код?
Вообщем можно ли?
Готового решения конечно не жду - но возможно кто подскажет алгоритм или в каком направлении копать хоть?
Заранее СПС всем
@garat Без обид конечно, но звучит как то:
Подскажите ПЖЛ куда копать чтобы сделать капиталку движка автомобилей. Двигатели везде разные с разными деталями.. Но мне бы универсальный разводной ключ и молоток :D
Если сайтов несколько, даже если их много, можно парсить каждый по отдельности и совмещать подходы, со временем вырабатывая оптимальный, универсальный инструмент.
Как пример по аналогии с x-parser light или a-parser.
Вот это уже интересно. x-parser парсит статьи по ключевым словам. То есть можно получить код всей страницы и по ключевым словам выдёргивать текст между тегами.
Думаю вполне реально сделать на BAS аналог. Но придётся по возится..
@romanbiz said in Парсинг конента:
@garat Видели эту разработку? https://mercury.postlight.com/web-parser/
ага - интересно - тестирую