@kompik said in Парсинг аккаунтов:
url:login:password
поддомен получается не нужен? только url:login:password?
Здравствуйте всем!
уважаемые профи подскажите ПЖЛ куда копать, чтобы сделать парсер контента. То есть вытащить статьи из сайтов. Сайты конечно же всегда с разным хтмл кодом. Как пример по аналогии с x-parser light или a-parser.
Парсить один конкретный отдельный сайт не вызывает трудностей - xpath прекрасно с этим справляется - а вот разные сайты не могу понять как - везде же разный код.
Вариант "Получить текст xPath" с помощью такого выражения //body - это не вариант, берется весь текст сайта . Может как то можно подключить библиотеку javaScript, ту же jQuery и с помощью нее можно парсить контент с разных сайтов, где заранее не известен хтмл код?
Вообщем можно ли?
Готового решения конечно не жду - но возможно кто подскажет алгоритм или в каком направлении копать хоть?
Заранее СПС всем
@garat Без обид конечно, но звучит как то:
Подскажите ПЖЛ куда копать чтобы сделать капиталку движка автомобилей. Двигатели везде разные с разными деталями.. Но мне бы универсальный разводной ключ и молоток :D
Если сайтов несколько, даже если их много, можно парсить каждый по отдельности и совмещать подходы, со временем вырабатывая оптимальный, универсальный инструмент.
Как пример по аналогии с x-parser light или a-parser.
Вот это уже интересно. x-parser парсит статьи по ключевым словам. То есть можно получить код всей страницы и по ключевым словам выдёргивать текст между тегами.
Думаю вполне реально сделать на BAS аналог. Но придётся по возится..
@romanbiz said in Парсинг конента:
@garat Видели эту разработку? https://mercury.postlight.com/web-parser/
ага - интересно - тестирую