@Symposium получаю вот так, $.items[*].id,conversion
Выходит вот это: d1d2ea53-21fe-405a-8155-243cb709d914-изображение.png
Не совсем понимаю как теперь через условие чекать все это дело, если парсится все по отдельной строке
Здравствуйте всем!
уважаемые профи подскажите ПЖЛ куда копать, чтобы сделать парсер контента. То есть вытащить статьи из сайтов. Сайты конечно же всегда с разным хтмл кодом. Как пример по аналогии с x-parser light или a-parser.
Парсить один конкретный отдельный сайт не вызывает трудностей - xpath прекрасно с этим справляется - а вот разные сайты не могу понять как - везде же разный код.
Вариант "Получить текст xPath" с помощью такого выражения //body - это не вариант, берется весь текст сайта . Может как то можно подключить библиотеку javaScript, ту же jQuery и с помощью нее можно парсить контент с разных сайтов, где заранее не известен хтмл код?
Вообщем можно ли?
Готового решения конечно не жду - но возможно кто подскажет алгоритм или в каком направлении копать хоть?
Заранее СПС всем
@garat Без обид конечно, но звучит как то:
Подскажите ПЖЛ куда копать чтобы сделать капиталку движка автомобилей. Двигатели везде разные с разными деталями.. Но мне бы универсальный разводной ключ и молоток :D
Если сайтов несколько, даже если их много, можно парсить каждый по отдельности и совмещать подходы, со временем вырабатывая оптимальный, универсальный инструмент.
Как пример по аналогии с x-parser light или a-parser.
Вот это уже интересно. x-parser парсит статьи по ключевым словам. То есть можно получить код всей страницы и по ключевым словам выдёргивать текст между тегами.
Думаю вполне реально сделать на BAS аналог. Но придётся по возится..
@romanbiz said in Парсинг конента:
@garat Видели эту разработку? https://mercury.postlight.com/web-parser/
ага - интересно - тестирую