Парсинг конента



  • Здравствуйте всем!

    уважаемые профи подскажите ПЖЛ куда копать, чтобы сделать парсер контента. То есть вытащить статьи из сайтов. Сайты конечно же всегда с разным хтмл кодом. Как пример по аналогии с x-parser light или a-parser.
    Парсить один конкретный отдельный сайт не вызывает трудностей - xpath прекрасно с этим справляется - а вот разные сайты не могу понять как - везде же разный код.

    Вариант "Получить текст xPath" с помощью такого выражения //body - это не вариант, берется весь текст сайта . Может как то можно подключить библиотеку javaScript, ту же jQuery и с помощью нее можно парсить контент с разных сайтов, где заранее не известен хтмл код?

    Вообщем можно ли?

    1. Можно ли вообще такое сделать на БАС? или нужно будет кодить усилено?
    2. Подключить какую нибудь библиотеку джава скрипт для парсинга контента? Возможно какие универсально есть селекторы в этой библиотеках для такого парсера
    3. Возможно регулярками можно вытянуть текст статьи - но я в них не силен и кодировка сайтов везде разная.

    Готового решения конечно не жду - но возможно кто подскажет алгоритм или в каком направлении копать хоть?
    Заранее СПС всем



  • @garat Без обид конечно, но звучит как то:
    Подскажите ПЖЛ куда копать чтобы сделать капиталку движка автомобилей. Двигатели везде разные с разными деталями.. Но мне бы универсальный разводной ключ и молоток :D

    Если сайтов несколько, даже если их много, можно парсить каждый по отдельности и совмещать подходы, со временем вырабатывая оптимальный, универсальный инструмент.

    Как пример по аналогии с x-parser light или a-parser.

    Вот это уже интересно. x-parser парсит статьи по ключевым словам. То есть можно получить код всей страницы и по ключевым словам выдёргивать текст между тегами.

    Думаю вполне реально сделать на BAS аналог. Но придётся по возится..



  • RSS ленты еще рассмотрите, возможно они имеются у всех сайтов которые вам нужны, тогда все может стать проще



  • СПС всем



  • @garat Видели эту разработку? https://mercury.postlight.com/web-parser/



  • @romanbiz said in Парсинг конента:

    @garat Видели эту разработку? https://mercury.postlight.com/web-parser/

    ага - интересно - тестирую


  • Banned

    Почти у всех сайтов есть одинаковые коды, такие как НАЗВАНИЕ к примеру. Ну дальше вы поняли наверно да ?


Log in to reply