Текст из википедия

Поддержка
  • Здравствуйте, ребят, подскажите пожалуйста, как достать чистый текст из статьи Википедия?
    Из Апи Викимедиа отдается текст с фигурными скобками и весь скопом. В NPM пакеты и библиотеки для парсинга только англ вики, как я понял, через RunKit библиотеки не работают. Через XPath- сложная и разная архитектура XML. Заранее благодарен.

  • @Bonifazzziy Мельком глянув api википедии, нашёл несколько вариантов вывода. Самый удобный думаю будет в json.

  • Спасибо за Ваш ответ. Но дело в том что он отдает не чистый текс, а с разметкой Вики.
    Вот запрос который отдает чистый текст, но это приложение, возможно Вы подскажете как им можно воспользоваться?


    Расширение TextExtracts API делает то, о чем вы просите. Используйте prop=extracts, чтобы получить очищенный ответ. Например, эта ссылка даст вам очищенный текст для статьи о переполнении стека. Что также приятно, так это то, что он по-прежнему содержит теги секций, поэтому вы можете идентифицировать отдельные разделы статьи.

    Чтобы включить видимую ссылку в мой ответ, приведенная выше ссылка выглядит следующим образом:

    /api.php?format=xml&action=query&prop=extracts&titles=Stack%20Overflow&redirects=true
    Изменить: Как упоминал Амр, TextExtracts является расширением для MediaWiki, поэтому он не обязательно будет доступен для каждого сайта MediaWiki.


    Спасибо.

  • 0 Votes
    7 Posts
    645 Views
  • 0 Votes
    2 Posts
    408 Views
  • 0 Votes
    6 Posts
    585 Views
  • 0 Votes
    21 Posts
    2506 Views
  • 0 Votes
    7 Posts
    940 Views