Текст из википедия
-
Здравствуйте, ребят, подскажите пожалуйста, как достать чистый текст из статьи Википедия?
Из Апи Викимедиа отдается текст с фигурными скобками и весь скопом. В NPM пакеты и библиотеки для парсинга только англ вики, как я понял, через RunKit библиотеки не работают. Через XPath- сложная и разная архитектура XML. Заранее благодарен. -
@Bonifazzziy Мельком глянув api википедии, нашёл несколько вариантов вывода. Самый удобный думаю будет в json.
-
Спасибо за Ваш ответ. Но дело в том что он отдает не чистый текс, а с разметкой Вики.
Вот запрос который отдает чистый текст, но это приложение, возможно Вы подскажете как им можно воспользоваться?
Расширение TextExtracts API делает то, о чем вы просите. Используйте prop=extracts, чтобы получить очищенный ответ. Например, эта ссылка даст вам очищенный текст для статьи о переполнении стека. Что также приятно, так это то, что он по-прежнему содержит теги секций, поэтому вы можете идентифицировать отдельные разделы статьи.
Чтобы включить видимую ссылку в мой ответ, приведенная выше ссылка выглядит следующим образом:
/api.php?format=xml&action=query&prop=extracts&titles=Stack%20Overflow&redirects=true
Изменить: Как упоминал Амр, TextExtracts является расширением для MediaWiki, поэтому он не обязательно будет доступен для каждого сайта MediaWiki.
Спасибо.