@Ivan Без танцев с бубном нет. Это апи поддерживает только ввод с микрофона. Лучше попробовать какой-то движок для десктопа или апи, который принимает файлы.
Чтобы потестить, я скачал несколько аудио файлов с второй рекапчи, скачал pocketsphinx и ffmpeg. Конвертировал mp3 в wav
ffmpeg -i audio.mp3 -acodec pcm_s16le -ac 1 -ar 16000 out.wav
Взял простенькую грамматику
#JSGF V1.0;
grammar digits;
<digit> = oh |
zero |
one |
two |
three |
four |
five |
six |
seven |
eight |
nine ;
public <digits> = <digit>+;
И запустил определение с такими параметрами
pocketsphinx_continuous -infile output.wav -hmm model\en-us\en-us -dict model\en-us\cmudict-en-us.dict -jsgf digits.gram > res.txt
В результате, в файле res.txt обычно оказывалась половина правильных цифр, так что потенциал есть.
Ну и БАС можно все это использовать через Запустить Процесс.