语音识别 – 使用CMU的sphinx4转录非数字数据

我最近正致力于使用CMU的sphinx4进行转录并最终强制对齐,即将音频与其转录本对齐.

我发现了一个名为AutoCap的项目基本上是我想要开发的.所以,我安装了它,但它没有用.我试过调整它,但我获得的是不正确的时间戳.

所以,我想过使用sphinx4并自己试一试.我使用Sphinx的Transcriber.jar文件成功转录了一个wav文件.
但我无法使用非数字数据的音频. readme页面说明
‘想要转录非数字数据的人应该修改config.xml文件,以使用正确的语法,语言模型和语言学家来做到这一点’.

那么,任何人都可以为我提供一些帮助:

> AutoCap
>使用Sphinx4转录非数字数据
>强制对齐

谢谢.

最佳答案 有一个专门用于语音到文本对齐的特定项目.这不是一项微不足道的任务.开发进入一个单独的sphinx4分支.你可以在这里找到一些细节

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

如果您对此项目有任何疑问,欢迎您在sphinx4论坛上提问

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

点赞