我最近正致力于使用CMU的sphinx4进行转录并最终强制对齐,即将音频与其转录本对齐.
我发现了一个名为AutoCap的项目基本上是我想要开发的.所以,我安装了它,但它没有用.我试过调整它,但我获得的是不正确的时间戳.
所以,我想过使用sphinx4并自己试一试.我使用Sphinx的Transcriber.jar文件成功转录了一个wav文件.
但我无法使用非数字数据的音频. readme页面说明
‘想要转录非数字数据的人应该修改config.xml文件,以使用正确的语法,语言模型和语言学家来做到这一点’.
那么,任何人都可以为我提供一些帮助:
> AutoCap
>使用Sphinx4转录非数字数据
>强制对齐
谢谢.
最佳答案 有一个专门用于语音到文本对齐的特定项目.这不是一项微不足道的任务.开发进入一个单独的sphinx4分支.你可以在这里找到一些细节
http://cmusphinx.sourceforge.net/?s=long+audio+alignment
如果您对此项目有任何疑问,欢迎您在sphinx4论坛上提问
http://sourceforge.net/projects/cmusphinx/forums/forum/382337