语音识别 – 正确配置Pocketsphinx

我一直在运行Debian Squeeze的VM上安装Pocketsphinx0.7.这工作正常,我可以尝试识别文件中的语音.为此,我已经构建了一些
python脚本,它们识别我得到的一堆文件,然后估计单词错误率.这些使用如
this tutorial中所述的gstreamer.

到目前为止,我使用的是pocketphinx tarball中的原始hmm,这是一本字典,其中只包含我的测试数据中的单词和我从教授那里得到的优化语言模型.这应该工作,因为它也在生产系统中运行.我现在的问题是识别性能仍然很糟糕.我的单词错误(WER)率约为85%.

我想知道的是如何改善WER.我可以采取什么样的步骤?

发生的另一件事可能会影响性能,pocketphinx告诉我它没有访问嗯的权限,虽然我让hmm可以读取,写入和执行每个人.

有没有人知道这可能来自哪里?
我很感激任何帮助.如果您需要更多信息,请告诉我.

编辑:

我创建了一个小型测试集并运行了pocketsphinx. This is where you can find the files and the results.我被允许给予
你从原始测试集中的一些例子.你can find it here
这是最糟糕的例子. 1-2个单词的简短发言效果很好.
对不起我到目前为止无法创建一个大的测试集,我的时间非常有限.

最佳答案

What I want to know is how I can improve the WER. What kind of steps can I take?

Pocketsphinx常见问题解答中描述了此问题:

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

第一步是收集测试样本数据库

如果您需要帮助来提高准确性,则需要共享该数据库和您要查找的结果以及实际结果.您可以在这里或Sourceforge论坛上分享.您需要将所有文件打包到存档和某处上传.然后你可以给这里一个链接.

有关更多信息,请参阅

http://cmusphinx.sourceforge.net/wiki/communicate

点赞