ASR语音识别学习总结

2023年7月11日 350次阅读来源: 做梦的小鱼

1、理解：将语音转化成文字的过程，相当于人的耳朵

2、语音识别的过程：输入->编码->解码->输出

3、语音识别大体大体可以分成两种方式，即“传统”方式和“端到端”方式。两种方式的区别主要在于声学模型的不同，“传统”方式使用的声学模型是HMM（隐马尔可夫），“端到端”方式采用的声学模型为DNN（深度神经网络）。

4、远场语音识别相关的概念

a、语音激活检测（VAD）

场景：对于近场语音识别（比如手机语音输入时，手按下按钮开始输入，松开时结束输入），通常信噪比（SNR）比较高，这种情况下的识别度能够达到一个较高的水平；但是远场语音识别的场景时，往往信噪比（SNR）会比较低，就必须使用语音激活检测（VAD）

作用：判断什么时候有声音什么时候没有声音

b、语音唤醒（VT）

场景：近场语音识别时，往往是按住按钮进行语音输入。但是对于远场语音识别，往往在语音激活检测（VAD）到有声音之后，需要一个唤醒语言进行语音唤醒（VT），就好像一个人的名字一样，当叫这个人的名字时，才能引起人群中这个人的注意，然后做出相应的反应

其他：

①长度一般3个音节以上

②低功耗要求

③唤醒时间要短，目前只有亚马逊的echo做到了在1.5S内唤醒，其他的设备一般需要3S的时间才能唤醒

④要尽可能的减少误报和漏报（误报是没有叫它时进行了唤醒，漏报是叫它时没有唤醒）。误报和漏报一般和唤醒次有关，唤醒词过长，能够有效减少误报，但是漏报的概率会上升；唤醒词过短，漏报的概率会减少，但是误报的概率会上升

c、麦克风阵列（MA）

能干什么：①声音增强 ②声源定位 ③去混响（声音在室内传播时，回声会和直达声混合，叫做混响）④声源提取和分离

目前存在的问题：①距离太远的情况下，处理算法还有提升的控价 ②对于移动场景，一方面麦克风的数量不能太多，另一方面体积也不能太大 ③对于声源比较复杂的环境，麦克风阵列技术还有很大的提升空间

d、全双工

e、纠错相关

语音纠错包括用户主动纠错和机器自动纠错。

自动纠错可以根据数据来源分为3中：①本地为主 ②本地+云端 ③云端为主

5、当前技术的边界

目前各公司在自己的宣传中声称语音识别率达97%甚至98%，但是这个识别率一般是在安静的环境、语速较慢，语言标准等的情况下统计出来的。进入实际场景，可能还做得不够好。

    原文作者：做梦的小鱼
    原文地址: https://www.jianshu.com/p/52b168044e5e
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。