ASR语音识别学习总结

1、理解:将语音转化成文字的过程,相当于人的耳朵

2、语音识别的过程:输入->编码->解码->输出

3、语音识别大体大体可以分成两种方式,即“传统”方式和“端到端”方式。两种方式的区别主要在于声学模型的不同,“传统”方式使用的声学模型是HMM(隐马尔可夫),“端到端”方式采用的声学模型为DNN(深度神经网络)。

4、远场语音识别相关的概念

a、语音激活检测(VAD)

场景:对于近场语音识别(比如手机语音输入时,手按下按钮开始输入,松开时结束输入),通常信噪比(SNR)比较高,这种情况下的识别度能够达到一个较高的水平;但是远场语音识别的场景时,往往信噪比(SNR)会比较低,就必须使用语音激活检测(VAD)

作用:判断什么时候有声音什么时候没有声音

b、语音唤醒(VT)

场景:近场语音识别时,往往是按住按钮进行语音输入。但是对于远场语音识别,往往在语音激活检测(VAD)到有声音之后,需要一个唤醒语言进行语音唤醒(VT),就好像一个人的名字一样,当叫这个人的名字时,才能引起人群中这个人的注意,然后做出相应的反应

其他:

①长度一般3个音节以上

②低功耗要求

③唤醒时间要短,目前只有亚马逊的echo做到了在1.5S内唤醒,其他的设备一般需要3S的时间才能唤醒

④要尽可能的减少误报和漏报(误报是没有叫它时进行了唤醒,漏报是叫它时没有唤醒)。误报和漏报一般和唤醒次有关,唤醒词过长,能够有效减少误报,但是漏报的概率会上升;唤醒词过短,漏报的概率会减少,但是误报的概率会上升

c、麦克风阵列(MA)

能干什么:①声音增强 ②声源定位 ③去混响(声音在室内传播时,回声会和直达声混合,叫做混响)④声源提取和分离

目前存在的问题:①距离太远的情况下,处理算法还有提升的控价 ②对于移动场景,一方面麦克风的数量不能太多,另一方面体积也不能太大 ③对于声源比较复杂的环境,麦克风阵列技术还有很大的提升空间

d、全双工

e、纠错相关

语音纠错包括用户主动纠错和机器自动纠错。

自动纠错可以根据数据来源分为3中:①本地为主 ②本地+云端 ③云端为主

5、当前技术的边界

目前各公司在自己的宣传中声称语音识别率达97%甚至98%,但是这个识别率一般是在安静的环境、语速较慢,语言标准等的情况下统计出来的。进入实际场景,可能还做得不够好。

    原文作者:做梦的小鱼
    原文地址: https://www.jianshu.com/p/52b168044e5e
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞