1、理解:将语音转化成文字的过程,相当于人的耳朵
2、语音识别的过程:输入->编码->解码->输出
3、语音识别大体大体可以分成两种方式,即“传统”方式和“端到端”方式。两种方式的区别主要在于声学模型的不同,“传统”方式使用的声学模型是HMM(隐马尔可夫),“端到端”方式采用的声学模型为DNN(深度神经网络)。
4、远场语音识别相关的概念
a、语音激活检测(VAD)
场景:对于近场语音识别(比如手机语音输入时,手按下按钮开始输入,松开时结束输入),通常信噪比(SNR)比较高,这种情况下的识别度能够达到一个较高的水平;但是远场语音识别的场景时,往往信噪比(SNR)会比较低,就必须使用语音激活检测(VAD)
作用:判断什么时候有声音什么时候没有声音
b、语音唤醒(VT)
场景:近场语音识别时,往往是按住按钮进行语音输入。但是对于远场语音识别,往往在语音激活检测(VAD)到有声音之后,需要一个唤醒语言进行语音唤醒(VT),就好像一个人的名字一样,当叫这个人的名字时,才能引起人群中这个人的注意,然后做出相应的反应
其他:
①长度一般3个音节以上
②低功耗要求
③唤醒时间要短,目前只有亚马逊的echo做到了在1.5S内唤醒,其他的设备一般需要3S的时间才能唤醒
④要尽可能的减少误报和漏报(误报是没有叫它时进行了唤醒,漏报是叫它时没有唤醒)。误报和漏报一般和唤醒次有关,唤醒词过长,能够有效减少误报,但是漏报的概率会上升;唤醒词过短,漏报的概率会减少,但是误报的概率会上升
c、麦克风阵列(MA)
能干什么:①声音增强 ②声源定位 ③去混响(声音在室内传播时,回声会和直达声混合,叫做混响)④声源提取和分离
目前存在的问题:①距离太远的情况下,处理算法还有提升的控价 ②对于移动场景,一方面麦克风的数量不能太多,另一方面体积也不能太大 ③对于声源比较复杂的环境,麦克风阵列技术还有很大的提升空间
d、全双工
e、纠错相关
语音纠错包括用户主动纠错和机器自动纠错。
自动纠错可以根据数据来源分为3中:①本地为主 ②本地+云端 ③云端为主
5、当前技术的边界
目前各公司在自己的宣传中声称语音识别率达97%甚至98%,但是这个识别率一般是在安静的环境、语速较慢,语言标准等的情况下统计出来的。进入实际场景,可能还做得不够好。