“智能语音”扫盲小科普

2019年5月5日 297次阅读来源: 易晓春

好久没有更新，是因为最近在工作上负责的产品有一些调整，让我接触到了“语音”这个带有一些技术色彩的领域。揭开这个行业神秘的盖头，走近看看发现还是很有意思的。整理下最近对语音产品技术层面的粗浅理解，估计我的票圈里不乏产品和算法大神，欢迎批评指正。

从听到说经历了哪些步骤

Siri是大家比较熟知的一款语音助手，很多人也会经常调戏它。从用户说话开始，到Siri的语音反馈，其实是经历了很多步骤的，参考下图。

《“智能语音”扫盲小科普》

第一步叫做语音识别，就是将麦克风采集到的用户声音转化为文字的过程；

第二步叫自然语义理解，将用户说的话转化成机器能理解的话，例如把转化成文字后的两句话“给张三打电话”和“打电话给张三”理解成同样的操作；

第三步叫自然语言生成，与自然语义理解相反，是将机器的语言转化人的语言，这个阶段的输出是文字；

最后一个阶段是语音合成，将文字合成声音并播放出来，并尽可能的模仿人类自然说话的语音语调，给人以交谈的感觉。

虽然只是普通的一句对话，但却经历了种种步骤，而且每个步骤其实都是一个庞大的领域。

语音识别（ASR）

语音识别简称ASR（Automatic Speech Recognition），如上文所说，主要工作是将声音信息转化为文字。

应用ASR技术的常见产品包括语音输入法、语音录音工具等，帮助用户快速将语音信息记录为文本。前不久，搜狗CEO王小川在极客公园奇点峰会上的演讲实现了语音实时听写的效果，川总讲的话即刻显示在了屏幕上。可以预料，速记员的大批失业在所难免。

ASR的技术原理，首先麦克风负责收集用户声音，软件将音频进行处理，包括VAD、分帧、mfcc特征提取。特征提取之后，结合大量数据训练出的声学模型和描述语句文字出现概率的语言模型，通过语音解码和搜索算法最终将音频输出为文字。贴一张网上找的流程图供参考。

《“智能语音”扫盲小科普》

一直以来，语音识别采用的算法技术以GMM-HMM（Gaussian Mixture Model – Hidden Markov Model）为主。2012年， DNN-HMM（Deep Neural Network- Hidden Markov Model）混合模型在语音识别声学建模方面取得突破性的成果，一般地，比传统的GMM-HMM模型有30%左右的相对提升，这是语音识别领域近几十年以来最大的一个突破。

随着识别率的逐渐提升，ASR在各个前沿方向都有了开拓性的进展，例如中文领域的的方言识别，长句和段落的连续识别和抗噪和远场语音识别能力。值得一提的是远场语音，远场语音技术的难度主要在于远距离声音的噪声过滤和人声定位，它的解决方式是通过硬件配置麦克风阵列，采集多个方向不同声道的音频信息，从而进行有效信息和噪音的判断，以提升长距离下语音识别的准确度。今年互联网女神的报告中大力宣传Amazon的语音音响echo，在远场语音方面表现不凡，配个视频大家随意感受一下。

[独家中文字幕]Introducing Amazon Echo—在线播放—优酷网，视频高清在线观看http://v.youku.com/v_show/id_XODIxNjI1NjIw.html

自然语言处理（NLP）

自然语言处理简称NLP（Natural Language Processing），狭义上讲包括自然语义理解（NLU，Natural Language Understanding）和自然语言生成（NLG，Natural Language Generation）两个方面，前者是指将人类语言转化为标注的机器语言，后者则是指将机器语言转化为人类语言。在庞大复杂的汉语体系里，NLP帮助产品正确理解人们想要表达的意思，并给出合理的反馈。NLP是语音产品的关键，也是主要难点。

智能问答和开放式对话是NLP的常见应用领域，前段时间火爆一时而又被微信封杀的微软小冰，就是NLP技术典型的产品体现，可以说NLP可以塑造出一个虚拟的人，这个人有他的知识和性格，让你可以和它自然的交流起来。

NLP涉及的技术领域众多，包括中文分词、词性标注、句法分析、知识管理、情感认知等等。根据不同的需求，NLU的输出的语义表示分不同种类，包括分布式、框架式和模型式等，目前框架式及其衍生的结构应用较为广泛。以框架式语义表示在智能音箱中的应用来举例，框架式会将语义区分为多种领域（听歌/新闻/百科/购物/…），当用户问到“喜马拉雅山多高”时，NLU将会判断为百科领域，并输出标准化的语义表示和参数，系统通过搜索获取答案，生成语音后反馈给用户。这种语义表示方法适用于这类在不同领域有不同操作的产品当中。

语音合成（TTS）

语音合成（TTS，Text To Speech），是指将文字转化为声音。开车的朋友经常能听到郭德纲或者林志玲的导航提示，这就是TTS技术的典型应用。

往往这类明星语音合成的功能，需要走录音，标注，建模，优化这几个步骤。首先是根据准备好的基本语库，让声优在录音棚里完成录音，随后针对录音进行语音语调的标注，这些信息共同作为TTS模型的训练集信息，实现初步的TTS模型训练，随后根据效果进行补录，优化模型。

也贴一张基于HMM训练的波形拼接合成方案图，了解一下基本的系统架构。

《“智能语音”扫盲小科普》

最后

ASR、NLP和TTS是语音最常用的技术领域，但仍只是语音大行业的一个部分。语音就如同冰山一般，人们看到的只是一小部分，水下才是它的真容。

入坑之前，我觉得语音是一个技术驱动的行业，高识别率和高准确率推动业务的发展。入坑之后，我发现其实在目前这个阶段，业务也是语音行业的主要驱动力。现在的物联网、智能家居、VR/AR、智能汽车，越来越多的产业，越来越多的场景，都对语音行业的各个方面提出了更深层次的需求，各类语音产品也层出不穷，促进整个行业发展。

和我交接的同事说，语音交互是未来。想一想还是很期待的，好好搬砖吧先。

《“智能语音”扫盲小科普》

    原文作者：易晓春
    原文地址: https://zhuanlan.zhihu.com/p/22002914
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。