声音编码解码基本原理

人类的语音信号处理过程依次如下:

  1. 人嘴说话
  2. 声电转换
  3. 抽样(模数转换)
  4. 量化(将数字信号用适当的数值表示)
  5. 编码(数据压缩)
  6. 传输(网络或者其他方式)
  7. 解码(数据还原)
  8. 反抽样(数模转换)
  9. 电声转换
  10. 人耳听声

不同物种动物的听觉频率范围有哪些?

  • 蝙蝠:1000~120000Hz
    
  • 海豚:2000~100000Hz
    
  •  猫:60~65000Hz
    
  •  狗:40~50000Hz
    
  •  人:20~20000Hz
    

脉冲编码调制是什么?

  • 未经过数据压缩,直接量化进行传输则被称为PCM(脉冲编码调制)。

如何计算PCM音频流的码率?

  • 采样率值 × 采样大小值 × 声道数 bps = 码率
  • 例如: 一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。
    也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。
    这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M

MP3是什么 ?

  • MPEG-1 or MPEG-2 Audio Layer III 一种数字音频编码和有损压缩格式,它被设计来大幅降低音频数据量.

MP3原理是什么?

  • 它舍弃脉冲编码调制(PCM)音频数据中,对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了压缩成小得多的文件大小。

AAC 又是什么?

  • 高级音频编码(英语:Advanced Audio Coding,AAC),出现于1997年,基于MPEG-2的音频编码技术。

比特率是什么?

  • 单位时间内的数据传输率时通常使用码流或码率,单位是kbps(千位每秒)。

低比特率的注意事项?

  • 使用过低的比特率,“压缩噪声(compression artifact)”(原始录音中没有的声音)将会在回放时出现。

采样率是什么?

  • 也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
    实际中,人发出的声音信号为模拟信号,想要在实际中处理必须为数字信号,即采用抽样、量化、编码的处理方案。处理的第一步为抽样,即模数转换。
    简单地说就是通过波形采样的方法记录1秒钟长度的声音,需要多少个数据。
    根据奈魁斯特(NYQUIST)采样定理,用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形。
    所以,对于声音信号而言,要想对离散信号进行还原,必须将抽样频率定为40KHz以上。
    实际中,一般定为44.1KHz。44.1KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。

MP3比特率参考值有哪些?

* 32 kbit/s—MW(AM)质量
* 96 kbit/s—FM质量
* 128 - 160 kbit/s –相当好的质量,有时有明显差别
* 192 kbit/s—优良质量,偶尔有差别
* 224 - 320 kbit/s—高质量
* 800 bit/s –能够分辨的语音所需最低码率(需使用专用的FS-1015 语音编解码器)
* 8 kbit/s—电话质量(使用语音编码)
* 32-500 kbit/s -- Ogg Vorbis中使用的有损音频模式
* 500 kbit/s–1 Mbit/s—无损音频,格式为FLAC,ALAC,WavPack或Monkey's Audio
* 1411.2 kbit/s—脉冲编码调制(PCM)声音格式为光盘(CD)的数字音频
* 5644.8 kbit/s—SACD使用的Direct Stream Digital格式

采样率参考值有哪些?

* 8,000 Hz - 电话所用采样率,对于人的说话已经足够
* 11,025 Hz
* 22,050 Hz - 无线电广播所用采样率
* 32,000 Hz - miniDV数码视频camcorder、DAT(LP mode)所用采样率
* 44,100 Hz - 音频CD,也常用于MPEG-1音频(VCD, SVCD, MP3)所用采样率
* 47,250 Hz - Nippon Columbia(Denon)开发的世界上第一个商用PCM录音机所用采样率
* 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
* 50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
* 50,400 Hz - 三菱X-80数字录音机所用所用采样率
* 96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc(蓝光盘)音轨、和HD-DVD(高清晰度DVD)音轨所用所用采样率
* 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。

H5 audio 标签中 各浏览器对音频格式支持情况

+---------------------+-----+-----+-----+-----+
| Browser             | Ogg | MP3 | AAC | Wav |
+---------------------+-----+-----+-----+-----+
| Internet Explorer 9 | No  | Yes | Yes | No  |
| Firefox 5           | Yes | No  | No  | Yes |
| Chrome 12           | Yes | Yes | Yes | Yes |
| Safari 5            | No  | Yes | Yes | Yes |
| Opera 11.5          | Yes | No  | No  | Yes |
+---------------------+-----+-----+-----+-----+

关于延时

IP网中话音分组的端到端时延,150ms以下的时延,对于大多数应用来说是可接受的;150~400ms之间的时延,在用户预知时延状况的前提下可以接受;大于400ms的时延不可接受。

关于丢包率

丢包对VoIP语音质量的影响较大,当丢包率大于10%时,已不能接受,而在丢包率为5%时,基本可以接受。因此,要求IP承载网的丢包率小于5%。

数据参考 google 维基百科wiki

    原文作者:清醒的cola
    原文地址: https://www.jianshu.com/p/04162c14c934
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞