模拟信号是连续变化的,包含无限多的振幅值,而数字系统只能处理离散的、有限的数值 在音频处理中,必须将「连续的模拟信号」转换为「离散的数字信号」,以便计算机能够存储、处理和传输。
量化 (Quantization) 的过程是将模拟信号的电压值,按照一定的级别映射到最接近的离散值。
比特深度
量化的精度由 “位数” (Bit Depth) 决定
比特深度越大,数字化音频中振幅的变化越细微(即更能体现原始信号的微小变化),但与此同时,文件大小也会随之增加。
- 更多的比特意味着需要更多的存储空间。如果要通过互联网传输音频数据,也需要更高的带宽来支持更大的比特深度。
- 常见的位数有 16 位(CD 音质)、24 位(电影音效)等。

信噪比
量化操作会引入噪声。
SNR / Signal to Noise Ratio,指正确信号率与噪声功率之间的比率。它是衡量信号质量的一个重要指标,单位是分贝 。
- 分贝是一个无量纲单位,用于描述两个现象(如功率)之间的「相对大小」。
- 贝尔 (Bel) 为基础单位,分贝 (Decibel) 即 “十分之一贝尔”。

SNR 取决于为信号选择的比特深度,和音频内容无关。
- 比特深度越高,表示的振幅级别越多,量化误差越小,信号质量越好,SNR 越高。
- 使用相同比特深度编码的信号,SNR 会保持一致。
常用的 SNR 计算公式为:
- 例如,使用 16 位比特深度,SNR 为
- 在 16 位的数字音频中,理想情况下的信噪比可达 98 dB,但受限于电子器件,通常为约 89 dB。
89dB 是否足够提供高质量的音频?
- 人们所认为的 “高质量” 音频取决于人耳的敏感度。
- 人耳的频率范围大约是 ,对 的声音最为敏感。
动态范围
Dynamic Range,指的是在特定比特深度下,音频信号中可表示的「最大与最小振幅之间」的比率。简单来说,它反映了音频中「最响亮和最安静」部分之间的差异。
动态范围和 SNR 实际上是「同一个指标的不同测试方法」。
- 人耳的动态范围大约为 。大致的痛觉阈值为 。长时间暴露在超过 的声音中会造成听力损伤。
- 正常对话音量在 左右。典型教室的背景噪声在 之间。
- 低频主要为元音和低音 (Vowel and Bass),高频主要为辅音 (Consonant)。