语音建模
Speech Modeling
元音
Vowel, produced without significant constriction of the airflow in the vocal tract
短元音
- fit, English, mystery
- push, hood, could
- red, breath, many
- cut, come, enough
- hat
- lost, watch, Australia
长元音
- sheet, leaf, niece
- few, mood, two
- first, burn, worst
- fall, paw, sort
- dare, hair, bear
- far, dance*, palm
双元音
Diphthong
- zero, clear, beer
- cure, poor
- face, main, day
- home, grow, load
- coin, joy
- sound, town
- find, pie, cry
鼻音
Nasal, made by blocking air in the mouth and releasing sound through the nose
- same
- next
- working, think
摩擦音
Fricative, the sounds are voiceless
- far
- save, of
- think
- those
- sir, race
- zoo, rise
- sharp, chef, pressure, sugar, motion
- beige, Asia, pleasure
- ahead
爆破音
Plosive, are pronounced with vibration in the vocal cords and often aspirated
- purse
- bell
- talk, stopped
- done, played
- kite, cone, queen, chronic, excited
- gone, exhaust
共振峰
Formant
当系统被「外部激励」以与其「固有频率」相「匹配」时,系统的振幅会「增大」,这个频率就称为「共振频率 」(Resonant Frequency) 。
随着声源在由声道 (Vocal Tract) 和鼻腔形成的管道中传播,声音的频谱受到管的形状、大小等影响,从而决定元音的特征。
声道的共振频率称为共振峰频率,简称为共振峰。它通常以较暗的水平带状(表示较高的能量)出现在频谱图中。
- 每个元音都有其特定的共振峰分布,通常关注前两个共振峰,称为 F1 和 F2。
- F1 与口腔开口的大小有关,口腔开得越大,F1 频率越高。
- 例如,发 “see” 中 /i/ 的音时,舌头靠前且口腔狭窄,使得 F1 低而 F2 高。
- F2 与舌头的位置(前后移动)有关,舌头越靠前,F2 频率越高。
- 例如,发 “father” 中 /a/ 的音时,口腔开口较大且舌头靠后,使得 F1 高而 F2 低。

语音是从「声门下系统」(Sub-glottal System) 发出的声波,当空气从肺部排出时,气流被声道中的某个部分的收缩扰动,从而产生声波。
语音合成
Speech Synthesi
参数合成
Parametric Synthesis
1960 年代中期,首次进行「线性预测编码」 (Linear Predictive Coding,LPC) 实验。这项技术可用于语音编码与压缩,将语音波形简化为少量的参数值,模拟人类发音系统的动态特性,减少了数据量。
发音合成
Articulatory Synthesis
通过物理模型尽可能模拟人类发声器官,因此理论上它是生成高质量语音的最佳方法。
- 发音模型的数据通常来自对自然语音的 X 射线分析。
- 发音参数包括嘴唇开口、嘴唇突出、舌尖高度、舌尖位置、以及软腭开口。激励参数可能包括声门开口、声带张力和肺部压力。说话时,声道的肌肉会引起这些发音器官移动并改变声道的形状,从而产生不同的声音。
这是最难实现的方法,原因是 X 射线数据通常是二维的,而非三维的,且舌头的运动非常复杂,很难建模。由于模型中有如此多的参数值,计算负荷相当高。因此,到目前为止,这种方法还没有其他方法成熟。
共振峰合成
Formant Synthesis
它基于语音的「源-滤波器 (Source-filter)」模型,或者称为「线性模型 」,是最广泛使用的语音合成方法,
共有两种基本结构:并行结构和串联结构,但为了更好的性能,通常会组合结构。
- 共振峰合成可以生成无限数量的声音,这使它比基于拼接的方法更灵活。
- 共振峰使用「IIR 谐振滤波器 (Resonator Filters)」建模,可以指定峰的频率及其带宽。
- IIR (Infinite Impulse Response),无限脉冲响应,它的输出不仅依赖于当前输入,还依赖于过去的输入和输出,形成一个具有反馈的系统。
- 需要至少三个共振峰才能生成可理解语音,最多需要五个共振峰生成高质量语音。

拼接合成
Concatenative Synthesis
- 记录一个基础的语音声音库。
- 在运行时检索适当的语音单元序列。
- 拼接这些单元,并调整时长和音调以获得正确的语感。
- 合成最终的语音波形。
双音素合成
Diphone Synthesis
合成器将单词流分解为双音素,然后在数据库中查找相应的双音素,将其拼接起。
- 单音素通常用于替代单词的开头和结尾部分。
- 例如,Paris 在英语中的发音是 [pærIs],其双音素序列为:#P, PA, AR, RI, IS, 和 S#。其中,#P 和 S# 分别代表单词的开头和结尾的音素。
隐马尔可夫模型合成
HMM(Hidden Markov Models) Synthesis
HMM 是一种统计模型,它假设系统是由一系列隐藏的状态和观测值组成的。每个状态对应于生成观测值的概率分布,并且状态之间的转换是基于马尔可夫过程的。
- 它会根据大量的语音数据进行训练,学习语音的特征参数。这包括声学特征(如频谱、基频等)和模型参数(状态转移概率、观测概率等)。
- 它是早期 TTS 系统的重要技术之一。
