语音处理 | Rye Land

语音建模

Speech Modeling

元音

Vowel, produced without significant constriction of the airflow in the vocal tract

短元音

fit, English, mystery

push, hood, could

red, breath, many

cut, come, enough

lost, watch, Australia

长元音

sheet, leaf, niece

few, mood, two

first, burn, worst

fall, paw, sort

dare, hair, bear

far, dance*, palm

双元音

Diphthong

zero, clear, beer

cure, poor

face, main, day

home, grow, load

coin, joy

sound, town

find, pie, cry

鼻音

Nasal, made by blocking air in the mouth and releasing sound through the nose

same

working, think

摩擦音

Fricative, the sounds are voiceless

save, of

think

those

sir, race

zoo, rise

sharp, chef, pressure, sugar, motion

beige, Asia, pleasure

ahead

爆破音

Plosive, are pronounced with vibration in the vocal cords and often aspirated

purse

bell

talk, stopped

done, played

kite, cone, queen, chronic, excited

gone, exhaust

共振峰

Formant

🗣

当系统被「外部激励」以与其「固有频率」相「匹配」时，系统的振幅会「增大」，这个频率就称为「共振频率 」(Resonant Frequency) 。

随着声源在由声道 (Vocal Tract) 和鼻腔形成的管道中传播，声音的频谱受到管的形状、大小等影响，从而决定元音的特征。

声道的共振频率称为共振峰频率，简称为共振峰。它通常以较暗的水平带状（表示较高的能量）出现在频谱图中。

每个元音都有其特定的共振峰分布，通常关注前两个共振峰，称为 F1 和 F2。

F1 与口腔开口的大小有关，口腔开得越大，F1 频率越高。

例如，发 “see” 中 /i/ 的音时，舌头靠前且口腔狭窄，使得 F1 低而 F2 高。

F2 与舌头的位置（前后移动）有关，舌头越靠前，F2 频率越高。

例如，发 “father” 中 /a/ 的音时，口腔开口较大且舌头靠后，使得 F1 高而 F2 低。

语音是从「声门下系统」(Sub-glottal System) 发出的声波，当空气从肺部排出时，气流被声道中的某个部分的收缩扰动，从而产生声波。

语音合成

Speech Synthesi

参数合成

Parametric Synthesis

1960 年代中期，首次进行「线性预测编码」 (Linear Predictive Coding，LPC) 实验。这项技术可用于语音编码与压缩，将语音波形简化为少量的参数值，模拟人类发音系统的动态特性，减少了数据量。

发音合成

Articulatory Synthesis

通过物理模型尽可能模拟人类发声器官，因此理论上它是生成高质量语音的最佳方法。

发音模型的数据通常来自对自然语音的 X 射线分析。

发音参数包括嘴唇开口、嘴唇突出、舌尖高度、舌尖位置、以及软腭开口。激励参数可能包括声门开口、声带张力和肺部压力。说话时，声道的肌肉会引起这些发音器官移动并改变声道的形状，从而产生不同的声音。

这是最难实现的方法，原因是 X 射线数据通常是二维的，而非三维的，且舌头的运动非常复杂，很难建模。由于模型中有如此多的参数值，计算负荷相当高。因此，到目前为止，这种方法还没有其他方法成熟。

共振峰合成

Formant Synthesis

它基于语音的「源-滤波器 (Source-filter)」模型，或者称为「线性模型」，是最广泛使用的语音合成方法，

共有两种基本结构：并行结构和串联结构，但为了更好的性能，通常会组合结构。

共振峰合成可以生成无限数量的声音，这使它比基于拼接的方法更灵活。

共振峰使用「IIR 谐振滤波器 (Resonator Filters)」建模，可以指定峰的频率及其带宽。

IIR (Infinite Impulse Response)，无限脉冲响应，它的输出不仅依赖于当前输入，还依赖于过去的输入和输出，形成一个具有反馈的系统。

需要至少三个共振峰才能生成可理解语音，最多需要五个共振峰生成高质量语音。

拼接合成

Concatenative Synthesis

记录一个基础的语音声音库。

在运行时检索适当的语音单元序列。

拼接这些单元，并调整时长和音调以获得正确的语感。

合成最终的语音波形。

双音素合成

Diphone Synthesis

合成器将单词流分解为双音素，然后在数据库中查找相应的双音素，将其拼接起。

单音素通常用于替代单词的开头和结尾部分。

例如，Paris 在英语中的发音是 [pærIs]，其双音素序列为：#P, PA, AR, RI, IS, 和 S#。其中，#P 和 S# 分别代表单词的开头和结尾的音素。

隐马尔可夫模型合成

HMM(Hidden Markov Models) Synthesis

HMM 是一种统计模型，它假设系统是由一系列隐藏的状态和观测值组成的。每个状态对应于生成观测值的概率分布，并且状态之间的转换是基于马尔可夫过程的。

它会根据大量的语音数据进行训练，学习语音的特征参数。这包括声学特征（如频谱、基频等）和模型参数（状态转移概率、观测概率等）。

它是早期 TTS 系统的重要技术之一。

TTS 系统

Text-to-Speech, TTS

规范化

Normalization

分词

Tokenization

词汇访问

Lexical access

形态分析

Morphological analysis

语法分析

Grammatical analysis

语音翻译

Phonetic translation