语音处理
字数: 0

语音建模

Speech Modeling

元音

Vowel, produced without significant constriction of the airflow in the vocal tract

短元音

  • fit, English, mystery
  • push, hood, could
  • red, breath, many
  • cut, come, enough
  • hat
  • lost, watch, Australia

长元音

  • sheet, leaf, niece
  • few, mood, two
  • first, burn, worst
  • fall, paw, sort
  • dare, hair, bear
  • far, dance*, palm

双元音

Diphthong
  • zero, clear, beer
  • cure, poor
  • face, main, day
  • home, grow, load
  • coin, joy
  • sound, town
  • find, pie, cry

鼻音

Nasal, made by blocking air in the mouth and releasing sound through the nose
  • same
  • next
  • working, think

摩擦音

Fricative, the sounds are voiceless
  • far
  • save, of
  • think
  • those
  • sir, race
  • zoo, rise
  • sharp, chef, pressure, sugar, motion
  • beige, Asia, pleasure
  • ahead

爆破音

Plosive, are pronounced with vibration in the vocal cords and often aspirated
  • purse
  • bell
  • talk, stopped
  • done, played
  • kite, cone, queen, chronic, excited
  • gone, exhaust

共振峰

Formant
🗣
当系统被「外部激励」以与其「固有频率」相「匹配」时,系统的振幅会「增大」,这个频率就称为「共振频率 (Resonant Frequency)
随着声源在由声道 (Vocal Tract) 和鼻腔形成的管道中传播,声音的频谱受到管的形状、大小等影响,从而决定元音的特征。
声道的共振频率称为共振峰频率,简称为共振峰。它通常以较暗的水平带状(表示较高的能量)出现在频谱图中。
  • 每个元音都有其特定的共振峰分布,通常关注前两个共振峰,称为 F1 和 F2。
  • F1 与口腔开口的大小有关,口腔开得越大,F1 频率越高。
    • 例如,发 “see” 中 /i/ 的音时,舌头靠前且口腔狭窄,使得 F1 低而 F2 高。
  • F2 与舌头的位置(前后移动)有关,舌头越靠前,F2 频率越高。
    • 例如,发 “father” 中 /a/ 的音时,口腔开口较大且舌头靠后,使得 F1 高而 F2 低。
notion image
 
语音是从「声门下系统」(Sub-glottal System) 发出的声波,当空气从肺部排出时,气流被声道中的某个部分的收缩扰动,从而产生声波。

语音合成

Speech Synthesi

参数合成

Parametric Synthesis
1960 年代中期,首次进行「线性预测编码 (Linear Predictive Coding,LPC) 实验。这项技术可用于语音编码与压缩,将语音波形简化为少量的参数值,模拟人类发音系统的动态特性,减少了数据量。

发音合成

Articulatory Synthesis
通过物理模型尽可能模拟人类发声器官,因此理论上它是生成高质量语音的最佳方法。
  • 发音模型的数据通常来自对自然语音的 X 射线分析。
  • 发音参数包括嘴唇开口、嘴唇突出、舌尖高度、舌尖位置、以及软腭开口。激励参数可能包括声门开口、声带张力和肺部压力。说话时,声道的肌肉会引起这些发音器官移动并改变声道的形状,从而产生不同的声音。
这是最难实现的方法,原因是 X 射线数据通常是二维的,而非三维的,且舌头的运动非常复杂,很难建模。由于模型中有如此多的参数值,计算负荷相当高。因此,到目前为止,这种方法还没有其他方法成熟。

共振峰合成

Formant Synthesis
它基于语音的「源-滤波器 (Source-filter)」模型,或者称为「线性模型 」,是最广泛使用的语音合成方法,
共有两种基本结构:并行结构和串联结构,但为了更好的性能,通常会组合结构。
  • 共振峰合成可以生成无限数量的声音,这使它比基于拼接的方法更灵活。
  • 共振峰使用「IIR 谐振滤波器 (Resonator Filters)」建模,可以指定峰的频率及其带宽。
    • IIR (Infinite Impulse Response),无限脉冲响应,它的输出不仅依赖于当前输入,还依赖于过去的输入和输出,形成一个具有反馈的系统。
  • 需要至少三个共振峰才能生成可理解语音,最多需要五个共振峰生成高质量语音。
    • notion image

拼接合成

Concatenative Synthesis
  • 记录一个基础的语音声音库。
  • 在运行时检索适当的语音单元序列。
  • 拼接这些单元,并调整时长和音调以获得正确的语感。
  • 合成最终的语音波形。

双音素合成

Diphone Synthesis
合成器将单词流分解为双音素,然后在数据库中查找相应的双音素,将其拼接起。
  • 单音素通常用于替代单词的开头和结尾部分。
  • 例如,Paris 在英语中的发音是 [pærIs],其双音素序列为:#P, PA, AR, RI, IS, 和 S#。其中,#P 和 S# 分别代表单词的开头和结尾的音素。

隐马尔可夫模型合成

HMM(Hidden Markov Models) Synthesis
HMM 是一种统计模型,它假设系统是由一系列隐藏的状态和观测值组成的。每个状态对应于生成观测值的概率分布,并且状态之间的转换是基于马尔可夫过程的。
  • 它会根据大量的语音数据进行训练,学习语音的特征参数。这包括声学特征(如频谱、基频等)和模型参数(状态转移概率、观测概率等)
  • 它是早期 TTS 系统的重要技术之一。

TTS 系统

Text-to-Speech, TTS
Architecture of TTS systems
Architecture of TTS systems

规范化

Normalization

分词

Tokenization

词汇访问

Lexical access

形态分析

Morphological analysis

语法分析

Grammatical analysis

语音翻译

Phonetic translation
2023 - 2026