当前位置:
文档之家› 20100622_语音基础知识
20100622_语音基础知识
0.413938
20ms窗长
• 宽带谱:时间窗较短,对应的频谱带宽宽, 更能体现与声道谐振对应的共振峰特征
8000
0 0 Time (s)
0.4139Hale Waihona Puke 85ms窗长8000
语音产生的声源滤波理论
30
语音产生过程的信号表示
对应语音产生的生理过程,语音信号可以表示为 如下的声源滤波形式:
s(t ) g (t )* v(t )* r (t ) S ( ) G ( ) V ( ) R( )
语音基础知识
凌震华 zhling@ 2010-06-22
1
范围与面向
• 本课程包括
– 什么是语音 – 语音的产生与感知 – 语音流的组成 – 语音的信号表示与声源滤波理论 – 常用语音信号数字处理方法
• 本课程面向
– 以前没有或者较少接触语音学知识 – 有基本的信号处理知识
什么是语音
Fundamental frequency
– F0 = 1/ T0
• 声带开合振动的快慢决定了音调的高低 • 声带开合振动的幅度决定了音强的大小 • 声带开合振动的模式决定了语音的音质
• 音高与基频
– 音高(Pitch)
• 声音的高低,主观量 • 不仅与基频有关,还与音强与声音成分有关 • 1000Hz以上频率范围,音高单位(Mel)基本与对 数频率成正比
– 采样率fs:对应信号频谱的最高频率为fs/2 – 量化比特数:16bits量化—— -32768~32767
0.3669
0
-0.4229 0 Time (s)
0.413938
Qin2(16kHz,16bits)
语谱图
• 反映语音信号的频谱随时间变化的情况
– 横轴:时间 纵轴:频率 灰度/颜色:频谱强度
r ( p 1) r ( p 2) r ( 0)
E p E[e 2 (n)] min
r ( j ) E[s(n)s(n j )]
则有:
1 E p R p 1 A p 0
声道
• 发音(Articulation)器官 • 气流向上经过口腔或鼻腔后从嘴或鼻孔向 外辐射,期间的传输通道成为声道 • 气流通过声道犹如通过一个具有某种谐振 特征的腔体 • 通过对舌、软腭等发声器官位置的控制, 可以有效的改变声道的形状,形成不同的 谐振特征,从而达到不同发音的目的
口唇
• 将通过声道的气流向外辐射 • 嘴的张开形状会影响语音频谱的形状
– 发音时存在鼻腔和口腔的耦合,对于主要元音 的发音特征有较大影响
声母
• 21个 • 发音时器官的状态变化较大,动态特性很 强 • 依据阻挡的具体情况对声母进行分类
– 塞音:声道完全阻塞 /b/ /d/ /g/ /p/ /t/ /k/ – 擦音:声道阻碍的缝隙面积很小 /s/ /f/ /x/ – 通音:声道阻碍的缝隙面积大一些 /l/ – 鼻音:浊辅音 /m/ /n/
3) 自回归滑动平均模型(Autoregressive Moving Average Model, ARMA模型):H(z)含有极点和零点,是上述两种模型的混和结构, 响应产生的序列称为ARMA过程序列
数字滤波器示例
语音编码算法G.723.1中对输入语音信号进行去除直流分量的高通滤波器时 使用的数字滤波器的传输函数及其对应的幅度频率响应如下:
40 30 20 10
1
2 Frequency (Hz)
3
4
5
• 传输函数与声源谱相乘的结果
60 50
Amplit ude (dB)
40 30 20 10
1
2 Frequency (Hz)
3
4
5
• 描述共振峰的参数
– 中心频率 – 带宽
• 共振峰起到区分音素的作用,尤其是前三 各共振峰的频率,是区分不同元音的主要 声学特征
1 z 1 H ( z) 127 1 1 z 128
线性预测分析 (Linear Prediction Analysis)
语音信号产生模型
语音产生的源-滤波器模型: u(n)
s(n) H(z)
语音信号
声源信号 声道参数
在线性预测分析中,假设s(n)为一AR过程,即滤波器系统函数具有如下形式:
• 用F1 F2描述的元音空间图
• 发音时舌位与共振峰的关系
– F1与舌位高度成反比(与开口度成正比) /i/ /u/ vs. /a/ – F2与舌位前后成正比 /i/ vs. /u/ – F3与卷舌程度成反比
口唇辐射
• 口唇辐射的作用可以近似认为是对语音信 号频谱+6dB/倍频的增强作用
– 单韵母在单独发音时,发音器官的形状基本保 持不变
• 复韵母
– /ai/ /ei/ /au/ /ou/ /ia/ /ie/ /ua/ /uo/ /ve/ /er/ – /iao/ /iou/ /uai/ /uei/ – 在发音过程中存在频谱特征的动态变化
• 鼻韵母
– 以/n/ 或 /ng/ 结尾的韵母 – /an/ /ian/ /uan/ /van/ /en/ /in/ /un/ /vn/ – /ang/ /iang/ /uang/ /eng/ /ing/ /eng/ /ong/ /iong/
• 获得
– 对语音流按一定的帧移进行加窗截取 – 对截取得到的短时信号进行傅立叶变化
• 特点
– 反映浊音周期激励的周期性起伏 – 反映声道谐振特性的突起部分 傅立叶变换与信号频谱
• 窄带谱:时间窗较长,对应的频谱带宽窄,频率分辨 率高,更能体现与浊音激励对应的周期性
8000
0 0 Time (s)
– 圆唇音 vs. 展唇音
语音的感知
12
人类听觉系统
语音感知机理
• 语音感知的“前端”——耳
– 外耳
• 耳廓
– 声音收集,对6kHz附近频率有增强作用 – 辨别方向
• 耳道
– 约2cm长,增强对于3-4kHz频率范围的敏感度 – 很多元音的第二共振峰在此范围
– 中耳
• 鼓膜:将声波转换为振动 • 锤骨、砧骨、镫骨:振动传递与放大
声调
• 汉语普通话中有5种声调
– 阴平、阳平、上声、去 声、轻声
• 上声变调
– “555”
语音信号的表示方法
24
时域波形
• 数字语音信号时域波形的获得
– 语音经过话筒由声压信号转换为电信号 – 经A/D转换,进行离散采样和量化转换为数字 信号 – 该信号各采样点的幅度值构成语音的时域波形
• 数字语音信号的两个重要参数
H ( z)
G 1 a i z i
i 1 p
线性预测分析就是要从语音信号s(n)中估计H(z)中的滤波器系数ai和增益常数G
线性预测误差滤波
s(n) A(z)
p
e(n)
A( z ) 1 ai z
i 1
i
e( n ) s ( n ) ~ s ( n) s ( n) a i s ( n i )
i 1 l 1 p
q
信号模型
u(n)
H(z)
s(n)
被模型化信号s(n)为模型输入u(n)通过数字滤波器的输出,则有:
S ( z ) H ( z ) U ( z )
输入输出信号满足以下差分方程:
s(n) ai s (n i ) G bl u (n l ) (b0 1)
– 基频(Fundamental Frequency)
• 声带振动频率,物理量 • 计算方法:自相关法、谐波求和法、倒谱法等 • 基频不同于音高
– 通过降低声音能量而不是基频,也可以产生中文中的上声
• 声门波形状决定了语音的音质 Voice Quality 特征
声道滤波
• 声道是一个复杂的滤波器,通过其滤波作 用对声源信号的频谱进行了重塑
• 实际上圆唇/展唇的不同对于最终语音信号 的共振峰特征也会发生影响
60 50
Amplit ude (dB)
40 30 20 10
+6 dB/octave
1
2 Frequency (Hz)
3
4
5
60 50
Amplit ude (dB)
40 30 20 10
1
2 Frequency (Hz)
3
4
5
i 1
p
可以在均方误差E[e2(n)]最小准则下求解滤波器系数
预测系数的求解
定义:
a1 a 2 Ap ... a p
r (1) ... r ( 0) r (1) r (0) ... Rp ... r ( p 1) r ( p 2) ...
3
语音
• 语音
– 人类发音器官发出的声音 – 是声音的一种 – 包括说话、歌唱等形式
• 语音产生于几百万年前 • 但人类能听到的历史不过128年,(1877年: 爱迪生发明留声机) • 计算机、声卡=>语音的计算机处理技术
语音链
5
语音产生的生理过程
6
器官
主要由三部分组成:
1.喉
2.声道 3.口唇
元音与辅音
• 元音:发音过程中,声道不形成阻挡 • 辅音:发音过程中,声道里形成某种阻挡
• 元音通常(但不是一定)是浊音
韵母
• 汉语普通话中,每个音节都必须有韵母 • 韵母共有38个
– 8个单韵母 – 14个复韵母 – 16个鼻韵母
• 单韵母
– /a/ /i/ /u/ /v/ /ii/ /iii/ /e/ /o/
i 1 l 0
p
q
三种信号模型