当前位置：文档之家› 唇形合成语音与唇形语音识别

唇形合成语音与唇形语音识别

用比较经典和成熟的算法，共振峰和带宽用基音同步协方差（co-variance）LPC提取,
基频用倒谱的方法提取。 • ②唇型信号参数：内外唇线、唇宽度、唇高度、唇突度等。唇线特征提取主要是对已经提取的矩形区域进行唇区域和非唇区域的分割，然后对唇区域用已有唇模型分别检测出唇边缘。（13个参数） • ③总结语音学唇位，根据每一个音的唇型变化(根据关键点运动轨迹描述唇线的变化),基于统计学上的归纳和分类,建立唇形数据库，从而得出唇位的类型。
国外的研究现状
最早的唇读系统是 1984 年由（伊利诺伊大学）UIUC大学patajan构建，系统中采用的方法是对每一个词对应一个特征矢量序列，识别时，将输入唇读序列图中得到特征矢量序列依存与词库中的每一个词模板进行相似度距离测度计算。将相似度最高的作为结果输出。由于它没有使用自动时间归正处理，因此方法有训练时的语速与识别时语速完全一致这一不可能的苛刻要。后来 Mase和Pentland采用了线性时间归正技术（LTW）改进了效果，Patajan也加入了动态时间归正算法（DTW）对原系统做了改进。加利福利亚大学 UCSC 的 Michael.M.Cohen 博士也是最早从事唇读模拟和研究的研究者之一，他所在的实验室 Perceptual Science Lab 完成了多项唇语模拟的项目，为聋哑人创造了良好的人机交互环境,一种虚拟语言模拟系统为聋哑儿童提供学习和交互的环境。MIT媒体实验室的学术带头人Pentland教授将光流技术引入唇读特征的提取工作。福罗里达中心大学计算机系的Glenn A.Martin也于 1992 年采用光流技术解决唇读问题，对光流序列进行了时间归正，提出了相关匹配算法。
口唇解剖图
基本知识
基本知识
•
下唇与上齿接近能产生唇齿音f、v。在元音发音中，圆唇的结果能发出圆唇元音。此外，舌尖元音加上圆唇的作用，能发出【ʮ】等圆唇舌尖元音。
•
•
元音：和唇形的关系，区别特征，圆唇和展唇，共振峰的关系
辅音：主要的发音部位之一。
国际音标表
唇读
唇读(lip-reading/speech-reading), 是指通过观察说话者的口型变化 ,“读出”或“部
研究内容
• • （3）对语音、唇型的参数提取和数据分析根据不同的信号库和研究目的，选择适当的参数，设计提取算法，进行数据分析建立统计模型，并进行相关理论领域的探讨。 • ①语音主要的参数有：时长、基频(F0)、辅音强频区、振幅、谱倾斜率、共振峰的音轨、辅音和元音之间共振锋的过度段、VOT等等。在技术上，提取声学参数是采
化信息。
3）正面、侧面采集
采用两个摄像装置采集图像 , 图像序列间的同步会带来很大的问题
检测与定位
• 降低图像处理的难度,检测唇的边缘 • 设计平台 • 矩形框
第一列是表示原始唇区域，第二列表示别分类出的唇区域和非唇区域，第三列代表根据唇模型画出的唇线边缘。
特征提取
基于模型
方法
基于像素
混合特征
研究内容
• • （4）建立语音驱动的唇位模型根据统计数据建立语音和唇型之间的关联模型，建立语音驱动的唇位模型。首先对文本进行国际音标的转换，使其成为音位序列，然后按音节为单位，声韵母分别调用各自对应的唇位图像组进行拼接，可用内插法解决语音和唇位的时间对应。
对每一个视频文件，使用非线性编辑器对采集的图像进行分帧（每秒24帧），对
国外研究现状
国际上目前语音学基础理论研究的前沿正从过去单一的语音学转向语音学科的整体研究，这种多学科整体研究的集中体现就是“语音多模态(multimodal of speech)”研究。由于语音多模态研究的基础理论成果能够促进相关信息科学的发展，因而许多国家都将语音多模态研究作为支持的重点，著
度几个信号，求导提取参数18个。
L/O/G/O
Thank You!
分读出”其所说的内容.研究唇读目的是利用
视觉信道信息补充听觉信道的信息 ,以提高计算机系统的理解力.
计算机唇读
•
计算机唇读是指通过建立口型模型和分析运动参数,定量地处理唇动信息辅助进行语音识别,或者是直接对序列图像进行分类和识别,以提高语音识别技术的准确率和鲁棒性。
鲁棒性就是系统的健壮性。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定（结构，大小）的参数摄动下，维持某些性能的特性。根据对性能的不同定义，可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。
研究内容
（1）建立语音、唇型数据库
模态数据库包括：音位、单音节（解决协同发音）的语音和视频信号。
1）文本设计：音位、单音节和双音节文本设计。
2）使用两架摄像机进行信号的同步采集，以保证人脸正面和侧面信号被同时采集，最终获得包含三种单位的语音和唇型参数数据库。
研究内容
• • （2）建立信号处理平台生理信号的采集设备一般都不带有分析功能，需要根据不同的信号类型编写各自的信号处理和分析程序，包括信号的读取、剪切、保存、拟定参数的自动提取、数据的自动保存和统计分析等功能。该平台主要完成内外唇线及唇线参数的设定与自动提取和批量分析等，主要包括以下功能： • • • ①手动框出包含唇的矩形区。 ②利用支持向量机对唇区域和非唇区域进行分类。 ③对分类出的唇区域利用EILAN提出的唇边缘检测模型自动标记出唇边缘，对自动标记错误处具有手动修改功能。
每一帧建立唇线自动匹配系统，手动调整12 个外唇线关键和 9 个内唇线关键点，
能够自动保存关键点参数。
EILAN提出的唇边缘检测模型
•
识别前期：
用隐马尔科夫模型进行序列.一个隐马尔可夫模型(HMM)是一个双随机序列,包括状态序列和可观察值序列。
用MFCC(mel-frequency cepstrum coefficients)提取13维的参数。加能量、幅
各种唇读系统比较
•
各种唇读系统比较
国内的进展
国内言语工程方面比较关注多模态的人机交互研究，包括语音和情感的合成识别等相关方面的研究。做的比较好的有：清华大学电子工程系和计算机系、北京大学言语听觉研究中心，中科院自动化所、科大讯飞、微软亚洲研究院等。
唇读流程
图像采集检测与定位特征提取识别方法
混合特征
目前有以下的结合方法：
1）主成分+snake
2) 多尺度空间分析
3）主动面模型
识别方法
1）模板匹配 2）隐马尔科夫模型（HMM）：通过概率，寻找近似性匹配 3）TDNN（延迟神经网络）德国的斯图加特大学和美国的CMU合作
研究内容
对唇形研究内容分为四个部分：
1）建立语音多模态库；语音、唇位、采集图片、语音（资源库） 2）建立唇形处理平台；矩形框、边缘、修改 3）对语音、唇位参数提取和数据分析，建立统计模型； 4）研究不同生理信号之间的关系，进行语音产生各相关层面的理论与方法研究，并建立语音驱动的唇型模型合成。（长远目标）用参数驱动合成
L/O/G/O
唇形
唇
唇
唇位于口腔的最前端，分上唇和下唇，两唇共同围成口裂，口裂两端称口角。唇是言语器官中唯一可以从外部被观察到的部分，因此在发音过程中唇形的变化被聋哑人用来作为识别对方讲话的依据。唇由口轮匝肌组成。轮匝肌又称为唇内肌，它的作用在于关闭双唇，发出唇音p、b、m等；唇外肌中上唇肌和颧肌司提升上唇；下唇肌和三角肌管降低下唇，而笑肌和颊肌主绷紧双唇。
行的。明确了口型的种类也就明确了发音时的状态 ,在这些状态
的基础上进行唇读的识别,就可以去掉直接使用特征向量识别时状态变化的不确定性 , 缩小状态空间 , 提高最佳状态匹配的收敛速度。
交叉学科
唇形研究是对语音研究和图像处理的交叉学科的探索，内容涉及语言学、图像处理、模式识别、计算机视觉、自然语言理解等多个领域，他的进步可以促进许多学科的进步。
唇读的识别方法
★ 唇读识别中较常使用的方法是基于特征向量法
把提取的特征作为向量进行HMM的状态匹配。这样做的缺点是状态不确定 , 搜索的时间和空间规模较大 , 很难做到识别的实时性。 ★另一种方法是基于口型分类法人在发相同的音时,口型是基本不变的,发相似的音时口型上也存在很大的相似性,所以将汉语发音的变化口型进行聚类是可
图像采集
1）正面采集
在拍摄获取发音者的口型图像序列时,通过在紧靠面部侧面放置一面镜子的方法,同步记录发音时的正面和侧面图像。但是在实际应用中放置镜子的方法有时带来不便。
2）不规则人脸对称模型
获取人脸图像时 , 摄像头从人脸正面转过一个角度θ,
这样既能保证一半正面嘴唇轮廓的图像 , 又能反映出嘴唇突出度和下腭突出度的投影信息。既有人脸正面图像中嘴唇的内外轮廓动态变化信息 , 又包含人脸侧面图像反映出来的嘴唇突在出度和下腭突出度动态变
名的研究机构有瑞典皇家理工学院（ KTH ）、美国哈斯金斯语音实验室
（Haskins）、加州大学洛杉矶分校语音实验室(UCLA Phonetics Lab)、日本东京大学言语生理系等，并在英语和日语的言语产生和多模态人机交互方面取得了大量的研究成果。应用语言学就是通过各种现代技术着重解决现实当中的语言问题，是把理论语言学和现代应用技术有机结合的学科，其中人机的语言情感交互研究是近几年的研究热点。其研究内容从最早的机器翻译到现今的多模态之一的视位研究。而唇位研究正是可视化研究的重要组成部分。
基于模型
1）主动轮廓模型（Snake算法）：Snake是一条变形的曲线，主要靠两个函数来提取特征。 2）可变模型：特定的主动轮廓模型
特点：数据量小、较为准确
基于像素

e商务文档

唇形合成语音与唇形语音识别

相关文档推荐：