当前位置:文档之家› 唇形合成语音与唇形语音识别..

唇形合成语音与唇形语音识别..


分读出”其所说的内容.研究唇读目的是利用
视觉信道信息补充听觉信道的信息 ,以提高计 算机系统的理解力.
计算机唇读

计算机唇读是指通过建立口型模型和分析运动参数,定量地处理唇动信息辅助进行语音 识别,或者是直接对序列图像进行分类和识别,以提高语音识别技术的准确率和鲁棒性。
鲁棒性就是系统的健壮性。它是在异常和危险情况下系统生存的关键。比如说, 计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩 溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的 参数摄动下,维持某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性 能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。
L/O/G/O
唇形


唇位于口腔的最前端,分上唇和下唇,两唇共同围成口裂, 口裂两端称口角。唇是言语器官中唯一可以从外部被观察到的 部分,因此在发音过程中唇形的变化被聋哑人用来作为识别对 方讲话的依据。 唇由口轮匝肌组成。轮匝肌又称为唇内肌,它的作用在于 关闭双唇,发出唇音p、b、m等;唇外肌中上唇肌和颧肌司提 升上唇;下唇肌和三角肌管降低下唇,而笑肌和颊肌主绷紧双 唇。
行的。明确了口型的种类也就明确了发音时的状态 ,在这些状态
的基础上进行唇读的识别,就可以去掉直接使用特征向量识别时 状态变化的不确定性 , 缩小状态空间 , 提高最佳状态匹配的收敛 速度。
交叉学科
唇形研究是对语音研究和图像处理的交叉学科的 探索,内容涉及语言学、图像处理、模式识别、计算 机视觉、自然语言理解等多个领域,他的进步可以促 进许多学科的进步。
唇读的识别方法
★ 唇读识别中较常使用的方法是基于特征向量法
把提取的特征作为向量进行HMM的状态匹配。这样做的缺 点是状态不确定 , 搜索的时间和空间规模较大 , 很难做到识别的 实时性。 ★另一种方法是基于口型分类法 人在发相同的音时,口型是基本不变的,发相似的音时口型上 也存在很大的相似性,所以将汉语发音的变化口型进行聚类是可
国外研究现状
国际上目前语音学基础理论研究的前沿正从过去单一的语音学转向语音 学科的整体研究,这种多学科整体研究的集中体现就是“语音多模态(multimodal of speech)”研究。由于语音多模态研究的基础理论成果能够促进相 关信息科学的发展,因而许多国家都将语音多模态研究作为支持的重点,著
名的研究机构有瑞典皇家理工学院( KTH )、美国哈斯金斯语音实验室
(Haskins)、加州大学洛杉矶分校语音实验室(UCLA Phonetics Lab)、日 本东京大学言语生理系等,并在英语和日语的言语产生和多模态人机交互方 面取得了大量的研究成果。应用语言学就是通过各种现代技术着重解决现实 当中的语言问题,是把理论语言学和现代应用技术有机结合的学科,其中人 机的语言情感交互研究是近几年的研究热点。其研究内容从最早的机器翻译 到现今的多模态之一的视位研究。而唇位研究正是可视化研究的重要组成部 分。
基于模型
化信息。
3)正面、侧面采集
采用两个摄像装置采集图像 , 图像序列间的同步会带 来很大的问题
检测与定位
• 降低图像处理的难度,检测唇的边缘 • 设计平台 • 矩形框
第一列是表示原始唇区域, 第二列表示别分类出的唇区域和非唇区域, 第三列代表根据唇模型画出的唇线边缘。
特征提取
基于模型
方 法

基于像素
混合特征
各种唇读系统比较

各种唇读系统比较
国内的进展
国内言语工程方面比较关注多模态的人机交互研究,包括语音和情感的合成识别等相关方面的 研究。做的比较好的有:清华大学电子工程系和计算机系、北京大学言语听觉研究中心,中科 院自动化所、科大讯飞、微软亚洲研究院等。
唇读流程
图像采集检测与定位特征提取识别方法
图像采集
1)正面采集
在拍摄获取发音者的口型图像序列时,通过在紧靠面 部侧面放置一面镜子的方法,同步记录发音时的正面 和侧面图像。但是在实际应用中放置镜子的方法有时 带来不便。
2)不规则人脸对称模型
获取人脸图像时 , 摄像头从人脸正面转过一个角度 θ,
这样既能保证一半正面嘴唇轮廓的图像 , 又能反映出 嘴唇突出度和下腭突出度的投影信息。既有人脸正面 图像中嘴唇的内外轮廓动态变化信息 , 又包含人脸侧 面图像反映出来的嘴唇突在出度和下腭突出度动态变
国外的研究现状
最早的唇读系统是 1984 年由(伊利诺伊大学)UIUC大学patajan构建,系统 中采用的方法是对每一个词对应一个特征矢量序列,识别时,将输入唇读序 列图中得到特征矢量序列依存与词库中的每一个词模板进行相似度距离测度 计算。将相似度最高的作为结果输出。由于它没有使用自动时间归正处理, 因此方法有训练时的语速与识别时语速完全一致这一不可能的苛刻要。后来 Mase和Pentland采用了线性时间归正技术(LTW)改进了效果,Patajan也加 入了动态时间归正算法(DTW)对原系统做了改进。加利福利亚大学 UCSC 的 Michael.M.Cohen 博士也是最早从事唇读模拟和研究的研究者之一,他所 在的实验室 Perceptual Science Lab 完成了多项唇语模拟的项目,为聋哑人 创造了良好的人机交互环境,一种虚拟语言模拟系统为聋哑儿童提供学习和交 互的环境。MIT媒体实验室的学术带头人Pentland教授将光流技术引入唇读特 征的提取工作。福罗里达中心大学计算机系的Glenn A.Martin也于 1992 年采 用光流技术解决唇读问题,对光流序列进行了时间归正,提出了相关匹配算 法。
口唇解剖图
基本知识
基本知识

下唇与上齿接近能产生唇齿音f、v。在元音发音中,圆唇的结果 能发出圆唇元音。此外,舌尖元音加上圆唇的作用,能发出【ʮ】 等圆唇舌尖元音。


元音:和唇形的关系,区别特征,圆唇和展唇,共振峰的关系
辅音:主要的发音部位之一。
国际音标表
唇读
唇读(lip-reading/speech-reading), 是指 通过观察说话者的口型变化 ,“读出”或“部
相关主题