当前位置：文档之家› 语音情感识别的研究与实现

语音情感识别的研究与实现

天津师范大学

硕士学位论文

语音情感识别的研究与实现

姓名：金纯

申请学位级别：硕士

专业：计算机应用技术

指导教师：马希荣

20090320摘要

摘要

随着计算机网络通信技术和多媒体技术的飞速发展，新型的人机交互技术

已成为当前计算机科学领域一个十分活跃的研究课题。语音信号和面部表情一

样，传递着情感信息。语音情感识别的研究对于增强计算机的智能化和人性化，

开发新型人机环境，以及推动心理学等学科的发展，有着重要的现实意义。

本文首先介绍了语音情感识别的研究背景及关键技术，着重介绍了有关语

音处理、语音情感特征分析与提取、识别方法和目前国内外该领域的研究现状

及发展方向。然后，对语音情感识别的分析过程和设计思想进行了深入详细的探讨。论

文完成了情感语音库的建立、语音信号预处理、哈明窗与小波变换相结合提取

情感特征参数、采用加权欧式距离模板匹配方法实现情感识别等工作。通过实

验分析总结了所提取的多种情感特征参数对不同情感状态有着不同的贡献程

度，提出了采用贡献分析法对提取的语音情感特征进行加权处理并建立模板，

实现了系统对实时性的要求。采用面向对象的设计方法设计了语音情感识别的

原型系统，并验证了上述方法的有效性。最后，总结性分析了该领域存在的一些问题和今后需要进一步研究的课题。

关键词：小波变换，语音情感识别，贡献分析法，模板匹配Ａｂｓｔｒａｃｔ

Ａｂｓｔｒａｃｔ

Ｗｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋｍｕｌｔｉｍｅｄｉａｔｅｃｈｎｏｌｏｇｙ，ｔｈｅｔｅｃｈｎｏｌｏｇｙｏｆｎｅｗＨｕｍａｎＭａｃｈｉｎｅｃｏｍｍｕｎｉｃａｔｉｏｎａｎｄＩｎｔｅｒａｃｔｉｏｎ（ＨＣＩ）ｈａｓｂｅｃｏｍｅａｖｅｒｙａｃｔｉｖｅｓｔｕｄｙｓｕｂｊｅｃｔｉｎｔｈｅｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅｆｉｅｌｄａｔｐｒｅｓｅｎｔ．Ｓｐｅｅｃｈｉｓｐａｒｗｉｔｈｆａｃｉａｌｏｎｅｏｆｔｈｅｆｕｎｄａｍｅｎｔａｌｍｅｔｈｏｄｓｏｆｃｏｎｖｅｙｉｎｇｅｍｏｔｉｏｎ，ｏｎａ

ｅｘｐｒｅｓｓｉｏｎ．Ｔｈｅｓｔｕｄｙｏｎｔｈｅｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｈａｓｆｏｕｎｄｉｍｐｏｒｔａｎｔｒｅａｌｉｓｔｉｃｖａｌｕｅｓｉｎｓｕｃｈａｓｐｅｃｔｓａｓｅｎｈａｎｃｉｎｇｔｈｅｉｎｔｅｌｌｉｇｅｎｃｅａｎｄｈｕｍａｎｉｔｙｏｆ

ｃｏｍｐｕｔｅｒ，ｄｅｖｅｌｏｐｉｎｇｎｅｗｈｕｍａｎ—ｍａｃｈｉｎｅｅｎｖｉｒｏｎｍｅｎｔｓ，ｐｒｏｍｏｔｉｎｇｔｈｅｓｔｕｄｙｏｆｐｓｙｃｈｏｌｏｇｙ．

Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｆｉｒｓｔｌｙｉｎｔｒｏｄｕｃｅｔｈｅｓｔｕｄｙｂａｃｋｇｒｏｕｎｄａｎｄｏｔｈｅｒｒｅｌａｔｅｄｋｅｙｔｅｃｈｎｏｌｏｇｉｅｓｏｆｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎａｕｄｉｏｉｎｆｏｒｍａｔｉｏｎ，

ｅｍｐｈａｓｉｚｉｎｇｏｎｔｈｅｋｎｏｗｌｅｄｇｅｏｆｄｅａｌｉｎｇｗｉｔｈｓｐｅｅｃｈ，ａｎａｌｙｚｉｎｇａｎｄｅｘｔｒａｃｔｉｎｇ

ｓｐｅｅｃｈｅｍｏｔｉｏｎｆｅａｔｕｒｅｓ，ｒｅｃｏｇｎｉｔｉｏｎｍｅｔｈｏｄｓ．Ｔｈｅｓｔｕｄｙａｃｔｕａｌｉｔｙａｎｄｉｔｓｔｒｅｎｄｉｎｔｈｉｓｆｉｅｌｄｉｎｔｈｅｗｏｒｌｄａｔｐｒｅｓｅｎｔａｒｅａｌｓｏｅｍｐｈａｓｉｚｅｄ．

Ｓｅｃｏｎｄｌｙｗｅｄｉｓｃｕｓｓｉｎｄｅｔａｉｌｓｔｈｅｐｒｏｃｅｓｓｏｆａｎａｌｙｓｅｓａｎｄｍａｉｎｄｅｓｉｇｎｉｄｅａｓｏｆｔｈｅｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ．Ｗｅｈａｖｅｆｉｎｉｓｈｅｄｔｈｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆｅｍｏｔｉｏｎ—

ｓｐｅｅｃｈｔｅｍｐｌａｔｅｓｄａｔａｂａｓｅ，ｔｈｅｐｒｅｐｒｏｃｅｓｓｏｆｓｐｅｅｃｈｓｉｇｎａｌｓ，ｓｐｅｅｃｈｅｍｏｔｉｏｎｆｅａｔｕｒｅｓ

ｅｘｔｒａｃｔｉｏｎｂａｓｅｄｏｎｈａｍｍｉｎｇｆｉｌｔｅｒａｎｄｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍａｔｉｏｎ，ｓｐｅｅｃｈｅｍｏｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｔｅｍｐｌａｔｅｓｍａｔｃｈｉｎｇ，ｃｏｍｂｉｎｉｎｇｗｅｉｇｈｔｅｄＥｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ．

Ｄｕｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎｏｆｓｐｅｅｃｈｅｍｏｔｉｏｎｂａｓｅｏｎａｕｄｉｏｆｒｅｑｕｅｎｃｙ，ｗｅａｎａｌｙｚｅａｎｄｓｕｍｍａｒｉｚｅａｃｃｏｒｄｉｎｇｔｏｅｘａｍｉｎａｔｉｏｎｓｔｈａｔｔｈｅｄｉｆｆｅｒｅｎｔｅｘｔｒａｃｔｅｄｓｐｅｅｃｈｅｍｏｔｉｏｎ

ｆｅａｔｕｒｅｓｈａｖｅｄｉｆｆｅｒｅｎｔｃｏｎｔｒｉｂｕｔｅｉｎｄｅｇｒｅｅｔｏｅｖｅｒｙｓｐｅｅｃｈｅｍｏｔｉｏｎｓｔａｔｕｓ．

Ｔｈｅｒｅｆｏｒｅ，ｗｅｐｒｅｓｅｎｔｔｈｅｃｏｎｔｒｉｂｕｔｅｓａｎａｌｙｚｉｎｇａｌｇｏｒｉｔｈｍｔｏｇｉｖｅｄｉｆｆｅｒｅｎｔｗｅｉｇｈｔｓ

ｔｏｄｉｆｆｅｒｅｎｔｅｘｔｒａｃｔｅｄｓｐｅｅｃｈｅｍｏｔｉｏｎｆｅａｔｕｒｅｓａｎｄｔｈｅｎｃｏｎｓｔｒｕｃｔｔｈｅｔｅｍｐｌａｔｅｓ．Ｔｈｅｎ

ＩＩＡｂｓｔｒａｃｔ

ｗｅｃａｎｕｓｅｔｈｅｔｅｍｐｌａｔｅｓｍａｔｃｈｉｎｇｍｅｔｈｏｄｓｂａｓｅｄｏｎｗｅｉｇｈｔｅｄＥｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅｔｏ

ａｃｈｉｅｖｅｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ，ｅｎｓｕｒｉｎｇｔｈｅｒｅａｌ—ｔｉｍｅｃｏｍｍａｎｄｏｆｔｈｅｓｙｓｔｅｍ．Ｗｅａｄｏｐｔｔｈｅｏｂｊｅｃｔｏｒｉｅｎｔｅｄｄｅｓｉｇｎｍｅｔｈｏｄｓｔｏｄｅｓｉｇｎｔｈｅｓｙｓｔｅｍｏｆｓｐｅｅｃｈｅｍｏｔｉｏｎ

ｒｅｃｏｇｎｉｔｉｏｎａｎｄｔｈｅｖａｌｉｄｉｔｙｏｆａｂｏｖｅｍｅｔｈｏｄｓｉｓｐｒｏｖｅｄ．Ｉｎｔｈｅｅｎｄｏｆｔｈｉｓｐａｐｅｒ，ｗｅｓｕｍｍａｒｉｚｅｓｏｍｅｐｒｏｂｌｅｍｓｔｈａｔｈａｖｅｎｏｔｂｅｅｎｓｏｌｖｅｄ

ａｎｄｔｈｅｆｕｔｕｒｅｗｏｒｋｓｉｎｔｈｉｓｆｉｅｌｄｗｉｌｌｂｅｄｉｓｃｕｓｓｅｄ．

Ｋｅｙｗｏｒｄｓ：ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍａｔｉｏｎ，ｓｐｅｅｃｈｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ，ｃｏｎｔｒｉｂｕｔｅｓ

ａｎａｌｙｚｉｎｇａｌｇｏｒｉｔｈｍ，ｔｅｍｐｌａｔｅｓｍａｔｃｈｉｎｇ

ＩＩＩ独创性！声明

本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得鑫注！重整盘堂或其它教育机构的学位或证书而使用过的

材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

学位论文版权使用授权书期：

本人完全了解天津师范大学有关保留、使用学位论文的规定，即：学校有权将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。（保密的论文在解密后应遵守此规定）

签名：么金至堑导师签名：日

期：第１章绪论

第１章绪论

１．１研究背景

随着信息技术的高速发展和人类对计算机技术的依赖性的不断增强，人机的

交互能力越来越受到研究者的重视。为了使人类与计算机间能够更加智能更加自

然地交互，新型的人机交互（ＨｕｍａｎＭａｃｈｉｎｅＩｎｔｅｒａｃｔｉｏｎ，ＨＣＩ）技术正逐渐成为

研究热点。如何实现计算机的拟人化，使其能感知周围的环境和气氛以及对象的

态度、情感等内容，自适应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，已经成为下一代计算机发展的目标。研究表明，在人机交

互中需要解决的问题实际与人和人交流中的重要因素是一致的，最关键的都是

虬隋感智能”的能力。计算机要能够更加主动地适应操作者的需要，首先必须能

够识别操作者的情感，而后再根据情感的判断来调整交互对话的方式。对于情感

信息的处理技术的研究包括多个方面，主要有情感特征分析、情感识别（如肢体

情感识别、面部情感识别和语音情感识别等）、情感模拟（如情感语音的合成等）。

目前，关于情感信息处理的研究正处在不断深入之中，其中语音信号中的情感信

息处理的研究也越来越受到人们的重视。

通过语音相互传递信息是人类最重要的基本功能之一。声音是人类常用的工

具，是相互传递信息的最重要的手段。情感在人们生活和交流中起着重要的角色。

包含在语音中的情感信息是一种很重要的信息资源，它是人们感知事物的必不可

少的信息。例如同样的一句话，由于说话人表现的情感不同，意思就会完全不同，

在听者的感知上就可能会有较大的差别。所谓“听话听音＂就是这个道理。然而，

传统的语音信号处理技术把这部分信息作为噪声给去掉了。实际上，语音信号中

不仅包含文字信息，还包含了语调及情感信息。人们同时接受各种信息，怎样有

效地利用各种形式的信息达到最佳的信息传递和交流效果，是今后信息处理研究

的发展方向。所以分析和研究语音中的情感特征、判断说话人的喜怒哀乐是一个

意义重大的研究课题。第１章绪论

１．２语音情感识别的研究领域

语音的情感识别是目前信号处理及模式识别领域的一个新的研究热点，在许

多领域有着重要的意义，涉及领域有：信号处理、心理学研究、虚拟现实技术、新型人机交互技术、模式识别、信息论、发声机理、听觉机理、人工智能等。

语音情感识别，就是通过分析人类语音对应于情感的变化规律，利用计算机

从语音中准确提取情感特征，并根据这些特征确定被测对象的情感状态。相对于有几十年研究历史的语音信号处理，语音情感识别着眼点不是语音信号处理中语

音词汇表达的准确性，而是从前研究中完全忽略的包含在语音信号中的情感和情

绪信息。而这部分恰恰是人们感知说话人所要表达情感的必不可少的信息。因此对语音情感信息的处理在一定程度上可以说是对这部分被去掉信息的“复权”研

究。特别需要指出的是，语音情感识别和人的情绪识别是两个不同概念。情绪一

般能够完全体现人的意图，但由于情感语音与所处的情绪状态并不是一一对应

的，因此某些情绪并不通过可视的情感语音表现出来。另一方面，情感语音又和

内在情绪有着密切的联系，大多数情感语音都由特定的情绪所支配。由此可见，

情感语音在人们交流过程中起着重要的作用，使用计算机进行语音情感识别进而

确定人的内心情绪的研究是完全可行的。

近几年，研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、

心理学角度的情感建模到语音情感的声学关联特征，以及各种针对语音情感识别

和合成的算法、理论展开了深入的研究，还从工程学的角度将情感作为信息信号工学的研究对象。１９８１年，Ｗｉｌｌｉａｍｓ和Ｓｔｅｖｅｎｓ［１】通过对语音产生机理的分析，

总结出不同情感状态下，生理上起主导作用的神经系统及相应的生理反应。１９９６

年Ｄｅｌｌａｅｒｔ［２】提出以基音频率相关信息为主要特征的分类方法。他从基频轮廓

（ｐｉｔｃｈｃｏｎｔｏｕｒ）曲线提取特征参数，通过研究指出，语音情感识别中最显著的

特征包括：基音频率的最大值、最小值和中值，并识别了悲伤、愤怒、高兴和害

怕。近年来，随着ＨＭＭ、小波变换等新方法的应用【５】，以及高性能的计算资源的使用，都极大地推动了语音情感识别技术的研究与发展，并使其成为科研热点。

语音信号的情感识别也可以看成一个模式识别的问题，在众多领域有着极大

的应用价值。如果一说话人的情感状态可准确识别，那么在人机交互中机器将能

e商务文档

语音情感识别的研究与实现

相关文档推荐：