第4章 老年人语音情感识别系统详细设计与实现
第二章、第三章以系统研究背景为基础,对系统进行需求分析,设计系统整
体方案,分析并研究系统相关算法。本章将从系统整体流程着手,阐述系统各功
能模块详细设计与实现。
4.1 系统整体流程
基于系统需求分析、系统总体方案设计及相关算法分析与研究,本课题设计
系统总体流程如图4.1所示。
建立
情感语料库
语音增强特征提取训练阶段模型训练
采集的老年人
语音
语音增强特征提取
识别阶段
输入分类器输出分类结果
图4.1 老年人语音情感识别系统总体流程图
系统总体流程包含训练阶段和识别阶段,二者的共同步骤有:语音增强、特
征提取和情感分类。训练阶段包括建立情感语料库、语音增强、特征提取及模型
训练。识别阶段包括语音采集、语音增强、特征提取与情感分类。其中语音采集
主要由手机麦克风或其他语音采集装置完成,其余流程由本课题实现。本节将针
对重点步骤进行介绍:
1. 建立情感语料库。选择中科院语音库CASIA和老人语音情感库EESDB
作为情感语料库。系统选取两种库中四种公共的情感状态进行训练:生气(angry),
喜悦(happy),中性(neutral)和悲伤(sad)。这四种情感易于区分,对应于
老年人在日常生活中的精神状态,为子女关怀老人提供参考。
2. 语音增强。实际环境中,噪声的来源多种多样。针对老年人带噪语音,
使用语音增强技术尽可能地消除信号中的噪声,使处理后的语音接近纯净语音,
从而提高系统性能及语音情感识别的结果。
3. 特征提取。在特征提取前,需要预先开展语音信号的预处理工作。对语
音信号进行短时分析,将语音信号交叠分帧,使用窗函数截取其中一段,进行
FFT,为特征提取做准备。对预处理完成的语音信号进行情感特征提取,对特征
进行尺寸和格式调整,使其满足训练学习要求。
4. 训练识别。利用提取的特征,选择合适的语音情感识别训练模型,调整
网络结构及训练参数,对语音样本进行训练和学习,得到训练模型。语音样本从
训练模型输出后,使用分类器进行分类,最终得出情感分类的结果。
在上述流程中,语音采集属于系统数据采集层,语音增强、特征提取、训练
识别属于系统数据处理层。
4.2 软件功能模块概述
老年人语音情感识别系统由老年人客户端、子女客户端及后台服务端组成。
本节通过层次化和模块化的思想将系统功能自顶向下分解成多个模块。系统设计
功能模块图如图4.2所示,包括系统每个组成部分的各功能模块。
老年人语音情感识别系统
老年人客户端用户管理模块语音留言模块子女客户端用户管理模块语音留言模块父母情感报告中心后台服务端
用户管理模块老年人语音增强模块语谱图特征提取模块CNN训练识别模块信
息
推
送
模
块
图4.2 老年人语音情感识别系统功能模块图