当前位置：文档之家› 声音识别模型的建立与评价

声音识别模型的建立与评价

重庆理工大学第18届数学建模竞赛论文题目：声音识别模型的建立与评价（A题）混合队2014年5月10日大学生数学建模竞赛承诺书我们仔细阅读了大学生数学建模竞赛的竞赛规则。

我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。

如有违反竞赛规则的行为，我们将受到严肃处理。

我们参赛选择的题号是（从A/B/C中选择一项填写）：A所属学校（请填写完整的全名）：重庆理工大学参赛队员 (打印并签名) ：指导教师或指导教师组负责人 (打印并签名)：无日期：2014年5月10日2014年重庆理工大学大学生数学建模竞赛编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：声音识别模型的建立与评价摘要本文针对声音识别模型的建立与评价问题，采用matlab仿真、归一化、隐马可夫模型，回归模型、遗传算法等方法，对声音识别建立了相应的模型。

针对问题一，利用matlab中的sound函数播放出声音信号，利用plot函数绘制出具体的声音波形图，总结得出正常和非正常开门声音的差别。

通过试听，可以得知，正常开门声音信号的比较缓和，响度较小；而非正常声音比较刺耳，音调较高，响度较大。

通过plot函数绘制出具体的声音波形图，分析得知（1）相同时间内振动越快，频率越大。

音调跟频率有关，频率越大，音调越高。

（2）振幅是物体振动时偏离原位置的大小，偏离原位置越大，振幅越大。

响度跟振幅有关，振幅越大，响度越大。

所以通过声音波形图，也可以看出正常开门声音信号与非正常开门声音信号。

针对问题二，应用及线性预测倒谱参数（PLCC）完成声音信号的特征向量的建立及对特征向量的提取。

尽管SVM分类器可以处理任意范围的特征数据，但归一化仍然有助干简化问题的的复杂性。

一般情况下，可以利用特征x的均值和方差来解决这个问题。

线性预侧(Line- Pra7iction. LP)分析是最有效的语音分折技术之一，求解线性预侧分析的基本思想是:语音信号样点之间存在相关性，可以用过去的若干个样点或它们的线性组合预测现在或将来的样点值。

可以通过使实际语音抽样值和线性预测抽样值之间的均方误差最小，得到一组唯一的线性预测系数(LPC系数)。

线性预测分析不仅能够提供语音信号的预测波形，而且能够提供一个好的声道摸型。

针对问题三，采用logistic回归模型，通过回归拟合解释变量与事件发生概率之间的非线性关系原理，区分正常和非正常声音，评价模型的好坏。

由多元线性logistic回归模型直接计算。

此外，模型中的系数，采用极大似然参数估计进行迭代计算方法得出。

针对问题四，经过特征子集的优选，模型参数的优化，运用遗传算法极大的提高模型的准确率。

从一组数量为D的特征组中选择出一组数量为n(n<D)的最优特征，一方面需要确定类别的可区分性判断，对特征分类效果作出评估，选出使某一可分性达到最大的特征组来；，在条件允许的条件下，找出最优的的那一部分特征。

针对问题五，对于原始声音信号的处理，以错点剔除、零均值变换、预滤波的方式进行预处理，尽可能减少噪声对有效信号的干扰。

在本文的最后，针对每个问题对其结果进行了分析、对每个问题解决方法的优缺点进行了对比，并提出了相应的改进方案。

关键词：声音识别；隐马可夫模型；logistic回归模型；遗传算法；一、问题重述随着家居智能化逐渐普及，智能冰箱、智能清洁机器人、智能电视等已步入平常老百姓家庭，但智能化的防盗门还处于研发阶段，未进入市场。

随着人们对家居安全意识的不断增强，对防盗、防抢和防砸的门禁系统的智能性提出更高的要求。

基于此，对正常和非正常开门（指盗窃开门等声音）的声音进行识别是智能防盗门的关键问题和技术，其具有广泛的应用前景和实用价值。

为了进行声音识别模型的建立，我们分析采集到的正常和非正常开门的声音（正常开门声音,非正常开门声音,各40次，共80次开门声音数据）。

利用matlab的load 函数将该数据载入到计算机内存，内存中变量有Fs和y等变量，其中Fs为采用频率，y为采用数据。

利用这些数据完成以下工作：1.利用matlab中的sound函数，播放出声音信号，试听并比较正常和非正常开门声音的差别，利用plot函数绘制出具体的声音波形图，总结差别在哪些方面？2.利用合适的时域或（和）频域特征表达个声音信号，建立特征向量，写出提取特征向量的具体方法和程序代码。

3.建立声音识别模型（二分类模型），利用模型区分正常和非正常声音，评价模型的好坏。

4.试利用特征选择或变换，对特征向量进行优化，并利用参数优化技术优化模型的参数，使识别模型的准确率提高。

5.若原始声音信号中有环境噪声（如白噪声），设y中叠加了一定幅值的白噪声（利用y1=y+(-0.15+0.3*rand(size(y)))*max(y)叠加噪声），如何对声音进行前期处理？二．模型假设（1）假设在应用matlab中影响正常声音和非正常声音的因素都已考虑完全；（2）假设所选的时频域能够正确的表达出个体声音，音中的瑕疵可以忽略‘（3）假设在参数优化中，遗传算法的计算量适当三．符号说明与模型假设3.1符号说明x是特征的均值，2s是特征的方差，'x是归一化的数值，R是尺度因子，s是子带i的傅里叶变换系数iC是小波系数Pi表示是π四．问题分析2.1声音信号正常与非正常的开门声音分析在MATLAB环境中，熟悉有关声音的函数：声音录制函数wavrecord()，文件保存wavwrite()，文件读取wavread()，语音回放sound()，语音播放wavplay()，录制的文件以 .mat作为文件扩展名的文件。

使用声音相关函数播放40次正常开门声音数据和40次非正常开门声音数据，用MATLAB函数wavread()将声音信号提取出来进行进行频谱分析，得到幅度和相位谱，做出相应观察和对比。

利用plot函数绘制出具体的声音波形图（程序代码详见附录一），并作出具体描述。

2.2声音信号的特征向量的建立及对特征向量的提取方法分析声音信号的特征向量的建立：引入一种非线性归一化方法，随后实现多个特征提取算法(例如：时域特征、频域特征的计算等)。

决定采用特征x的均值和方差来解决特征归一化问题，输出范围有效地限制在了[0-1]内。

并且设定R值为尺度因子。

R 值越小，曲线越陡峭，零附近的输入范围值也愈放大，而绝对值较大值的范围愈被压缩。

R值越大，曲线越平滑，输入数值的压缩程度也愈一致。

时域特征一般比较简单，容易计算，但是在实际采集声音时，它们可能会被风声等噪声严重污染。

如前所述，可以在硬件方面采取一定措施来减小这些影响.如为声传感器增加防风罩，或者运用软件方法消除影响，如采用高通滤波器将低频部分滤掉等。

描述频域特征时，通过频带能量比率方式阐述。

子带能量比率衡量的是某个子带占全部频带能量的比率，以此描述频域的特质特征。

特征向量的提取方法：声音信号的特征向量的提取是将人或物发出的声音转换成电信号，然后将电信号转换成赋予相应含义的编码图形，也就是将声音信号翻译成一种机器可读的形式。

其中，LPC是特征向量提取的重要手段，它能很好地进行谱估计，即可作为语音特征的参数。

因此仅用12个LPC系数就能很好地表示复杂语音信号的特征，这就大大降低了信号的冗余度并有效地减少了计算的有效数据。

在实际运作中，大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。

2.3区分正常和非正常声音，评价模型的好坏的分析利用最小二乘法进行线性回归定义cost函数，根据最大似然原理，做出样本点回归误差服从一定概率分布的假定。

根据样本间关系，设该误差值的随机变量服从高斯分布。

在回归问题中，如果响应y为二值性的，便实际成为分类问题，即所谓二分类问题。

为了使问题分析得更直观一些，假定y的取值为0或1。

Logistic回归是解决这种二分类问题的有效方法之一。

2.4模型参数的优化，提高模型的准确率方法分析本题主要是利用特征选择和特征变换对特征向量进行优化，后利用参数优化技术中遗传算法实现对回归模型的优化由前文各种算法提取的备选特征集，经过优化的特征子集是由大量数据测试测验证过的，能够保证他的性能是最优的，识别模型的准确性更高，本案例中，采用特征搜索及优化算法，继而采用其中的遗传算法对备选特征集进行了优化选取。

2.5原始声音信号的处理分析由于各种客观因素的影响在采集到的信号中常常混有噪声。

为消除信号细微处的波形波动，因此在对信号分析之前有必要进行一些处理，尽可能减小噪声对有用信号的干扰。

错点剔除：在数字信号的测试采集中，由于外界干扰或仅器的临时故障等原因，随时会出现异常数据，即所谓异点。

如在AD转换中由于接地不当或其它原因会在抽样数据中有异常的正颇峰值，产生突变异点的存在会影响分析结果。

特别是对高频分量的影响，必须加以剔除随机数字信号。

零均值变换：了解分析信号的统计特性，消除数据中的直流分量需对信号作零均值变换。

预滤波：在信号分析中，一方面信号中常常会存在一些不需要的高频噪声成分；另一方面有时我们只对某一频段的信号成分感兴趣。

因此在信号分析时首先要对信号进行预滤波。

滤波器可分为两大类即经典滤波器和现代滤波器。

五．模型的建立与求解4.1问题（一）的模型建立与求解4.1.1声音信号的提取在MATLAB环境中，使用声音相关函数播放40次正常开门声音数据和40次非正常开门声音数据。

声音信号的提取程序代码，详见附录一。

取声音数据进行频谱分析，得到幅度和相位谱比较二者异同。

分析得到如下原因：1、正常开门声音信号的比较缓和，响度较小；而非正常声音比较刺耳，音调较高，响度较大。

2、振幅是物体振动时偏离原位置的大小，偏离原位置越大，振幅越大。

响度跟振幅有关，振幅越大，响度越大。

4.1.2用plot()函数绘制其声音信号图像在MATLAB环境中，用plot()函数绘制声音信号图像的程序代码，详见附录二。

现截取四副相关声音信号图片，佐证关于声音信号的分析。

4.2问题（二）的模型建立与求解4.2.1特征归一化尽管SVM 分类器可以处理任意范围的特征数据，但归一化仍然有助干简化问题的的复杂性。

一般情况下，可以利用特征x 的均值和方差来解决这个问题。

如式（4.1)，(4.2)，(4 3)。

11Ni i x x N ==å (4.1) 2211()N i i x x N s ==-å (4.2) 'x x x s -=(4.3)其中，x 是特征的均值，2s 是特征的方差，'x 为归一化的数值。

e商务文档

声音识别模型的建立与评价

相关文档推荐：