当前位置：文档之家› 基于Matlab的语音图像视频基础知识

基于Matlab的语音图像视频基础知识

基于Matlab环境下的语音、图像、频信号的基础知识班级：信1104学号：20112785姓名：吕微彪语音信号的表示：语音既是人得发音器官发出来的一种声波，它就是其他各种声音一样，也具有声音的物理属性。

它具有以下一些特性：（一）音质。

它是一种声音区别其他声音的基本特性。

（二）音调，就是声音的高低。

音调取决于声波的频率：频率快则音调高，频率慢音调低（三）声音的强弱。

音强及音量，又称响度，它是由声波震动幅度决定的。

（四）声音的长短，也称音长，它取决于发音持续时间的长短。

语音信号最主要的特性是随时间而变化的，是一个非常平稳的随机过程。

但是，从另一方面看，虽然语音信号具有时变特性，但在短时间范围内其个性基本保持不变。

在没有完成状态转变时，可近似认为它不变。

因而我们可以采用平稳过程的分析处理方法处理语音。

语音信号分析可分为时域，频域，倒频域等方法。

时域分析具有简单，运算量小物理意义明确等优点；更为有效的分析多是围绕频域进行的，因为语音中最重要的感知特性反映在其功率谱中而相位变化只起很小作用。

语音信号的短时谱分析是以傅里叶变换为核心的，其特征是频谱包络与频谱细微结构以乘积的方法混合在一起，另一方面是可用FFT进行高速处理。

语音信号处理基本分两种分析方法：数字信号处理和模拟信号处理语音信号的格式：音频格式是指要在计算机内播放或是处理音频文件，是对声音文件进行数、模转换的过程。

音频格式最大带宽是20KHZ，速率介于40~50KHZ之间，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度音频文件格式常见的特点有：要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频文件格式的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。

音频数字化的标准是每个样本16位-96dB的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。

在音频文件的制作中，正是采用这一标准。

音频格式包括：CD WAVE AIFF AU MPEG MP3 MPEG-4 MIDI WMA RealAudio VQF OggVorbis AMR。

其中最常用的有MP3，CD，WMA , APE。

吧，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。

比较作为数字音乐文件格式的标准，WAV格式容量过大，因而使用起来很不方便。

因此，一般情况下我们把它压缩为MP3或WMA格式。

压缩方法有无损压缩，有损压缩，以及混成压缩。

MPEG,JPEG就属于混成压缩，如果把压缩的数据还原回去，数据其实是不一样的。

当然，人耳是无法分辨的。

因此，如果把MP3，OGG格式从压缩的状态还原回去的话，就会产生损失。

然而，APE格式即使还原，也能毫无损失地保留原有音质。

所以，APE可以无损失高音质地压缩和还原。

在完全保持音质的前提下，APE的压缩容量有了适当的减小。

拿一个最为常见的38MBWAV文件为例，压缩为APE格式后为25MB左右，比开始足足少了13MB。

而且MP3容量越来越大的今天，25M的歌曲已经算不上什么庞然大物了。

以1GB的mp3来说可以放入4张CD，那就是40多首歌曲，已经足够了！MP3支持格式有MP3和WMA。

MP3由于是有损压缩，因此讲求采样率，一般是44.1KHZ。

另外，还有比特率，即数据流，一般为8---320KBPS。

在MP3编码时，还看看它是否支持可变比特率（VBR），现在出的MP3机大部分都支持，这样可以减小有效文件的体积。

WMA则是微软力推的一种音频格式，相对来说要比MP3体积更小。

[图像表示：每个图像的像素通常对应于二维空间中一个特定的'位置'，并且有一个或者多个与那个点相关的采样值组成数值。

根据这些采样数目及特性的不同数字图像可以划分为：二值图像 (Binary Image): 图像中每个像素的亮度值(Intensity)仅可以取自0到1的图像。

灰度图像(Gray Scale Image)，也称为灰阶图像: 图像中每个像素可以由0(黑)到255(白)的亮度值表示。

0-255之间表示不同的灰度级。

彩色图像(Color Image)：每幅彩色图像是由三幅不同颜色的灰度图像组合而成，一个为红色，一个为绿色，另一个为蓝色。

伪彩色图像（false-color）multi-spectral thematic 立体图像 (Stereo Image)：立体图像是一物体由不同角度拍摄的一对图像，通常情况下我们可以用立体像计算出图像的深度信息。

三维图像(3D Image):三维图像是由一组堆栈的二维图像组成。

每一幅图像表示该物体的一个横截面。

数字图像也用于表示在一个三维空间分布点的数据，例如计算机断层扫描（:en:tomographic，CT）设备生成的图像，在这种情况下，每个数据都称作一个体素。

图像格式：目前比较流行的图像格式包括光栅图像格式BMP、GIF、JPEG、PNG等，以及矢量图像格式WMF、SVG等。

视频表示：将一系列静态影像以电信号方式加以捕捉，纪录，处理，储存，传送，与重现的各种技术。

连续的图像变化每秒超过24帧（frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面。

视频格式：MPEG也是Motion Picture Experts Group 的缩写。

这类格式包括了MPEG-1, MPEG-2 和MPEG-4在内的多种视频格式。

ASF 是MICROSOFT 为了和Real player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。

WMV一种独立于编码方式的在Internet上实时传播多媒体的技术标准，WMV的主要优点在于：可扩充的媒体类型、本地或网络回放、可伸缩的媒体类型、流的优先级化、多语言支持、扩展性等。

n AVI是New AVI 的缩写，是一个名为Shadow Realm 的地下组织发展起来的一种新视频格式。

它是由Microsoft ASF 压缩算法的修改而来的，可以这样说，NAVI 是一种去掉视频流特性的改良型ASF 格式。

DivX这是由MPEG－4衍生出的另一种视频编码(压缩)标准，也即通常所说的DVDrip格式，它采用了MPEG4的压缩算法同时又综合了MPEG-4与MP3各方面的技术，说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩，同时用MP3或AC3对音频进行压缩，然后再将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。

其画质直逼DVD并且体积只有DVD 的数分之一。

RMVB这是一种由RM视频格式升级延伸出的新视频格式，它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式，在保证平均压缩比的基础上合理利用比特率资源，就是说静止和动作场面少的画面场景采用较低的编码速率，这样可以留出更多的带宽空间。

FLV就是随着Flash MX的推出发展而来的新的视频格式，其全称为Flashvideo。

是在sorenson公司的压缩算法的基础上开发出来的。

MP4手机常用视频3GP手机常用视频AMV一种mp4专用的视频格式信号的运算1、利用funtool进行信号运算在函数运算控制窗口中，有4个输入框供用户对要操作的函数进行输入。

这4个输入框分别是f、g、x、a，其中：f为图形窗口1输入的控制函数，其默认值为x； g为图形窗口2输入的控制函数，其默认值为1;x为函数自变量的取值范围，其默认值为[-2*pi,2*pi];a为输入常数，用来进行各种运算，其默认值为1/2。

函数图形计算器有4行7列共28个按钮，每一行代表一类运算：函数自身的运算；函数与常数之间的运算；两函数间的运算与对于系统的操作。

1）函数自身的运算在函数运算控制窗口的第一行命令按钮用于函数自身的运算操作。

每一按钮的命令功能如下：df/dx：计算函数f对x的导函数。

int f：计算函数f的积分函数。

simple f：对函l数f进行最简式化简。

num f：取函数表达式f(x)的分子，并赋予给f。

den f：取函数表达式f(x)的分母，并赋予给f。

1/f：求函数表达式f()的倒数函数。

finv f：求函数表达式f(x)的反函数。

在计算int f或finv f时，若因为函数的不可积或非单调而引起无特定解，则函数栏中将返回NaN，表明计算失败。

2）函数与常数之间的运算在控制窗口的第二行命令按钮用于函数与常数之间的运算操作，每一按钮的命令功能如下f+a：计算f(x)+a f-a：计算f(x)-a f*a：计算f(x)*a f/a：计算f(x)/a f^a：计算f(x)^a f(x+a)：计算f(x+a) f(a*x)：计算f(ax)3）两函数间的运算在控制窗口的第三行命令按钮用于对函数f与g常数之间的各种运算操作。

每一按钮的命令功能如下:f+g：计算两函数f与g之和，并将其和赋值给f。

f-g：计算两函数f与g 之差，并将其差赋值给f。

f*g：计算两函数f与g之积，并将其积赋值给f。

f/g：计算两函数f与g之比，并将其商赋值给f。

f(g)：计算复合函数f(g)4）系统操作按钮在窗口的第四行命令按钮用来对符号函数图形计算器进行各种操作。

每一按钮的命令功能如下：insert：把当前图窗1中的函数插入到计算器内含的典型函数表中。

cycle：在图形窗口1中依次演示计算器内含的典型函数表中的函数图形。

delete：从计算器内含的典型函数演示表中删除当前的图形窗口1中的函数。

reset：重置符号函数计算器的功能。

help：符号函数图形计算器的在线帮助。

demo：演示符号函数图形计算器的功能。

close：关闭符号函数图形计算器.2、向量表示法进行信号运算当在Matlab中用向量表示信号时，反褶、移位、尺度变换等运算是对时间自变量进行运算，需要对时间向量t进行加减乘除操作；而对于两个信号向量或多个信号的运算，则需要进行信号向量间的加减乘除及乘方等操作。

1）向量与常数的运算、向量与常数的加减乘除及乘方运算如下，其中a为常数，X为向量X+a：向量与常数的加运算，X向量中的每个元素都加上相同的常量a；X-a：向量与常数的减运算，X向量中的每个元素都减去相同的常量a； a*X：向量与常数的乘运算，X向量中的每个元素都乘以相同的常量a； X/a：向量与常数的除运算，X向量中的每个元素都除以相同的常量a； a./X：常数与向量的点除运算，常量a除以X向量中的每个元素；X.^a：向量与常数的点乘方运算，X向量中的每个元素为幂底数的a次幂；a.^X：常数与向量的点乘方运算，以X向量中的每个元素为幂指数的a的乘方2）向量间的运算向量间的加减乘除运算如下，其中X、Y为向量X+Y：向量的加法运算，X、Y向量中的相应元素相加； X-Y：向量的减法运算，X、Y向量中的相应元素相减； X.*Y：向量的点乘运算，X、Y向量中的相应元素相乘； X./Y：向量的点除运算，X、Y向量中的相应元素相除； X*Y：向量的矩阵乘运算，与矩阵相乘相同； X/Y：向量的矩阵除运算，与矩阵相除相同；图像运算：1. 数据类型及图像类型间的基本转换函数数据类转换：B = data_class_name(A); IPT图像数据类型转换函数2. 图像的灰度直方图(H是图像a.bmp的数据矩阵) imhist(H)； %显示a的直方图histeq(H); %将图像a进行直方图均衡化adapthisteq(H); %将图像a进行直方图均衡化3. 图像的点运算点运算是通过对图像中每个像素值进行计算，改善图像显示效果的操作，也称对比度增强或对比度拉伸或灰度变换。

e商务文档

基于Matlab的语音图像视频基础知识

相关文档推荐：