多媒体知识要点第一章1.多媒体的基本概念“多媒体”是指融合两种或两种以上媒体的一种人-机交互式信息交流和传播媒体,这些信息媒体包括:文字、声音、图形、图象、动画、视频等。
2.常见多媒体的6种媒体元素:文本、音频、图形、图像、动画、视频3.媒体的5种类型:感觉媒体,表示媒体,显示媒体,传输媒体,存储媒体感觉媒体:能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。
如语音、音乐、各种图像、动画、文本等。
表示媒体:为了传送感觉媒体而人为研究出来的媒体。
借助于此种媒体,便能更有效的存储或传送感觉媒体。
如语言编码、电报码等。
显示媒体:用于通信中使电信号和感觉媒体之间产生转换用的媒体。
如输入、输出设施,键盘鼠标器、显示器、打印机等。
传输媒体:用于传输某些媒体的媒体,如电话线、电缆光纤等。
存储媒体:用于存放某种媒体的媒体,如纸张、磁带、磁盘、光盘等。
4.多媒体计算机系统的分层结构:软件系统,硬件系统5.多媒体计算机硬件的组成:多媒体PC机= PC机+ CD-ROM驱动器+ 声卡+视频卡第二章1.什么是声音?声音是通过空气传播的一种连续的波。
(声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。
)声音的三要素:音调,音色,音强2.声音信号数字化的过程模拟信号→采样→量化→编码→数字信号•采样:在某些特定时刻对模拟信号进行测量,即使音频信号在时间轴上离散化。
•量化:对采样后的离散音频信号幅值样本进行离散化处理,即将每一个样本归入预先编排的量化级上。
•编码:对量化级以二进制数码按一定数据格式表示的过程。
3.影响数字音频质量的技术参数:采样频率,量化位数,声道数4.求数字音频文件存储量的计算以字节为单位,模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为:存储量=采样频率×量化位数/8×声道数×时间(注意要除以8才得到字节)例如:用44.1KHz的采样频率进行采样,量化位数选用16位,则录制1秒的立体声节目,其波形文件所需的存储量为:44100×16/8×2×1=176400(字节)1个字节=8个二进制1比特=1个二进制5.MIDI文件的特点:(1). 指令集合,文件小。
(2). 编辑灵活,在音序器的帮助下,用户可自由地改变音调、音色以及乐曲速度等,以达到需要的效果。
(3). 表现力弱,不能与真正的乐器完全相似,音质有待提高。
(4).MIDI声音适于重现打击乐或一些电子乐器的声音,利用MIDI声音方式可用计算机来进行作曲。
(5).使用MIDI文件,其声音卡上必需含有硬件音序器或者配置有软件音序器。
6.产生MIDI乐音的2种方法:FM合成法和乐音样本合成声音法7.三种话音编码器译码器的特点:波形编译码器(waveform coder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。
特点:编译码器简单,话音质量高,但数据率也很高;例如:PCM、DM、DPCM、ADPCM等。
音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。
它从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。
特点:算法复杂,计算量大,压缩率高,但还原声音的质量不高。
混合编译码器(Hybrid coder):把波形编码的高质量和音频编码的低数据率结合在一起,取得了较好效果。
使用的激励信号波形尽可能接近于原始话音信号的波形。
例如CELP。
7.了解脉冲编码调制(PCM), 自适应增量调制(ADM),增量调制(DM),自适应脉冲编码调制(APCM),差分脉冲编码调制(DPCM),自适应差分脉冲编码调制(ADPCM)等几种常见波形编码方法的基本思想(了解是对应的哪种编码方法)脉冲编码调制(PCM),实际为直接对声音信号作A/D转换。
只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。
PCM是概念上最简单、理论上最完善的编码系统,是最早研制成功的使用最为广泛的编码系统,但也是数据量最大的编码系统。
编码原理:输入为模拟声音,输出为PCM样本。
防失真滤波器是一个低通滤波器,用来滤除声音频带以外的信号;波形编码器可暂时理解为采样器;量化器可理解为“量化阶大小”生成器。
PCM的量化方式:均匀量化与非均匀量化自适应增量调制(ADM): CVSD(连续可变斜率增量调制):如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。
自适应脉冲编码调制(APCM):根据输入信号幅度大小来改变量化增量大小的一种波形编码技术。
差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。
是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。
编码思想:根据过去的样本去估算下一个信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数,降低传送或存储的数据量。
如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始话音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差值。
自适应差分编码调制(ADPCM),是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。
增量调制(DM):是一种预测编码技术,是PCM编码的一种变形。
DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成0或1这两种可能的取值之一。
如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。
DM 编码系统又称为“1位系统”。
自适应差分脉冲编码调制(ADPCM ):综合了APCM 的自适应特性和DPCM 的差分特性,是一种性能比较好的波形编码。
其核心思想:1)利用自适应的思想改变量化阶的大小,即使用小(大)的量化阶去编码小(大)的差值;2)使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
8.什么是均匀量化与非均匀量化?均匀量化:采用相等的量化间隔对采样得到的信号作量化;即采用“等分尺”来度量。
线性量化非均匀量化:对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔;即非线性量化。
(非均匀量化是在满足精度要求的情况下用较少的位数来表示。
)9.什么是斜率过载,粒状噪声?斜率过载:在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化。
在输入信号变化快的区域,斜率过载是关心的焦点。
粒状噪声:在输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变得0和1。
在输入信号变化慢的区域,粒状噪声是关心的焦点。
(当输入信号的变化速度超过反馈回路输出信号的最大变化速度时,就会出现斜率过载。
因为量化阶的大小是固定的。
)第三章1.信息熵概念,计算,意义概念:信息熵:——将信源所有可能事件的信息量进行平均。
计算:即 H(信息熵) = -∑ Pi log2(Pi)其中,pi 是第i 个事件出现的概率。
实际上,信息熵是编码所有符号平均所需的二进制位数。
例如:以信源X 中有8个随机事件,即n=8。
每一个随机事件的概率都相等,即P(x1)=P(x2)=P(x3)……P(x8) ,计算信源X 的熵。
• 即P(x1)=P(x2)=P(x3)……P(x8)=1/8 ,计算信源X 的熵。
应用"熵"的定义可得其平均信息量为3比特意义:信息熵是数据压缩的理论极限!例如:40个像素组成的灰度图象,灰度为5级,ABCDE ,出现每个灰度的像素个数不同,为:15、7、7、6、5,该图象的熵为多少?解:∑=i i i p p S H 1log )(2H(s)=(15/40)log2(40/15)+2*(7/40)log2(40/7)+(6/40)log2(40/6)+(5/40)log2(40/5)=2.196;40个像素需40×2.196=87.84位如果每个像素用三个位表示5个等级的灰度值,那么编码这个图像共需要120位!2.掌握香浓范诺,霍夫曼,算术,行程,LZ77,LZSS编码算术编码:编码的局限性:使用整数个二进制位对符号进行编码,达不到最优的压缩效果。
举例:-log2(0.8) = 0.322算术编码思想:将整个信源→[0,1)中的一个实数行程编码:它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。
例如:RTTTTTTTTABBCDG →R#8TABBCDG,其中“#”为转义字符,表明其后所跟的字符表示长度。
行程编码多用于黑白二值图像的压缩中。
3.了解5种信息冗余的形式:信息冗余:空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余等空间冗余任一幅图像中,均有由许多灰度或颜色都相同的邻近像素组成的区域,它们形成了一个性质相同的集合块,即存在着空间连贯性,在图像中表现为空间冗余。
时间冗余运动图像一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以前、后帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。
视觉冗余人类的视觉系统并不能对图像画面的任何变化都能感觉到,视觉系统对图像场的注意是非均匀和非线性的,即主要部分质量,同时取画面的整体效果,不拘泥于每一个细节,因而存在着视觉冗余。
结构冗余在有些图像的纹理区,图像的像素值存在着明显的分布模式,例如,方格状的板图案等,我们称此为结构冗余。
知识冗余有些图像的理解与某些知识有很大的关联性。
例如,狗有四条腿,头部有眼、鼻、耳朵,有尾巴等。
这类规律性的结构由先验知识和背景知识得到,我们称此类冗余为知识冗余。
4.了解无损压缩与有损压缩(分类)无损编码:此种方法的解码图像与原始图像严格相同。
压缩比一般在2:1 ~ 5:1之间;编码方法有:香农-范诺编码、霍夫曼编码、算术编码、行程长度编码、词典编码等。
有损编码:此种方法的解码图像与原始图像存在一定的误差,但视觉效果一般可以接受。
压缩比在几倍~上百倍之间;编码方法有:变换编码、预测编码。
第四章1.颜色的三要素:色调,饱和度,亮度色调(hue):色调反映颜色的类别,如红色、绿色、蓝色等。
色调大致对应光谱分布中的主波长。
饱和度:饱和度是指彩色光所呈现颜色的深浅或纯洁程度。
对于同一色调的彩色光,其饱和度越高,颜色就越深,或越纯;而饱和度越小,颜色就越浅,或纯度越低。
亮度:亮度是光作用于人眼时引起的明亮程度的感觉。
是视觉系统对可见物体辐射或者发光多少的感知属性。