第3章多媒体数据【本章要点】【核心概念】3.1 多媒体数据类型3.1.1 文字3.1.2 音频3.1.3 视觉媒体3.1.4 动画3.2 多媒体数据的描述3.2.1 静态图像文件3.2.2 动态图像文件3.2.3 音频文件第4章多媒体数据压缩技术【本章要点】【核心概念】4.1 数据压缩基本原理4.1.1信息、数据和编码4.1.2数据压缩的条件4.1.3数据冗余4.2 数据压缩算法4.2.1数据压缩算法的分类4.2.2预测编码4.2.3变换编码4.2.4统计编码原理4.2.5LZW压缩编码4.3 音频信号的压缩编码4.3.1音频信号编码基础4.3.2音频信号的压缩编码算法4.3.3音频信号压缩编码标准及评估4.4 视频信号的压缩编码4.4.1彩色空间和变换4.4.2 JPEG静止图象压缩算法4.4.3 MPEG运动图像压缩算法第3章多媒体数据【本章要点】本章主要介绍了文字、音频、视觉媒体、动画四种多媒体数据类型,另外从静态图像文件、动态图像文件以及音频文件三个方面对多媒体数据进行了详细的描述。
为今后各章的学习打好理论基础。
【核心概念】文字音频视觉媒体动画单色图像彩色图像模拟信号数字信号3.1 多媒体数据类型3.1.1 文字文字是人与计算机之间进行信息交换的主要媒体。
在计算机发展的早期,比较实用的终端为一般文字终端,在屏幕上显示的都是文字信息。
由于人们在现实生活中用语言进行交流,所以开始时文字终端比较流行,但是后来出现了图形、图像、声音等媒体,这样也就相应地出现了多种终端设备。
在现实世界中,文字是人们进行通信的主要形式,文字包括西文与中文。
在计算机中,文字用二进制编码表示,即使用不同的二进制编码来代表不同的文字。
1.西文在计算机中,西文采用ASCII码表示。
ASCII是美国信息交换标准代码(American Standard Code for Information Interchange)的英文缩写。
它是一个由7个二进制位组成的字符编码系统,包括大小写字母、标点符号、阿拉伯数字、数学符号、控制字符等128个字符。
目前,ASCII码已在计算机领域中得到了最广泛的应用。
例如,字符A的ASCII码值为065;字符B的为066;字符C的为067。
2.中文(1)中文的输入编码中文与西文不同,因此为了能直接使用西文标准键盘把汉字输入到计算机,就必须为中文汉字设计相应的输入编码方法。
当前采用的方法主要有以下3类:①数字编码常用的是国标区位码,用数字串代表一个中文汉字输入。
区位码是将国家标准局公布的6763个两级汉字分为94个区,每个区分为94位,实际上是把汉字表示成二维数组,每个汉字在数组中的下标就是区位码。
区码和位码各两位十进制数字,因此输入一个汉字需按键4次。
例如“中”字位于第54区48位,区位码为5448。
数字编码输入的优点是无重码,且输入码与内部编码的转换比较方便,缺点是代码难记忆。
②拼音码拼音码是以汉语拼音为基础的输人方法,凡掌握汉语拼音的人,不需训练和记忆,即可使用。
但是汉字同音字太多,输人重码率很高,因此按拼音输入后还必须进行同音字选择,影响了输人速度。
③字型编码字型编码是用汉字的形状来进行的编码。
汉字总数虽多,但是由笔画组成,全部汉字的部件和笔画是有限的。
因此,把汉字的笔画部件用字母或数字进行编码,按笔画的顺序依次输入,就能表示一个汉字。
例如,五笔字型编码是最有影响的一种字型编码方法。
除了上述3种编码方法外,为了加快输入速度,在上述方法基础上,发展了词组输入、联想输人等多种快速输人方法,但都利用了键盘进行“手动”输入。
理想的输人方式是利用语音或图像识别技术“自动”将拼音或文本输入到计算机内,使计算机能认识汉字,听懂汉语,并将其转换为机内代码表示。
目前这种理想已经成为现实。
(2)汉字内码汉字内码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。
英文字符的机内代码是七位的ASCII码,当用一个字节表示时,最高位为“0”。
为了与英文字符能相互区别,汉字机内代码中两个字节的最高位均规定为“l”。
例如汉字操作系统CCDOS中使用的汉字内码就是一种最高位为“l”的两字节内码。
有些系统中字节的最高位用于奇偶校验位,这种情况下用3个字节表示汉字内码。
(3)汉字字模码字模码是用点阵表示的汉字字形代码,它是汉字的输出形式。
根据汉字输出的要求不同,点阵的多少也不同。
简易汉字为 16×16点阵,提高型汉字为24×24点阵、32×32点阵,甚至更高。
因此字模点阵的信息量很大,所占的存储空间也很大。
以16×16点阵为例,每个汉字要占用32B,国标两级汉字要占用256KB。
因此字模点阵只能用来构成汉字库,而不能用于机内存储。
字库中存储了每个汉字的点阵代码。
当显示输出或打印输出时才检索字库,输出字模点阵,得到字形。
汉字的输人编码、汉字内码、字模码是计算机中用于输人、内部处理、输出3种不同用途的编码,不要混为一谈。
汉字的数目很多,常用的汉字就有几千个。
现在常用的汉字可用2B表示,而要表示更多的汉字时,还要用更多的字节。
在中国使用计算机,汉字是必须考虑的。
3.1.2 音频音频(Audio)指的是20HZ~20kHz的频率范围,但实际上“音频”常常被作为“音频信号”或“声音”的同义语,是属于听觉类媒体,主要分为波形声音、语音和音乐。
●波形声音所谓波形声音,实际上包含了所有的声音形式。
因为在计算机中,任何声音信号都要首先对其进行数字化(可以把麦克风、磁带录音、无线电和电视广播、光盘等各种声源所产生的声音进行数字化转换),并恰当地恢复出来。
●语音所谓语音是这样的含义,人的声音不仅是一种波形,而且还有内在的语言、语音学的内涵,可以利用特殊的方法进行抽取,通常把它也作为一种媒体。
●音乐音乐是符号化了的声音,这种符号就是乐曲。
MIDI是十分规范的一种形式。
声音具有音调、音强、音色3要素。
音调与频率有关,音强与幅度有关,音色由混入基音的泛音所决定的。
没有时间也就没有声音,声音数据具有很强的前后相关性,数据量大、实时性强,又由于声音是连续的,所以通常将其称为连续型时基媒体类型。
1.数字音频数字音频是指音频信号用一系列的数字表示,其特点是保真度好、动态范围大。
在计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。
在这一处理技术中,要考虑采样、量化和编码的问题。
一个音频信号转换成在计算机中的表示过程如下:①选择采样频率,进行采样;②选择分辨率,进行量化;③形成声音文件,如图3-1所示。
(1)采样(Sampling)采样有时也称为数字化,其作用是把时间上连续的信号,变成在时间上不连续的信号序列。
声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。
连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采样(uniform sampling);连续幅度的离散化通过量化(quantization)来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。
图3-2表示了声音数字化的概念。
根据采样定理,采样的频率至少高于信号最高频率的2倍。
采样的频率越高,声音“回放”出来的质量也越高,但是要求的存储容量也就越大。
在多媒体中,对于音频,最常用的有 3种采样频率,即44.1kHz、22 .05kHz和11.025kHz,其中,22.05kHz和 44.1kHz是最常采用的频率。
图3-1 音频信号处理过程图3-2 声音的采样和量化(2)分辨率音频的另一个指标是“分辨率”,它是指把采样所得的值(通常为反映某一瞬间声波幅度的电压值)数字化,即用二进制来进示模拟量,进而实现模数转换。
显然,用来表示一个电压模拟值的二进数位越多,其分辨率也越高。
国际标准的语音编码采用8b,即可有256个量化级。
在多媒体中,对于音频、分辨率(量化的位数)可采用16b,对应有65536个量化级。
(3)声音文件一般说来,要求声音的质量越高,则量化级数和采样频率也越高,为了保存这一段声音的相应的文件也就越大,就是要求的存储空间越大。
表3-1给出了采样频率、分辨率与所要求的文件大小的对应关系。
声音通道的个数表明声音记录是只产生一个波形(单声道)还是产生两个波形(立体声双声道)。
立体声的声音有空间感,但需要两倍的存储空间。
对于单声道,计算数字录音文件大小的公式为:S= RD(r/8)×1其中,S表示文件大小,单位为B;R表示采样速率,也可叫采样频率,单位为kHz;D表示录音的时间,单位为s;r表示分辨率,单位为二进制位(b),如8b、16b等。
式中的数字1表示对应的单声道。
公式中的“除8”是为了把二进制位换算成以字节作为单位,一个字节等于8个二进制位。
表3-1 采样速率、分辨率与存储空间的关系采样速率/kHz 分辨率/b 立体声或单声道1min所需字节/MB44.1 16 立体声10.544.1 16 单声道 5.2544.1 8 立体声 5.2544.1 8 单声道 2.622.05 16 立体声 5.2522.05 16 单声道 2.522.05 8 立体声 2.622.05 8 单声道 1.3对立体声,计算数字录音文件大小的公式与单声道的情况类似(仍以B为单位):S= RD(r/8)×2其中各符号的含义与上式相同,唯一不同的是乘以数字2,表示对应立体声,也就是说,立体声的文件大小为单声道的两倍。
例如,如果采样速率为44.1kHz、分辨率为16b、立体声,上述条件符合CD质量的红皮书音频标准,消费者级的音频压缩盘即按此录制,录音的时间长度为10s的清况下,文件的大小S为:S=(44100×10×16/8)×2=1764KB对音频的数字化来说,在相同条件下,立体声比单声道占的空间大;分辨率越高,占的空间越大;采样速率越高,占的空间越大。
总之,对于音频的数字化要占用很大的空间,因此,对音频数字化信号进行压缩是十分必要的。
在多媒体技术中,存储声音信息的常用文件格式主要有WAV文件、VOC文件、MIDI文件、AIF文件、SNO文件和RMI文件等。
① WAV文件WAV是Microsoft公司的音频文件格式。
利用 Microsoft Sound System软件Sond Finder可以将AIF、SND和VOD文件转换到WAV格式。
WAV文件来源于对声音模拟波形的采样。
用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(8b或16b)把这些采样点的值转换成二进制数,然后存人磁盘,这就产生了声音的WAV文件,即波形文件。