当前位置:文档之家› 第五章数字媒体及应用考点分析

第五章数字媒体及应用考点分析

第 5 章数字媒体及应用★考核知识要点、重点、难点精解★考点: 1 西文与汉字的编码1 .西文字符的编码在计算机中用于表示字符的二进制编码称为字符编码。

目前,国际上使用最多、最普遍的字符编码是ASCII 字符编码。

ASCII 码的全称是“American Standard Code for Information Interchange " ,译为:美国国家信息交换标准字符码。

标准ASCII 码是7 位的编码,可以表示27 = 128 个不同的字符,每个字符都有其不同的ASCII 码值,它们的编码范围是0000000B ~1111111B ( 00H ~ 7FH )。

并且,这128 个字符共分为3 类,分别是:( l )数字0 ~ 9 ;( 2 ) 26 个大写英文字母和26 个小写英文字母;( 3 )各种运算符号、标点符号和控制符号等。

其中,数字、大写字母、小写字母都是按照它们的自然顺序进行排列,且小写字母的ASCII 码值比其相应的大写字母的ASCII 码值大32 。

例如:大写字母D 的ASCII 码值是68 ,小写字母 d 的ASCII 码值=68 + 32 = 100 。

注意虽然标准ASCII 码是7 位的编码,但由于字节是计算机中最基本的存储和处理单位,故一般仍以一个字节来存放一个ASCII 字符.每个字节中多余出来的一位(最高位b7 ),在计算机内部通常保持为“0”,而在数据传输时和用作奇偶校验位。

扩充ASCII码是8 位,每个ASCII 码字符集分别可以扩充128 个字符,这些扩充字符的编码均为高位为 1 的8 位代码(十进制指数128 ~255 ),称为扩展ASCII码。

2 .汉字的编码( 1 ) GB2312 - 1980 汉字编码①国标码为了适应计算机处理汉字信息的需要,1981 年我国颁布了《信息交换用汉字编码字符集·基本集》(GB2312 - 80 )。

简称国标码,又称汉字交换码。

该标准选出6763 个常用汉字和682 个非汉字字符,为每个字符规定了标准代码,以便在不同计算机系统中间进行汉字文本的交换。

GB2312 国际字符集由三部分组成。

第一部分是字母、数字和各种符号,包括拉丁文字母、俄文、日文平假名、希腊字母、汉语拼音等共682 个(统称为GB2312 图形符号);第二部分为一级常用汉字,共3755 个,按汉语拼音排列;第三部分为二级常用字,共3008 个,因不太常用,所以按偏旁部首排列。

②区位码在国标码中,所有的常用汉字和图形符号组成了一个94 行94 列的矩阵。

每一行的行号称为“区号”,每一列的列号称为“位号”。

区号和位号都由两个十进制数表示,区号编号是01 ~ 94 ,位号的编号也是01~94 。

由区号和位号组成的四位十进制编码被称为该汉字的“区位码”, 其中区号在前,位号在后,并且每一个区位码对应惟一的汉字,例如:汉字“啊”的区位码是" 1601 " ,表示汉字“啊”位于16 区的01 位。

③机内码区位码中,区号和位号各需要7 个二进位才能表示。

每个汉字的区号和位号分别使用 1 个字节来表示,且都从33 开始编号(33 ~126 ),字节的最高位规定均为1 。

这种高位均为1 的双字节(16 位)汉字编码就称为GB2312 汉字的“机内码”,又称内码。

目前PC 机中GB2312 汉字的表示都是这种方式。

注意(1)GB2312 国际字符集与区位码转换关系为:将区位码转换成GB2312 国际字符集的方法如下:①将十进制的区号和位号分别转换成十六进制;②将转换成十六进制的区号和位号分别加上20H ;③将分别加上20H 的区号和位号组合,得到GB2312 国际字符集。

( 2 ) 汉字内码是由汉字的国标码加上8080H 形成,即汉字内码=国标码+8080H【举例】汉字“灯”的区位码是2138 ,求其国标码。

【分析】①汉字“灯”的区号是21 ,位号是38 ,转换成十六进制分别是15H 、26H 。

②将转换成十六进制的区号和位号分别加上20H ,得到15H + 20H = 35H ; 26H + 20H = 46H 。

③因此,汉字“灯”的国标码是:3546H 。

( 2 ) GBK 汉字内码扩充规范GBK 是我国1995 年发布的又一个汉字编码标准,全称为《汉字内码扩展规范》。

它一共有21003 个汉字和883 个图形符号,与GB2312 国标汉字字符集及其内码保持兼容,另外收录了繁体字和很多生僻的汉字。

GBK 字符集中的每一个汉字和图形符号也都采用双字节表示,总的编码范围为8140~FEFE ,首字节在81 ~ FE 之间,尾字节在40 ~ FE 之间(剔除xx7F 一条线不安排字符),总计23940 个码位,共收人21886 个汉字和图形符号,未使用的区域作为用户自定义区。

( 3 ) GB18030 一2000 编码信息产业部和国家质量技术监督局在2000 年联合发布了GB18030 一2000 汉字编码国家标准,并在2001 年开始执行。

GB18030 一2000 编码标准在GB2312 和GBK 的基础上进行了扩充,它增加了4 字节的编码,使码位总数达到160 多万个。

所包含的汉字数目也增加到27000 多个,包括全部中日韩(CJK )统一汉字字符集和CJK 汉字扩充A 和扩充B 中的所有字符。

( 4 )汉字字型码汉字字型码又称汉字输出码,是用于显示或打印输出汉字的汉字编码。

汉字的字型通常用点阵的方式来表示的。

由于不同字体的汉字有不同的要求,因此汉字的点阵也有所不同。

汉字点阵可有16x16 点阵、24x24 点阵、32x32 点阵、……、128xl28 点阵、256x256 点阵等。

点阵越大,字型质量越高,同时所占用的存储空间也越大。

对于NxN 点阵的字型码而言,一个汉字的每一行有N 个点,每一列也有N 个点,由于一个字节占用8 个二进制位,因此每一行所占用的空间是:N ÷8 字节,一个汉字所占用的空间是:Nx ( N ÷8 )字节。

【举例】16xl6 点阵的字型码,每个汉字所占用的字节数=16xl6 ÷8 = 32 。

24x24 点阵的字型码,每个汉字所占用的字节数=24x24 ÷8 = 72 。

32x32 点阵的字型码,每个汉字所占用的字节数=32x32 ÷8 = 128 。

★考点 2 :数字文本的制作与编辑1 .文本准备( l )汉字键盘输入汉字的键盘输入编码方案有几百种之多,能够被广泛接受的编码方案应具有卜列特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。

汉字输入编码大体分为 4 种,分别是:①数字编码,这是使用一串数字来表示汉字的编码方法,它们难以记忆,很少使用。

②字音编码,这是一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。

③字形编码,不易掌握。

④音形编混合码,它吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,但掌握起来也不容易。

汉字的输入编码与汉字的内码是不同范畴的概念,不能把它们混淆起来。

使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。

( 2 ) 联机手写汉字识别(笔输入)联机手写汉字识别输入法以平常书写的习惯,把要输入的汉字写在一块叫“书写板”的设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间顺序采样后发送到计算机中,由计算机软件自动进行识别,然后用该汉字(或符号)对应的代码进行保存。

( 3 ) 汉语语音识别输入( 4 ) 印刷体汉字识别(汉字OCR )输入印刷体汉字识别是将印刷或打印在纸上的中西文字输入计算机并经过识别转换为编码表示的一种技术,也叫做汉字OCR ( Optical Character Recognition )。

( 5 )脱机手写汉字识别输入2 .文本分类与表示文本是计算机表示文字及符号信息的一种数字媒体。

使用计算机制作的数字文本有多种不同的类型:( l ) 根据它们是否具有编辑排版格式来分,可分为简单文本(纯文本)和丰富格式文本两大类。

简单文本呈现为一种线性结构,写作和阅读均按顺序进行。

经过排版处理后,纯文本中就增加了许多格式控制和结构说明信息,称为“丰富格式文本”。

( 2 ) 根据文本内容的组织方式来分,可以分为线性文本和超文本两大类。

传统的纸质文本其内容的组织是线性(顺序)的,因而读者总是按顺序先读第 1 页(从第一行读到最后一行),再读第 2 页、第3 页……,这就是线性文本。

超文本(hypertext )概念是对传统文本的一个扩展。

除了传统的顺序阅读方式之外,它还可以通过链接、跳转、导航、回溯等操作,实现对文本内容更为方便的访问。

超文本采用网状结构来组织信息,一个超文本由若干文本块组成,每个文本块中包含了一些指向其他文本块的指针,用于实现文本阅读时的快速跳转。

这些指针称为超链(hyperlink )。

超链是有向的,起点位置称为链源(HTML 文档中称为锚);目的地(目标)称为链宿,它可以是文本块(本机或者网络中其他计算机的一个文件或者程序),也可以是文本块的同一部分。

文本块可以是文字,也可以是图形、图像甚至声音或视频,这就把超文本推广到了多媒体的形式,所以有时也称为“超媒体”( hypermedia )。

( 3) 根据文本内容是否变化和如何变化来分,可分为静态文本、动态文本和主动文本三类。

①静态文本一般情况下用得最多的是静态Web 文本,静态文本的每次访问都返回相同结果。

静态文本的优点在于它简单、可靠、访问速度快。

它的主要缺点是不灵活,一旦内容变化,就必须人工修改文档,不适合内容频繁变化的应用场合。

②动态文本动态Web 文档的内容是在浏览器访问Web 服务器时由服务器创建的,文档的内容是变化的,它能向用户提供最新的信息。

从浏览器的角度来看,动态文档和静态文档并无区别,它们都采用HTML 编写,采用同样的方法进行访问,浏览器不知道(也不需要知道)服务器是从磁盘文件还是从计算机程序取得文档的。

动态文档的创建比静态文档复杂,动态文档的创建者需使用脚本语言如VBScript 、Javascript 及CGI 、ASP 等编写程序,并使用SQL 查询语言通过ODBC 、ADO 等接口访问数据库。

浏览器访问动态文档需要的时间也会稍长一些,因为服务器需要额外的时间去运行程序创建文档。

动态文档的一个主要缺点是不能显示变化着的信息。

与静态文档类似,动态文档在浏览器取得文档后内容不会再改变,因而文档很快就开始过时。

③主动文档相对于动态文档的优点是它能够访问信息源并连续地更新文档内容。

相关主题