当前位置:文档之家› 西文字符编码与汉字编码

西文字符编码与汉字编码


⑶汉字的内码:是汉字在计算机内部存储、处理的代码。英文字符的 机内码是最高位为0的8位ASCⅡ码,而汉字字符的机内码是两个字节 的最高位都为1的ASCⅡ码。即将国标码的每字节最高位置1作为汉字 机内码。公式为:
区位码+2020H=国标码
国标码+8080H=机内码
或:区位码+A0A0H=机内码
例如:汉字“中”的区位码是3630H,它的国标码是(5650H),机内 码是( D6D0H )。
(二)、汉字编码:
对汉字进行编码是为了使电脑能够识别并 处理汉字,在汉字处理的各个环节中,由 于要求不同,采用的编码也不同。
汉字输入过程:
输入码
汉 字 输 入
国标码
机内码
地址码
字形码 汉 字 输 出
汉字的输入码
汉字的输入码:是为用户能利用西文键盘 输入汉字而设计的编码。主要有以下四种:
①数字编码:如电报码、区位码。 ②字音编码:如双拼、全拼输入方案。 ③字形编码:如五笔字形码、表形码。
3、比较以下两个ASCII值的大小: “0”___“S” “3”___“8”
“A”___“C”
“A”___“a”
4、每一个点在存储器中用____个二进制位(bit)
存储,所以一个16×16点阵汉字需要____个字节存储
空间。
二、计算题:
1、“啊”汉字的区位码为1601,求这汉字的国标码和
机内码。
2、已知某汉字区号34,位号56,求某汉字的国标码和
机内码。
汉字机内码每个字节的最高位均是1,而西文字符机内码(ASCII)的 最高位是0
汉字字形码
汉字字形码(输出码)(字模) 汉字的输出码:提供输出汉字时的需要的汉字字形,用
以将机内码还原为汉字进行输出。汉字字形码是一种汉 字字模点阵的二进制码,是汉字的输出码。 我国已颁布了16×16、24×24、32×32和48×48点阵的 字模标准。汉字显示一般用16×16的点阵,而24×24以 上的点阵一般用于打印。 点阵越大精度越高所需要的存储单元越多打印出的字也 越清析。 N个汉字点阵为a×b共需要多少存储空间M:(N*A*B)/8
版本:7位版本(使用了一个字节中的7位,最高位置0, 数值范围从0000000~1111111,即0~127,共计 128个字符。
ASCII码对照表:
ξ1.2西文字符编码与汉字编码 一、ASCII
128个字符包括: (一)、 94个可显示打印字符。 码值范围:33~126 数字0~9:(48~57)——————— 10个 大写英文字母A~Z:(65~90)————26个 小写英文字母a~z:(97~122)———26个 标点符号和运算符号———————— 32个 (二)、34个不可显示字符。 码值范围:0~32,127 控制字符:空格:32 DEL:127 课堂提问:ASCII的大小顺序是怎样的?
ξ1.2西文字符编码与汉字编码 一、ASCII
ASCII的大小规则:控制字符<数字<大写字母<小写字母
同个字母大写+32 →小写字母
课堂练习:指出A,3,y,Y,空格的ASCⅡ码值大小顺序? 答:空格<3<A<Y<y
空格:32
0:48 → 3:51
A:65
Z:90 → Y:89
↓ +32 y:121
区位码:使用了两个字节,最高位均置0
128×128=
94×94=8836
16384 区位码是把7445个国标码放置在一个94行×94
列的阵列中。阵列的每一行称为一个汉字的“区”,
用区号表示;每一列称为一个汉字的“位”,用位
号表示。显然,区号范围是1~94,位号的范围也是
1~94。这样,一个汉字在表中的位置可用它所在的
ξ1.2西文字符编码与汉字编码 二、汉字编码
汉字编码种类:
1、国标码
2、区位码
3、机内码
音码:全拼、双拼、微软拼音 形码:如五笔如智能ABC、自然码
5、汉字地址码
数字码:如区位码、电报码
6、字型码
外码(输入)→内码→字型码(输出)
ξ1.2西文字符编码与汉字编码 二、汉字编码
我国于1980年颁布了《信息交换用汉字编码字符
集·基本集》,简称GB2312-80码 (国标码)。
汉字编码表
非汉字图形字符 682个
7445个
一级 3755个——汉语拼音排序
汉字 6763个
二级 3008个——偏旁部首排序 课堂提问:可以用一个字节来存放汉字编码吗?
ξ1.2西文字符编码与汉字编码 二、汉字编码
区号与位号来确定。一个汉字的区号与位号的组合
就是该汉字的“区位码”。区位码的形式是:高两
位为区号,低两位为位号。
ξ1.2西文字符编码与汉字编码 二、汉字编码
区位码:实际上也是一种汉字输入码。
实际上只用了87×94=8178个编码。其中682个 图形符号,分布在1~15区;一级汉字分布在16~55 区;二级汉字(不常用汉字) 分布在56~87区;88区 以后为空白区,以待扩展。
一、填空题: 1、ASCII码是____位二进制字符编码,是___
_______的缩写,共有__个不同的字符编码,其 中包括10个阿拉伯数字、___个英文大小写字母、__ _个符号和运算符以及___个控制符,____符是不 能显示的,其余95个是可显示(打印)的ASCII码。
2、GB2312,简称______,共收纳___个汉字, 其中一级汉字有___个,二级汉字有____个,并且 一级汉字按_______顺序排列,二级汉字按___ ____排列。根据GB2312的编码方法,把该码分成__ _个区,每个区分成___个码位。
授课内容:西文字符编码与汉字编码
ξ1.2西文字符编码与汉字编码
编码 定义:用二进制数0、1的不同组合
来表示特定的信息。
ξ1.2西文字符编码与汉字编码 一、ASCII(西文字符编码)
全称:美国标准信息交换代码(American Standard Code for Information Interchange)
④音形编码:根据语音和字形双重因素确 定的输入码。
国标码
(1)汉字信息交换码:国家标准汉字编码简称国标码,主要用于不 同系统之间汉字信息的存储与交换。GB2312-80编码集规定了计算机 使用汉字和图形符号总数为7445个。
(2)一个汉字的编码由两个字节组成,第一个字节称为“区”,第 二个字节称为“位”,这就是区位码。国标码最多可组成94区×94位, 组成一个94×94的矩阵。 在此方阵中,每一行称为一个“区”,每 一列称为一个“位”。 共收录了汉字和图形符号7445个,每个汉字 用两个字节表示。汉字分为两级:一级汉字3755个,按汉语拼音字母 排列;二级汉字3008个,按部首排列;非汉字字符682个。
优点:无重码 缺点:难以记忆
ξ1.2西文字符编码与汉字编码 二、汉字编码
区位码:4位十进制数,编码范围从0101~ 国94标94码:国标GB2312-80中规定,所有汉字和字
符的每个字节的编码范围与ASCII码表中的94个字 符编码相一致(即从33~126),所以,其编码范 围是:2121H~7E7EH。国标码是十六进制数。 所以:
国标码、机内码、区位码的相互转换: 第一步:将区位码转换成十六进制数 第二步:根据公式转换:
国标码=区位码+2020H 机内码=国标码+8080H
机内码=区位码+A0A0H
课堂练习:以汉字“大”为例,在区位码表中查询 其
解:1、区其位区码位,码然为后2求08其3,国即标区码号和为机2内0码,。位号为83 2、将区位号2083转换为十六进制表示为1453H 3、国标码=1453H+2020H=3473H 4、机内码=3473H+8080H=B4F3H
机内国码标:码以=上区两位种码编+码20均2与0HASCII冲突。机内码将 国标码两个字节的最高位均置1,从而避免了与 ASCII的冲突。其每个字节从161~254。它也是 十六进制数。所以,其编码范围是:A1A1H~ FEFEH。
机内码=国标码+8080H
ξ1.2西文字符编码与汉字编码 二、汉字编码
ξ1.2西文字符编码与汉字编码
作业:
1、已知大写字母D的ASCII码为68,那么小写字 母d的ASCII码为?
2、F的ASCII码是46H,则f的ASCII是? 3、无论采用拼音输入法,还是五笔字型输入法
输入汉字,存储到计算机内部的一律是汉字 的? 4、已知“江苏”两字的区位码是“2913”和 “4353”, 求其国标码和机内码。
相关主题