当前位置:文档之家› 最新字符编码(略看)讲课稿

最新字符编码(略看)讲课稿

码扩展规范》GBK字符集中一共有21003个汉字 和883个图形符号,它与GB2312国标汉字字符 集及其内码保持兼容。
组成:共收入21886个汉字和图形符号 (21003个汉字,883个图形符号)
18
文字的表示及处理
GBK汉字内码扩充规 范
GBK编码区分三个部分: ▪ 汉字区(21003个汉字)、图形符号区、用户自定 义区 ▪ GBK每一个字符都采用双字节表示
例如: “大”字的区号20,位号83 区位码:20 83
二进制表示为:00010100 01010011
国标交换码:52 115 (+32) 二进制表示为:00110100 01110011
15
文字的表示及处理
1.GB2312-80汉字编 码机内码:
问题:文本中的汉字与西文字符经常是混合在 一起使用的,汉字信息如不予以特别的标识, 它与单字节的标准ASCII码就会混淆不清。

13
文字的表示及处理
1.GB2312-80汉字编 码国标交换码 (国标码):
问题:信息通信中,汉字的区位码与通信 使用的控制码(00H~1FH)发生冲突。
解决方案:为了避免汉字区位码与通信控 制码的冲突,每个汉字的区号和位号必须 分别加上32。得到的代码称为汉字的“国 标交换码”
14
文字的表示及处理
位号
1 2 3 ……………… 94 1
字母、数字和各种符号 9
16
(按汉语拼音排列)
一级汉字
…… ……

(3755个)
号 55
56
(按偏旁部首排列)
二级汉字
(3008个) 87
(扩充使用) 94
共6763个汉字和 682个符号,每个 汉字或符号都有一 个确定位置,该位 置的区号和位号就 是这个汉字的“区 位码”
二进制表示为:00110100 01110011
机内码:180 243 (+128)
二 进 制 表 示 为 : 10110100 11110011
(B4F3)
17
文字的表示及处理
2.GBK汉字内码扩展规范
问题:GB2312-80只有6763个汉字,使 用时功能不够。
解决方法:1995年发布GBK,全称为《汉字内
Unicode:统一码或联合码,与UCS完全 等同的工业标准 优点:编码空间极大(4个字节),能容纳足 够多的各种字符集(13亿字符)
b3b2b1b0
0 1 2 3 4 5 6 7 8 9 A BC D E F
b6b5b4
0
控制字符
1
2
3
4
5
6
7
4
文字的表示及处理
b6bb53bb42b10b0 1 2 3 4 5 6 7 8 9制字符
1
2
3
4
5
6
7
5
文字的表示及处理
每个字符用标准规定的7位二进制数表示, 在机内占一个字节(最高位为0)。
总体编码范围为:8140H—FEFEH,共23940个码位; 首字节范围:81H—FEH(二进制最高位为1); 尾字节范围:40H—FEH(二进制最高位可以为0或1);
19
文字的表示及处理
3.UCS/Unicode汉字编码
目的:统一的多文本处理环境,实现所有字符 在同一字符集中统一编码 途径:UCS:ISO/IEC 10646 (通用多8位编码 字符集)
9
文字的表示及处理
(2)第二部分:一级常用汉字,共3755个, 按汉语拼音排列
(3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列
汉字共6763个 字符共7445个
10
文字的表示及处理
1.GB2312-80汉字编

GB2312-80字符集
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
11
文字的表示及处理
1.GB2312-80汉字编 码 区位码: GB2312-80是一个二维代 码表,有94行、94列, 汉字在代码表中 的位置用它所处的行号、列号表示。
行号 区号 列号 位号
12
文字的表示及处理
例如:
“大”字的区号20,位号83,
区位码是20 83
83列
用2个字节表示为:
00010100 01010011 20行
字符编码(略看)
文字的表示及处理
一、西文字符编码
1. ASCII码 ASCII码,即美国标准信息交换码
(American Standard Code for Information
Interchange),使用7个二进位对字符进行编 码。
2
文字的表示及处理
❖ 基本的ASCII字符集共有128个字符
2.会推算同组字符ASCII码值 如A的ASCII值(十进制)为65,则B、C… 的ASCII值分别为66、67…
7
文字的表示及处理
2.EBCDIC码
定义方式: 用8位二进制数位表示一个字符的扩充
二-十进制 交换码. 特点: 每个字符对应一个字节,共256种 说明: 有很多编码没有使用,保留做为扩充
8
文字的表示及处理
二、汉字编码
1.GB2312-80汉字编 码1981年,国家标准局颁布了《信息交换用汉字编
码字符集-基本集》(GB2312-80) (国标码)。
组成:
(1)第一部分:字母、数字和各种符号,包 括拉丁字母、俄文、日文平假名与片假名、希 腊字母、汉语拼音等共682个(统称为GB2312 图形符号)
解决方法:使表示GB2312汉字的两个字节的 最高位(b7)都置为“1”。这种汉字编码,称为 GB2312汉字的“机内码” 。
16
文字的表示及处理
区位码 + 32 = 国标码
例如:“大”字 区位码:20 83
国标码+128 = 机内码
二进制表示为:00010100 01010011
国标交换码:52 115 (+32)
如: 字符“A”的ASCII码为:
(01000001)2 或(65)10、(101)8、 (41)16
字符“0”的ASCII码为:
(00110000)2 或(48)10、(60)8、(30)16
6
文字的表示及处理
要求:
1.会比较ASCII字符的大小(按其ASCII码值) 空格<0~9<A ~Z <a~z
95个可打印字符(常用字母、数字、标点符号) 33个控制字符(不可直接显示或打印)
❖ 特殊字符的ASCII码 空格(32)、A(65)、a(97)、0(48)
下面为ASCII代码表:
3
文字的表示及处理
标准ASCII字符集及其码表 b6 b5 b4 b3 b2 b1 b0
1 01 0 01 10 1 01
相关主题