当前位置:文档之家› 信息技术 信息交换用汉字编码字符 集基本集的

信息技术 信息交换用汉字编码字符 集基本集的

ICS 35.040 L71
中华人民共和国国家标准
GB 18030— 2000
信息技术 信息交换用汉字编码字符 集 基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set (报批稿)
1
2
3
4
GB 18030—2000
4.4
保留区 reserved zone 本标准中留作未来国际标准规定的区域。
5
字汇
本标准收录的字符分别以单字节、双字节和四字节编码。 5.1 单字节部分 本标准中,单字节的部分收录了 GB 11383 的 0x00 到 0x7F 全部 128 个字符及单字节编 码的欧元符号。 5.2 双字节部分 本标准中,双字节的部分收录内容如下: GB 13000.1 的全部 CJK 统一汉字字符。 GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。 GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个。 GB 13000.1 收录的其它字符 31 个。 GB 2312 中的非汉字符号。 GB 12345 的竖排标点符号 19 个。 GB 2312 未收录的 10 个小写罗马数字。 GB 2312 未收录的带音调的汉语拼音字母 5 个以及ɑ 和ɡ 。 汉字数字“〇” 。 表意文字描述符 13 个。 增补汉字和部首/构件 80 个。 双字节编码的欧元符号。 5.3 四字节部分 本标准的四字节的部分,收录了上述双字节字符之外的,包括 CJK 统一汉字扩充 A 在 内的 GB 13000.1 中的全部字符。 总体结构 本标准中,采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一 个字节均由八位二进制位串组成, 任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表 示。 单字节部分采用 GB 11383 的编码结构与规则,使用 0x00 至 0x80 码位。双字节部 分采用两个八位二进制位串表示一个字符,其首字节码位从 0x81 至 0xFE,尾字节码位分别 是 0x40 至 0x7E 和 0x80 至 0xFE。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对 双字节编码扩充的后缀,这样扩充的四字节编码,其范围为 0x81308130 到 0xFE39FE39。见 表 1 及图 1。 6
0x81 0x81 第 三 字 节 0xFE 0x30 0x39 第四字节 第 三 字 节
0xFE 0x30 第四字节
0x39
第一、二字节 结构
第三、四字节 结构
四字节总体 结构
图1
总体结构图
4
GB 18030—2000
7 字符的排列顺序 7.1 单字节部分字符的排列顺序 本标准中单字节部分所有字符按照 GB 11383 中相应字符的顺序排列,单字节编码的欧 元符号置于 0x80 位置,对应于 GB 13000.1 的 0x20AC 位置。见图 2。 7.2 双字节部分字符的排列顺序 本标准双字节部分的字符排列顺序见附录 A。 7.3 四字节部分字符的排列顺序 自 0x81308130 至 0x8439FE39 共 50400 个码位, 对应本标准双字节部分未包括的所 有 GB 13000.1 的字符,按照 GB 13000.1 相应字符的顺序排列,剩余码位保留。 自 0x85308130 至 0x8539FE39 共 12600 个码位, 为本标准的保留区, 留待未来字符 扩展使用。 自 0x86308130 至 0x8F39FE39 共 126000 个码位,为本标准的保留区,留待未来汉 字字符扩展使用。 自 0x90308130 至 0xE339FE39 共 1058400 个码位,用于对应 GB 13000 的 16 个辅助 平面,字符排列顺序完全遵照 GB 13000 的 16 个辅助平面的相应码位顺序依次排列,剩余码 位保留。 自 0xE4308130 至 0xFC39FE39 共 315000 个码位,为本标准的保留区,留待未来标 准扩展使用。 自 0xFD308130 至 0xFE39FE39 共 25200 个码位,为用户自定义区。 8 码位分配 8.1 单字节部分的码位分配 本标准中, 单字节的部分的码位分配见 GB 11383。 单字节编码欧元符号置于 0x80 位置。 见图 2。
1 GB 18030 — 2000
范围 本标准作为 GB 2311 体系的编码字符标准,规定了信息交换用的图形字符及其二进制 编码的十六进制表示。 本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。 引用标准 下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时, 所示版本均为有效。 所有标准都会被修订, 使用本标准的各方应探讨使用下列标准最新版本 的可能性。 GB 2311—1990 信息处理 七位和八位编码字符集 代码扩充技术(eqv ISO 2022:1986) GB 2312 —1980 信息交换用汉字编码字符集 基本集 GB 11383—1989 信息处理 信息交换用八位代码结构和编码规则(idt ISO 4873: 1986) GB 12345 —1990 信息交换用汉字编码字符集 辅助集 GB 13000.1—1993 信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基 本多文种平面(idt ISO/IEC 10646.1-1993 ) 原则 本标准向下与国家标准 GB 2312 信息处理交换码所对应的事实上的内码标准兼容。 本标准在字汇上支持 GB 13000.1 的全部中、日、韩(CJK)统一汉字字符和全部 CJK 统一汉字扩充 A 的字符。 定义 本标准采用下列定义。 4.1 字汇 repertoire 用编码字符集表示的一个指定的字符集合。 4.2 字符 character 供组织、控制或表示数据用的元素集合中的一个元素。 4.3 编码字符 coded character 字符及其编码表示。 国家质量技术监督局 2000-03-XX 批准 2000-XX-XX实施
2000-03-17 发布
2000-03-17 实施
国 家 质 量 技 术 监 督 局 发布
GB 18030-2000


本标准作为 GB 2311 体系的字符编码标准,规定了信息交换用的基本图形字符及其二进 制编码的十六进制表示。 本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。 本标准是对 GB 2312 的扩充。 本标准具体规定了图形字符的单字节编码和双字节编码,并对四字节编码体系结构做出 了规定。 本标准的附录 A、附录 B、附录 C 和附录 D 是标准的附录。 本标准从生效之日期起,同时代替原国家技术监督局标准化司和原电子工业部科技与质 量监督司联合以技监标函[1995]229 号文发布和实施的技术规范指导性文件《汉字内码扩展 规范(GBK) 》1.0 版。 本标准由中华人民共和国信息产业部提出。 本标准由信息产业部电子工业标准化研究所归口。 本标准起草单位:信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北 大方正集团、北京方正新天地信息网络科技有限责任公司、四通集团公司、中科院软件所、 长城软件公司、四通利方公司、中软总公司、金山软件公司、联想公司。 本标准主要起草人:陈堃銶、黄疆、胡万进、张建国、陈壮。
p q r s t u v w x y z { | } ~

o DEL 单字节区码位图
8.2
双字节部分的码位分配 本标准中,双字节的部分的码位安排分为 0x8140 至 0xFE7E 和 0x8180 至 0xFEFE 两部 分,共 23940 个码位。见图 3 及表 2。
6
GB 18030—2000
SP ! " # ꎤ % & ' ( ) * ESC + ´ . /
0 1 2 3 4 5 6 7 8 9 : ; < = > ?
@ A B C D E F G H I J K L M N O
P Q R S T U V W X Y Z [ \ ] ^ _ 图2
` a b c d e f g h i j k l m n
码位空间 0x00~0x80
四字节字符的编码自第四个字节开始,编码码位为 0x30 至 0x39;其次是第三个字节, 编码码位为 0x81 至 0xFE;再次是第二个字节,编码码位为 0x30 至 0x39;最后是第一个字 节,编码码位为 0x81 至 0xFE。即, 0x81308130 至 0x81308139 ; 0x81308230 至 0x81308239 ; …… 0x8130FE30 至 0x8130FE39 ; 0x81318130 至 0x81318139 ; …… 0x8131FE30 至 0x8131FE39 ; …… 0x82308130 至 0x82308139 ; …… 0x8230FE30 至 0x8230FE39 ; …… 0xFE308130 至 0xFE308139 ; …… 0xFE39FE30 至 0xFE39FE39 。
5
GB 18030—2000
b4 b3 b2 b1
b8 b7 b6 b5
0 0 0 0 00
0 0 0 1 01
0 0 1 0 02
0 0 1 1 03
0 1 0 0 04
0 1 0 1 05
0 1 1 0 06
0 1 1 1 07
1 0 0 0 08
1 0 0 1 09
1 0 1 0 10
1 0 1 1 11
中华人民共和国国家标准
信息技术 信息交换用汉字编码字符集 基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set
相关主题