当前位置:文档之家› 编码字符集标准及分类研究_谢谦

编码字符集标准及分类研究_谢谦

中 文 信 息 学 报第20卷第5期 J OURNAL OF CH I NESE I NF OR MATI O N P ROCESSI NG V ol.20N o.5文章编号:1003-0077(2006)05-0083-08编码字符集标准及分类研究谢 谦1,2,芮建武1,吴 健1(1.中国科学院软件研究所开放系统与中文信息处理中心,北京 100080;2.河南大学计算机与信息工程学院,河南开封 475001)摘要:编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO2022标准及其派生标准,对ISO2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。

探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。

关键词:计算机应用;中文信息处理;编码字符集中图分类号:TP391 文献标识码:AResearch on Coded Character Set Standards and C lassificationX I E Q ian1,2,RU I Jian-wu1,W U Jian1(1.Open Syste m and Ch i nes e Infor m ati on Processi ng Cen ter,Institute of Soft w are,C h i nes e A cade m y of S ci en ces,B eiji ng100080,Ch i na;2.S chool of Compu t er and In for m ation Engineeri ng,H enan Un i versity,Kaifeng,H enan475001,Ch ina)Ab strac t:Coded character se t standa rd are t he base s of t he co m puter t ex t infor m ati on processing.In t his pape r,a3-turples m ode l is proposed t o descibe the coded character se.t The ex isting code standards are reviewed and su mma-rized.A nd t he ISO2022and it's deriv i ng standards are ana l y zed in de tail;incl uding the li m ita tion o f u tilizi ng IS O 2022in m ultili ngua l env iron m en.t N ecessit y o f foundi ng UCS(U niversa lCha racter Se t)is present ed,a long w it h an outline ana l y sis o f UCS.A ft e r eva l uating current c l assifica tion m e t hods o f coded character set standa rds,a new m eth-od is produced w ith applica tion i n ca talogu i ng existing standa rds.W e c l o se ou r paper w ith a brief ana l ysis of i m po r-tan t Chinese na tiona l st andards on Han character se.tK ey word s:compu t e r applicati on;Ch i nese inf o r m ati on processing;coded character se t计算机应用从单纯的科学计算转向信息处理,是引发二十世纪信息革命的里程碑事件,而支撑这一转变的重要基础就是字符编码;通过制定字符编码标准,在人能理解的文字信息与计算机内部表达之间建立了一个基本的沟通桥梁,直到今天,基于文字的交互途径仍然是最主要的人机界面。

正如Unicode标准中所言[1],“对计算机软件系统而言,字符编码就像螺钉和螺母———虽然微小,却以各种方式被普遍使用。

”收稿日期:2005-07-08 定稿日期:2006-05-22基金项目:国家863计划资助项目(2003AA1Z2110);中国科学院知识创新工程资助项目(KGCX2-S W-504)作者简介:谢谦(1968—),男,博士生,主要研究领域为系统软件国际化,X W i ndow系统,L inux标准化.1 编码字符集标准:概念及发展文字是语言的载体,字符则是计算机处理文字信息的最基本抽象元素,通过使用特定的位组合(即所谓编码)来表示字符,文字信息得以存储和交换。

确定文字的字符编码就是要对三元组(G,C,f:C→G)做出定义,其中G代表字符集,C代表编码空间,f是C→G上的函数,定义了编码到字符的单值映射。

为了交换信息,字符编码必须进行标准化,即针对特定文字形成在一定范围内公认的三元组定义。

在实践中,存在不同类型的标准化,一种是在一个标准中对三元组做出完整规定,另一种是用不同标准对不同部分进行标准化。

字符编码技术和编码字符集标准经过了长期的发展,早期标准主要针对英文环境,最广为人知的是ANS I制定的ASC II。

在编码字符集标准发展过程中起重要作用的I SO2022《字符编码结构和扩充技术》最早发布于1973年[2],规定了编码空间的框架结构以及相应的编码扩充机制,为针对其他文字的编码字符集标准发展提供了坚实的基础。

ISO2022之后的大多数正式国家/地区标准均符合该框架,典型例子包括I SO8859系列单字节8位编码字符集标准、1978年日本发布的JI S C6226、1980年中国发布的GB2312、1986年中国台湾标准局发布的CNS-11643、1987年韩国发布的KS C5601等。

这一时期制定的编码字符集标准也有不符合I SO2022框架,然而被厂商较多使用而成为事实标准,如中国台湾地区的B I G5、日本的Shift-JI S等。

通用字符集(UCS)编码标准的制定是编码发展历程中另一个转折点,面向多语言应用环境,使用一个编码字符集覆盖世界上主要文字。

UCS起源于1984年,第一个被广泛接受的标准版本发布于1991年。

UCS由Unicode联盟和I SO/I EC JTC1/S C2W/G2两个机构进行标准化,二者协调工作保证标准的一致性。

2 IS O2022ISO2022规定了8位和7位编码的总体结构,定义了统一的编码元素,使得符合标准的编码可以在8位和7位形式之间自由转换;利用标准提供的各项技术,可以扩充基本编码空间的表示能力。

I SO2022使信息处理系统能够采用统一的编码处理方法,保证信息交换过程中使用一致的字符集,减少互操作系统之间产生冲突的机会。

2.1 IS O2022要点ISO2022的编码扩充技术非常灵活,要点包括抽象的编码元素规定、实际编码空间结构表示、在编码中使用特定编码字符集的方法、对特定编码方案定制的方法。

编码元素提供了一个连接实际编码字符集和编码空间的抽象层次,I SO2022规定的编码元素分四类:固定编码字符、编码图形字符集、编码控制字符集和编码单独附加控制功能。

编码扩充技术操作的主要对象是编码图形字符集和编码控制字符集,编码图形字符集可容纳字符数有四种限制值:94、96、94n、96n,n>1表示多字节字符集,标准中规定的该类编码元素包括G0、G1、G2和G3;编码控制字符集可容纳32字符,标准中规定的该类编码元素包括C0、C1。

ISO2022使用二维的码表描述其编码空间,用十进制的“列号/行号”表示码点。

编码空间中的不同区域及其用途如下:CL(00-01列)用于表示主控制功能集;CR(08-09列,仅适用于8位编码)用于表示辅控制功能集或不使用;GL(02-07列)和GR(10-15列,仅适用于8位编码)用于表示图形字符集。

在数据交换过程中表示一个特定编码字符集需要把该字符集“装入”到编码空间的特定区域,I SO2022规定该过程由指派和调用两个逻辑上独立的步骤完成,如图1所示。

图1 表示一个编码字符集指派(Designation)用于建立特定编码字符集与抽象编码元素之间的关联,可以利用I SO 2022定义的转义序列,结合按照I SO2375规定注册的编码字符集特征字符完成。

指派一个编码字符集的语义模式为:把[大小为<94|94n|96|96n>的]<字符集>指派到<编码元素>。

例如:ESC02/0402/0904/01的含义是:把大小为<942>的<GB2312-80>指派到<G1>。

调用(I nvoca tion)分配编码空间中的特定区域来表示抽象编码元素,控制字符集不必显式调用,对控制字符集的指派就同时完成了对其的调用。

与之相对,图形字符集的编码元素数大于实际编码空间中的区域数,调用过程应该显式进行。

图形字符集调用相关的控制功能包括: S I、SO、LS0、LS1、LS2、LS3、SS2、SS3、LS1R、LS2R、LS3R。

实际系统中既无必要也不可能实现I SO2022的全部功能,为此要对功能进行裁剪定制以适应环境需求。

I SO2022中定义的一些实现级别可看作功能定制的例子,一些其他标准机构制定的派生标准也可视作ISO2022的定制版本。

信息交换双方须在数据处理和交互之前就定制情况达成一致,作为可用声明手段之一,I SO2022提供了ACS(Announce C ode Str ucture)转义序列,从这个意义上讲,I SO2022是自洽的。

2.2 IS O2022相关标准有两类与I SO2022相关的标准:一类是在其框架内制定的编码字符集标准,特征是编码空间符合I SO2022编码元素要求,如GB2312标准中使用94×94表格为字符分配码位;另一类是编码方案标准,选用I SO2022的部分功能,结合具体编码字符集,形成针对特定应用环境、易于实现的编码方案,下面给出一些广泛使用的与中文相关的此类标准。

相关主题