当前位置:文档之家› 汉字编码

汉字编码

编码定义
用预先规定的方法将文字、数字或其他对象编成数码,或将信息、数据转换成规定的电脉冲信号。

编码在电子计算机、电视、遥控和通讯等方面广泛使用。

编码是根据一定的协议或格式把模拟信息转换成比特流的过程。

在计算机硬件中,编码(coding)是在一个主题或单元上为数据存储,管理和分析的目的而转换信息为编码值(典型地如数字)的过程。

在软件中,编码意味着逻辑地使用一个特定的语言如C或C++来执行一个程序。

在密码学中,编码是指在编码或密码中写的行为。

将数据转换为代码或编码字符,并能译为原数据形式。

是计算机书写指令的过程,程序设计中的一部分。

在地图自动制图中,按一定规则用数字与字母表示地图内容的过程,通过编码,使计算机能识别地图的各地理要素。

n位二进制数可以组合成2的n次方个不同的信息,给每个信息规定一个具体码组,这种过程也叫编码。

数字系统中常用的编码有两类,一类是二进制编码,另一类是二—十进制编码。

为什么要进行汉字编码
汉字编码Chinese character encoding为汉字设计的一种便于输入计算机的代码。

由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。

因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。

汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。

编码是关键。

不解决这个问题,汉字就不能进入计算机。

中国人本来是用一只手执笔杆,一笔一画写字的,现在却要统统改为用两只手十个指头击键写字。

键符越过笔画,代表部件写字,在键盘上使用编码检出汉字,就是用编码写字,键盘就成为我们的笔杆了。

这种以检字来使用汉字,提高信息交换速度,对中华民族的汉字来说,这是几千年来前所未有的一次翻天覆地的大变革。

回顾汉字发展的历史,从甲骨文、金文、大篆、小篆、隶书,到现代汉字,它的变革,都只是笔势上的变革,而没有牵涉到它的结构。

而这一次,却牵涉到它的结构——把汉字拆分为部件。

因此,这次变革,不仅给我国人民将带来巨大的好处,还将使蒙辱一百多年的、背上“落后”黑锅的汉字,重新展现它的光辉。

途径
汉字进入计算机的三种途径分别为:
①机器自动识别汉字:计算机通过“视觉”装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。

②通过语音识别输入:计算机利用人们给它配备的“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。

③通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。

机器自动识别汉字和汉语语音识别,国内外都在研究,虽然取得了不少进展,但由于难度大,预计还要经过相当一段时间才能得到解决。

在现阶段,比较现实的就是通过汉字编码方法使汉字进入计算机。

汉字编码的困难点汉字进入计算机,有许多困难,其原因主要有三点:
①数量庞大:随着社会的发展,新字不断出现,死字没有淘汰,汉字总数不断增多。

一般认为,现在汉字总数已超过6万个(包括简化字)。

虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。

②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。

③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计)。

以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。

有的同音同调字多达66个。

一字多音现象也很普遍。

五种类型的编码法
据粗略统计,现有400多种编码方案,其中上机通过试验的和已被采用作为输入方式的也有数十种之多。

归纳起来,不外5种类型:
①整字输入法:前一阶段,一般是将三四千个常用汉字排列在一个具有三四百个键位的大键盘上。

近来,大多是将这些汉字按XY坐标排列在一张字表上,通常叫“字表法”,或“笔触字表法”。

比如,X25行和Y90列交叉的字为“国”,当电笔点到字表上的“国”字时,机器自动将该字的代码2590输入。

键盘上或字表中字按部首或按音序或按字义联想而排列。

不常用的字作为盘外字或表外字,另行编码处理。

②字形分解法:将汉字的形体分解成笔画或部件,按一定顺序输进机器。

笔画一般分成8种:横(一)、竖(丨)、撇(丿)、点(丶)、折(□)、弯(□)、叉(十)、方(口)。

部件一般归纳出一二百个。

由于一般键盘上只有42个键(包括数字和标点),容纳不下这么多部件,因而有人设计中键盘,也有人利用部件
形体上的相似点或出现概率的不同,而把100多个部件分布在26个字母键上。

③字形为主、字音为辅的编码法:这种编码法与字形分解法的不同在于还要利用某些字音信息。

如有的方案为了简化编码规则,缩短码长,在字形码上附加字音码,有的方案为了采用标准英文电传机,将分解归纳出来的字素通过关系字的读音转化为拉丁字母。

④全拼音输入法:绝大多数是以现行的汉语拼音方案为基础进行设计。

关键问题是区分同音字,因而有的方案提出“以词定字”的方法,还有的方案提出“拼音-汉字转换法”,即“汉语拼音输入──机内软件变换(实为查机器词表)──汉字输出”系统。

⑤拼音为主、字形为辅的编码法:一般在拼音码前面或后面再添加一些字形码。

拼音码有用现行汉语拼音方案或稍加简化的,还有的为了缩短码长而把声母和韵母都用单字母或单字键表示的“双拼方案”或“双打方案”。

如F键既表声母F,又表韵母ang,连击两下,便是Fang“方”字。

区分同音字的字形码也多种多样。

除了大部分采用偏旁部首的信息外,还有采用起末笔或采用语义类别的。

上述各种编码法,各有短长。

例如,字表法的特点是一字一格(键),无重码,直观性好,操作简单。

缺点是需特制键盘,速度较慢。

字形分解法的好处是按形取码,不涉及字音,因而不认识的字(包括生僻字、古字)也同样可以编码输入;但汉字形体结构非常复杂,写法也有许多差异,分解标准不易统一,因而不少方案规则较多。

拼音输入法(包括拼音-汉字转换法)的优点是操作简捷,可以“盲打”,不受汉字简化、字形改变的影响,符合拼音化方向,并且还便于作进一步信息处理;缺点是不认识的字无法输入;另外,如果不加字形码或不用以词定字法或显式选择法,同音字较难处理。

相关主题