电子化时代的汉字生存与变革我们正处于汉字电子化变革的最高潮,汉字在电子化时代的生存与发展,也就成了在互联网时代,中国文化最紧迫、最复杂和最核心的文化命题之一。
汉字,目前有确切考古证明的历史,可追溯至约公元前1300年中国商代的甲骨文,迄今已有3000多年。
汉字的演变和发展经历了两次最重大的变革,第一次是唐宋以降的印刷术变革,第二次便是今天的电子化变革。
汉字的电子化启动于19世纪后期。
在20世纪中后期,汉字的电子化先后出现了两次高潮,第一次,在1980年代中期到1990年代中期,核心内容是汉字的计算机处理问题;第二次,1990年代末至今,汉字电子化的重点转向语音识别、语音合成和语义处理,以及互联网时代的数字遗产保护等方面。
今天,我们正处于汉字电子化变革的最高潮,汉字在电子化时代的生存与发展,也就成了在互联网时代,中国文化最紧迫、最复杂和最核心的文化命题之一。
汉字的三道“电子化”门槛汉字最早的电子化,是中文电码,又叫中文商用电码等,是在电报之中传送汉字信息的方法。
中文电码是历史上第一个把汉字的方块型字体,转化为电子讯号的编码表。
1835年摩尔斯电码发明后,只能传送英语或以拉丁字母拼写的文字。
1880年,清政府雇佣丹麦人发明了中文汉字电报,该码表采用四位阿拉伯数字作代号,从0001到9999按四位数顺序排列,用四位数字最多可以表示10000个汉字、字母和符号。
汉字先按部首,后按笔划排列,字母和符号放到电码表的末尾,这一范畴后来不能满足中国人的姓氏户籍管理用字,于是,第二字面汉字便出现了。
总之,汉字是十分顺利地迈过了“电报门槛”。
1946年,世界上第一台电子计算机诞生,当时的计算机主要的功能是计算。
从1960年代开始,计算机的主要功能开始多样化,出现了新的主要功能――处理大规模的数据,其中主要的项目,便是图书馆的目录整理。
当时,在美国国会图书馆和许多美国大学,都拥有数量众多的汉字藏书。
利用计算机来管理这批藏书,就必须要有一套有效处理汉字的系统。
由此,汉字的电子化(计算机化)时代正式揭幕。
这时,汉字的电子化所面临的命题,通俗地说主要有两个方面:一,如何把汉字存储在计算机内;二,如何在计算机上显示出汉字。
到了互联网时代,汉字的电子化又面临着全新的挑战,比如,第一,互联网上浩如烟海的汉字信息数据,为中文信息搜索提出了新的挑战;第二,非键盘的汉字输入需要有全新的发展方案,因为手机、PDA等移动设备已经大规模普及,汉字信息处理已经摆脱了计算机,人们可以不用键盘,比如汉字手写输入,甚至都不必动手,比如汉字的语音输入等。
电子化“头痛”电子化时代的“汉字”,并不仅仅是指中国大陆地区使用的简化汉字和标准汉语体系――“普通话”,而是指汉字文化圈里的通行的汉字和标准汉语。
今天我们说的“汉字处理系统”,是基于多样化的汉字字体、多样化的标准汉语体系、多样化的汉文化传统、多样化的经济和社会发展水平,是跨国别、跨地域的文化现象和规律。
汉字文化圈,指的是文化相近,历史上受中国政治及中华文化影响,过去或现在仍在使用汉字,在历史上,曾经共同使用汉语文言文(日本、韩国、越南称之为:汉文)作为书面语言,并覆盖东亚、东南亚部分地区,以及北美、南美、欧洲等特定的人口聚居区的文化区域。
汉文化圈的“汉字”,字体多样化,包括中国大陆地区、新加坡、部分海外华人聚居区使用的简化汉字,中国港澳台地区、部分海外华人聚居区使用的繁体汉字,日本使用的国字,韩国汉字,越南独有的汉字――喃字。
另外,汉语体系也呈现多样化,大陆地区使用“普通话”标准,台湾是“国语”,东南亚的华人聚居区是“华语”标准。
可以说,多样性是“汉字”的本质属性。
这意味着即使是同一个汉字,在不同文化地区,它的字体结构有所不同、笔画多少有所不同、书写顺序有所不同、读音发音有所不同,乃至同一个字的拼写方案也会不同。
正是由于汉字的多样性,使得汉字在电子化进程中面临的技术难度极大。
汉字的电子化,通俗的说分为六大领域,分别是:基础研究,比如汉字编码字符集、通用汉字样本库等;输入技术,比如汉字键盘输入法、手写输入、汉字语音输入、文字识别等;输出技术,比如汉字激光照排、汉语语音合成等;存储技术,比如汉字库标准等;转换技术,比如繁简转换等;信息处理,比如汉字情报检索、汉字文本校对、机器翻译等。
如汉字语音输入,既要受到不同标准汉语体系的读音影响,还要受到中国各地方言口音的影响。
目前最让文化界头痛的是,中国传统古籍的数字化保存,涉及到数以万计的中国正体字和异体字、常用字和冷僻字等,既牵扯到汉字字体库的丰富扩展,又牵扯到繁简汉字转换,比如,“二十四史”系列典籍现在最可靠的数字化文本,依然是图片格式的,并非字符格式,并未做到真正意义的数字化,既不能进行检索,更不能在互联网上实现“数字共享”。
电子化对中国传统文化传承的促进作用,目前还刚刚启动,效果还很不理想。
诡异的瑕疵正是因为汉字文化圈的多样性,所以,“信息交换”是汉字电子化最基础和最根本的部分。
各个汉字的使用地区都制订了一系列汉字字符集标准。
比如,中国在1974年8月开始了748工程,包括了用计算机来处理汉字,启动了各种研究工作,于1980年公布了GB 2312-80汉字编码的国家标准,最新的GB 18030收录27533个汉字。
中国港澳台地区使用Big5码,收录13053个汉字。
还有“中日韩统一表意文字编码”,收集了汉语、日语、韩语中的汉字集,越南随后也加入了这一系统。
不过,汉字字符集标准,并不一定和汉字的规范标准完全吻合,这听起来或许有些诡异,但的确是事实。
比如,2005年,中国香港公布了《香港电脑汉字字形参考指引》,就和《常用字字形表》(由香港教育局和香港教育学院制定)存在着差异。
此外,我国的汉字研究存在着学术空白,也使得汉字的电子化出现了“瑕疵”。
比如,晚清时期,西学东渐,大量的西学文献和科学著作被翻译成中文,出现了一大批新造的汉字。
比如在晚清,人们常用带有“口”字旁的字来翻译外来词,把Ice-cream翻译成“冰(口忌)(口廉)”。
“(口忌)(口廉)”二字,在当时很常见。
西方的度量衡名称在晚清,一般有两种译法,一是音译,一是新造汉字。
后者,比如:(1)“(安百)”或“(百安)”表示hectare(公顷);(2)“(?鹕?)”表示bushel(蒲式耳);(3)“(平米)”表示平方米;这些字,今天已经被废弃,但是在清末却是作为“常用字”或者“度量单位名称”被广泛使用,成为汉字在一个历史时期的面貌,理应成为“文字记忆”保存下来。
可是,这些字被《汉语大字典》所遗漏,在电子化时代也不被提及。
母语汉字的潜在危机电子化对语言文字最大的损害,是对母语文字毁灭性的冲击。
很多国家对民族语言进行了“计算机化”,通常的做法是取消民族语言中的特殊字符,尽可能以26个标准拉丁字母代替,许多弱势民族的母语文字因此被抛向灭绝的边缘。
进入了互联网时代,互联网的通用语言出现了,又进一步强化了对母语文字的冲击,造成了今天我们所熟知的横亘在强势民族和弱势民族之间的“数字鸿沟”,数以百计的非拉丁化的母语文字,被无情地挡在信息社会的门外。
汉字是非拉丁化的文字,电子化对汉语的冲击,我们不得不加以重视。
目前,中国大陆地区使用的拼音输入法,是以普通话语音为标准的,也就是说只有学会了汉语拼音方案,才能使用这种输入法。
众所周知,汉语在中国大陆地区有七大方言区:北方方言、吴语、客家话、闽语、粤语、湘语、赣语。
还有一些方言区,如晋语、平话和徽语。
电子化为母语汉字设置了“数字门槛”,我们有平稳过渡的例子,那就是广州话拼音方案,由中国在1960年公布,用于拼写广州话的语音在中国大陆通行;在海外流行的粤语拼音方案,是中国香港的粤语拼音方案以及粤语耶鲁拼法。
有粤语的拼音方案,也就出现了粤语拼音输入法。
因为粤语拼音输入法的重码率较低,所以它的输入速度,和汉语拼音输入法大体持平。
中国各地方言的拼音方案正在陆续制定和不断完善,比如,上海话(吴语)拼音方案、平话拼音方案、客家话拼音方案等,一些相应的计算机输入法也随之出现,比如,上海吴语注音输入法。
母语汉字,是中国传统汉文化和艺术的承载,能够整体完好地跨过电子化的数字门槛,就是今天的文化传承的具体内涵,是学术界和民间最核心的文化要务之一。
中国的母语方言一旦被电子化“绊倒”,那将是民族文化无可估量的损失。
现在通行的做法是,先制定相应的方言拼音方案,然后制定与之配套的计算机输入法,同时,不断完善计算机和互联网的方言母语字库和词汇库。
这个文化路径是否科学和有效,还有待于未来的实践加以检验,母语汉字潜在的危机,其实并未彻底化解。
微澜与地震电子化给汉字带来最表象的变化,是大量欧美字词“入侵”,并出现了一大批新造的汉字字词,以及出现了“火星文”、“脑残体”等汉字变异形态,而且,汉语语法也相应地发生了变化。
如果说汉语字词的电子化只是水面泛起的一波微澜,而汉语语法的电子化,则是不折不扣的语言地震了。
从汉语的发展史来看,每一次人类社会的技术革命都会给汉语带来巨大的改变,突出的标志就是出现全新的字词和语法规则。
19世纪,晚清启动的中国工业化进程,促使汉语由古汉语向现代汉语的全面转型,现代汉语里,70%多的人文学科和生活常用词,是直接从日本汉字引进的,比如文化、文明、文学、时间、劳动、服务、社会等等常用词汇。
而且,日本汉字的词汇进入了中国现代社会学科的话语结构,比如概念、化学、经济学、历史学、美术、民主、生产力、剩余价值、物理学、哲学等。
汉语度过了工业革命,又迎来了信息革命,又出现了大量新字词,如菜鸟、粉丝、恐龙、东东、美眉……它们是对汉语词汇的电子化扩展,是汉语积极的信息化转型。
汉字电子化的消极之处,是汉语常用语中出现了许多的英文语词,如CPU、DOS等。
在汉字“计算机化”早期,计算机科技人员编制了许多汉字编码规格,这些汉字编码规格缺乏语言学专业人士的协助,实质上是按照拉丁字母的做法来处理汉字,弱化汉字的表义功能,把单个汉字当作字母来组词以表达事物,这就让汉字的创新能力变得越来越弱,并且被英语世界的资讯技术所束缚。
可是,英文在信息时代不断创新,比如,Central Processing Unit,中文名称是“中央处理器”,但为了频繁使用的需要,英文可以缩写为CPU,而汉字则始终没有通行的缩写。
还比如WEB2.0、VCD、DVD等,我们都缺乏相应的汉字缩写。
这就好比是汉字和拉丁字母在进行一场资讯反应的赛跑,汉字总是跑在拉丁字母的后面。
不过,近年来这个局面有所改观,动态组字新技术的出现,即任何汉字都可以由基本的百多个字根以二维编码的方式即时组合而成,借由资讯科技重新解放汉字原有的创新力。
如BLOG―博客,MMOGAME(在线游戏)―网游,e-mail―电邮。