一种汉字拼音化的实现方法吴胜远山东大学计算机学院,济南 (250061)E-mail:wsy@摘要:汉字信息处理远远落后于字母式文字,汉字拼音化的初衷就是提高汉字处理水平。
什么是汉字拼音化?能否实现?如何实现?颇有争议。
本文旨在从理论和实验两方面说明:拼音能使汉字由无序变为有序,由形音分离变为结合,汉字处理能由字一级上升为词一级,拼音能使汉字兼有字母式文字的所有优点,汉字拼音化的“双轨制”,或者“双文制”能够实现。
拼音能消除多音字和分词歧义,使汉字信息更为准确。
随着拼音应用的创新,汉字处理的落后状态将彻底改变;汉字不仅仅是世界上使用人数最多的文字;而且与英文一样,将是世界上最先进和最准确的文字之一。
关键词:汉字处理,汉字拼音化,分词,编码中图分类号:TP1.引言汉字不是字母式文字,而汉字处理远远落后于字母式文字。
汉字拼音化的初衷就是提高汉字处理水平。
[1,2]周有光先生提倡汉字改革要分步进行,并提出汉字夹拼音的混合文字方案,即“双轨制”。
冯志伟和尹斌庸先生提出了“双文制”的设想。
[3,4]对汉字拼音化持否定态度的也大有人在。
在1986年《全国语言文字工作会议纪要》中明确指出:“《汉语拼音方案》作为帮助学习汉语、汉字和推广普通话的有效工具,进一步推行并扩大其使用范围,但它不是代替汉字的拼音文字,可以用于汉字不便使用或不能使用的方面。
关于汉语拼音化问题,许多同志认为这是将来的事情,现在不忙于作出结论。
”[4]《汉语拼音方案》颁布50周年了,《纪要》已经22年了,汉字拼音化一直处于争论之中,踟蹰不前。
最近,一个新理论“多级标记编码理论”[5]开启了汉字拼音化新纪元,使得《纪要》中的“将来的事情”,变为“现在的事”。
字母式文字有两个主要特征,第一,顺序性,语音信息包含在字母中;第二,词与词用空格分隔,保存了分词信息。
汉字则不同。
第一,汉字无序,顺序信息缺失;汉字形音分离,语音信息缺失;第二,汉字词与词之间没有分隔,分词信息缺失。
因此,汉字处理远远落后于字母式文字。
[2] 信息时代,汉字拼音化不是废除汉字,而是增加其信息含量,使汉字中含有正确的拼音信息,从而使汉字由无序变为有序,由形音分离变为结合,使汉字处理能由字一级上升为词一级,使汉字兼有字母式文字的所有优点;从而,彻底改变汉字处理的落后状态。
由于汉字拼音化能消除多音字和分词歧义,使汉字准确度大大提高;汉字也将成为世界上准确度最高的文字之一。
理论和实验说明:汉字拼音化是能实现的,汉字的电子文档可以含有正确的拼音和分词信息,而不增加存储空间。
在使用中,文档显示方式可有多种选择,例如:拼音与汉字混合显示,纯拼音显示,纯汉字显示。
其中拼音与汉字混合显示,就是“双轨制”,或者“双文制”的实现。
在电子文档中,各种显示方式都是自动生成;拼音和汉字且能相互转换。
经过适当练习,在熟练了阅读拼音文档之后,汉字拼音化的电子文档是完全可以读懂的。
经过改进,纸质文档的“双轨制”,或者“双文制”也是可以读懂的,纸质文档的纯拼音方式,还有待于进一步研究和开发。
[5-9]2.汉字为何信息缺失与字母式文字对比,汉字顺序、语音和分词信息缺失;为什么缺失呢?实际上,汉字输入中已输入了拼音信息。
例如:输入拼音“chong” ,应该输入读音为“chóng”的“重”;输入拼音 “zhong” ,应该输入读音为“zhòng”的“重”。
但是,由于在机器内部“重zhòng”和“重chóng”仅用一个编码表示,究竟其读音是“zhòng”还是“chóng”,,就不清楚了。
另外,拼音输入是按词输入的,词与词的拼音之间是有分隔的。
例如:输入“乒乓球拍卖完了”的过程如下:如果输入过程为:“pingpangqiu paimai wan le ”;则分词信息为:“乒乓球拍卖完了”如果,输入过程为:“pingpang qiupai mai wan le ”;则分词信息为:“乒乓球拍卖完了”。
但是,由于在机器内汉字是一个个连续存放的,词与词之间没有分隔;两种输入过程都保存为:“乒乓球拍卖完了”.输入中的分词信息丢失了。
因此,汉字多音字和分词歧义多,难以表达作者准确的意思。
汉字处理也不得不通过上下文,采用人工智能去挖掘缺失的信息;占空间大、处理效率低,准确度低。
3.能保存缺失信息的最新理论.输入中的分词信息丢失了。
如果,输入过程中,能将输入的拼音和分词信息保存下来;那么,汉字就可以完全自动正确地转换为按词分隔的拼音文字,使汉字兼有了字母式文字的优点。
因此,汉字拼音化关键在于如何保存拼音和分词信息。
早在上世纪80年代,不少学者就提出采用加空格保存分词信息的方案,该方案简单易行,消除了分词歧义。
但存在以下问题:1. 没有解决多音字的歧义问题;2.增加了存储空间,提高了打印成本;3.不符合中国人千百年来形成的阅读习惯;人们难以接受。
[10-12] 上世纪90年代,在“计算机研究与发展”的有关论文中,我提出了通过编码保存多音字和分词信息方案,该方案通过词的编码保存分词信息,消除分词歧义;同时,多音字用多个编码表示,做到一个发音对应一个编码,能消除多音字的歧义。
该方案不增加存储空间,不提高打印成本,也不改变中国人的阅读习惯[13,14],且能使汉字处理达到英文水平。
但是,编码的有限性和编码系统的兼容性难题,使该方案难以付诸实践。
最近,我创立了“多级标记编码理论”,破解了这个难题,使其得以实现。
[5]2007年,在美国召开的“国际计算机科学基础学术会议”介绍了我最近创立的“多级标记编码理论”。
该理论成功地解决了编码的有限性问题和编码系统兼容难题;还提供了汉字多音字和分词信息的保存和处理方法。
[5]“2007国际多媒体系统和应用学术会议”、“2007国际互联网计算学术会议”、“2006亚太语言、信息和计算学术会议”以及“2006年全国搜索引擎和网上信息挖掘学术研讨会”上发表的有关多级标记编码理论应用的论文中,介绍了该理论在文字处理,特别是汉字处理方面的应用;在此基础上,拼音能在汉字处理更深层次和更高水平上发挥作用,使汉字兼有字母式文字的优点。
[15-18]由于多级标记编码理论打破了编码的有限性,一个多音字可采用多个编码表示,不同发音的多音字保存在不同的编码中;也就是说,一个汉字编码仅对应一个发音。
在输入过程中,拼音不再仅仅用来输入汉字,而且包含了汉字的顺序和语音信息。
汉字词的编码难度更大。
第一,词的数量远远大于字的数量,词的编码数量没有任何限制,并且必须能与各种各种编码系统相兼容;第二,新词不断出现,必须能即时对新词编码。
多级标记编码理论提供了对词作标记的方法实现对词的编码。
在汉字的输入过程中,将分词信息保存在词的编码中。
[5]实验证明,汉字可以完全像英文一样有序、排序和索引;各种处理完全在词一级上进行,并且使汉字兼有字母式文字的优点;所有这一切并不需增加存储空间;或者增加极少存储空间;处理效率和准确度大大提高,不亚于英文。
[6-9]所提供的方法简单易行;可以在应用程序一级实现,也可在操作系统一级实现。
我们已经在微软OFFICE的环境下开发了一系列实验软件,包括输入法;、排序、索引、文本语音、文本转换拼音,拼音标注、检索等。
这些软件离市场,只有一步之遥。
4.实现汉字拼音化的工具实现汉字拼音化需要一个平台,该平台有一系列工具组成,主要的工具是用来保存汉字缺失的信息,输入方法和编辑工具。
4.1 多级输入法我们开发了多个输入方法,称为多级输入法,在输入过程中,能保存汉字的拼音和分词信息。
多级输入法与现有拼音输入法用法稍有不同。
首先,关于多音字的输入。
如果多音字的拼音字母相同,只有声调不同时,选择正确声调。
汉字有五个声调:阴平、阳平、上声、去声和轻声,在多级输入法中,分别用 a,b,c,d,e 表示。
根据提示,选择正确的声调。
例如,输入“hao”,第一页的提示窗口如图1所示:图1 第一页的提示窗口第二页的提示窗口如图2所示:图2 第二页的提示窗口第三页的提示窗口如图3所示:图3 第三页的提示窗口“好”有三个声调,分别为:一声,三声和四声,如各个提示窗口所示。
如果想输入三声,可以在第二页的提示窗口中输入“c”,或者先择“7”。
如果多音字的拼音字母不同,与现有输入法用法相同。
例如:采用多级输入法,输入拼音:kui选择“隗”,则保存“隗”(kuí)的编码,输入拼音:wei选择“隗”,则保存“隗”(wěi)的编码。
多音字大多数包含在多字词中;采用词输入,能输入并保存其中多音字的正确读音。
例如:“重复”,“重要”两个词中“重”编码不同,分别对应其正确的读音。
其次,看一下分词信息的保存。
例如:“乒乓球拍卖完了”如果,输入过程为:“pingpangqiu paimai wan le ”;则保存词的编码为:“乒乓球拍卖完了”如果,输入过程为:“pingpang qiupai mai wan le ”;则保存词的编码为:“乒乓球拍卖完了”。
最后,如果两个多字词的拼音字母相同,声调不同,可以通过声调选择。
例如:输入拼音“haoshi”之后,提示如图4所示,其中2,3 词后面分别标有:c,d :意思是"好"分别为:上声和去声.。
图4 输入拼音“haoshi”的提示窗口4.2编辑处理程序我们开发了编辑工具,能将现有文档转换为具有拼音和分词信息的文档,也可自动转换为现有文档;还可以进行编辑和修改。
5.电子文档汉字拼音化的实现电子文档汉字拼音化的实验结果如下:拼音与汉字混合显示,纯拼音显示,纯汉字显示;在显示中拼音和汉字可相互转换;自动正确的排序和索引,词一级拼音检索等。
5.1 汉字和拼音混合显示方式汉字和拼音混合显示就是“双轨制”,或者“双文制”的一种实现方式。
常用汉字以汉字显示,其余汉字显示为拼音。
常用汉字可以由用户自行选择。
例如:可以将常用字频度最高的100字,500字,1000字,1500字分别存入库中,用户可自行选择不同的文件。
也可以将汉语教材中某些年级学过的汉字存入文件中,供选择。
在混合文字中有几个问题值得注意:第一,常用字如果是多音字,最好用拼音表示,或者在多音字后面加注拼音;否则,可能引起歧义。
例如,他 huán qiàn 款20 wàn 元,这里多音字“还”,显示为拼音,意思准确,无歧义,tā还欠 kuǎn 20万 yuán ,而这里“还”,只显示字,就有歧义。
第二,如果仅从拼音无法确定的汉字,最好用汉字表示例如,tā qí zìxíngchē shàngbān .她骑自行车上班.其中 “tā”无法区分“他,她”,如果用汉字表示就没有歧义。
第三,不能只考虑常用字库,还要考虑常用词库。