电脑新时代汉字不再落后,其处理效率已经反超英文(其四)汉语拼音在纸质字、词典的检索中还保有优势,在电脑检索里变得不好用或不能用其一:汉字信息电脑存储----从沉重负担到比英文节省一半其二:汉字信息电脑编辑加工效率高过了英文其三:汉字信息电脑编辑加工效率高过了汉语拼音1.汉语拼音产生之前的汉文字、词典检索法传统的汉文字、词典的检索,除少数专门韵书外,长期普遍使用基于字形的方法,依据笔画数、笔形、部首进行;注音则使用直音或反切的繁难、低效的方法。
由于汉字字量庞大、结构复杂,长期发展、演变过程造成的理据性丢失、变异,部首、笔形、甚至笔画数有时难于简单、明确判定,使得检索产生困难。
汉文字、词典里,很少有两种其检索法完全相同的;每种里都会有一批难检索字。
这类字典今天的读者已经很少见到。
1984年中华书局(北京)影印了1936年的《中华小字典》属于此种类型,可在国家图书馆工具书室见到。
它完全使用字形检索法,注音使用反切,如‘到’字注音为‘朵奥切’。
当西学东渐,英文词典呈现在中国人面前时,那种只依赖26个字母顺序的检索法,就显得格外简单、确切、统一、普遍有效。
这导致汉字查检难的认识普遍流行,也刺激了汉语字典检索法的改革。
1918年民国政府公布注音字母。
这实际是一种民族形式的汉语拼音方案。
随之就有了依据注音字母的字典检索法的汉语字、词典出现。
这种字典使用注音字母注音,淘汰了反切,检索效率也和英文的类似,它迅速地成为主流方法。
此期间,也刺激了一批依据字形的新检索法问世。
如使用头尾号码法的《新国音学生字典》(陆衣言,中华书局,1929);《五笔检索学生字典》(陈立夫,中华书局,1934);周策勋的《永字八法国音字典》及最为著名的四角号码检字法(王云五)。
四角号码检索法,对于大量汉字甚是简单、有效;但也有好些汉字因结构特别而难于给定四码;有的则因笔画太少(如一,卜、九、人、...),也使得四角同样需要特别约定;又四角号码原则上只能处理9999个汉字。
这些与英文仅仅依赖26个字母顺序,能够无例外的普遍使用,仍然显得差距甚大。
注音字母和四角号码是汉语拼音之前中国最流行的字、词典检索法。
它们都可以看做是拉丁文字检索法影响、刺激的结果。
注音字母在大陆为后来的汉语拼音取代,在台湾一直还在使用中。
2.《汉语拼音方案》产生后的汉文字、词典检索法应该说汉语拼音的一个被普遍肯定的用处就是改善了汉文字、词典的注音及检索法;还可以说这种改进是明显的、有效的。
四五十年来中国大陆大量通用的或普及型的字、词典几乎都使用了拼音检索法。
这已经为大陆广大民众所熟悉、所习惯。
但也必须说,这种改善并不是彻底的、完全的;使用它的一个前提是:知道所查字的读音。
在收字数目大大多于通用字时,读音不明的字就多起来。
大型工具书,像词源、汉语大字典、汉语大辞典就都依然主要使用传统的基于字形的检索法。
并且,在使用拼音检索法时,通常也必须同时附加字形检字表;拼音检索法本身,也必须利用字形信息区分同音字的顺序;单单知道读音和26个字母顺序,缺少必须的字形知识仍然是要出错的。
应该说,常用的汉字字、词典中的汉语拼音检索法,是英、中‘混血儿’,并非纯粹拉丁字母检索法。
具体些说,汉文的拼音检索和英文的检索还是有显著区别的。
如矛盾(maodun)和毛竹(maozhu)两个词,按拉丁字母序,矛盾(maodun)应该在毛竹(maozhu)之前;实际上使用拼音检索的汉文字、词典中,大多总是毛竹(maozhu)排印在矛盾(maodun)之前。
因为在读音为mao的汉字中,‘毛’的笔画数为4,‘矛’的笔画数为5,故‘毛’在‘矛’之前。
汉语词是先按首个汉字排序的,故毛竹(maozhu)排印在矛盾(maodun)之前;并且所有以‘毛’字打头的词都排在以‘矛’字打头的词之前。
3.人工检索法的原理解说以上所说的都是人工检索法,主要适用于对纸介质印刷文本。
这是电脑普遍使用之前的通行方式,或主要方式。
它的原理或者说操作步骤有两步:①利用某种知识或理据,把所有可能要检索的字、词排列个顺序,按这个顺序把字、词典正文印刷为纸质文本。
英文词典所依据的排序知识就是26个字母的字母表。
这一点是每个用户自然都把握的、知道的。
排序,换句话说,就是给出一个‘比较大小’的规则,把小的放在前边,大的放在后边。
两个英文词比较,先看第一个字母,哪个词的第一字母在字母表里排在前面,这个词就排在前面(这个词就小)。
第一个字母相同时,再比较第二个字母,...。
而传统的汉文字、词典检索法,所需要的排序知识涉及到数千汉字,自然难于非常简单;所涉及的知识也多得多,包括:汉字笔画数、首笔笔形、部首等具体知识以及所有需要检索汉字实际的笔画数、首笔笔形、部首;这比26个字母顺序知识也难得多。
至于用汉语拼音的汉字、词典检索法,所需要的排序知识则包括:26个字母序,汉字读音的拼音表示,该汉字的笔画数、首笔笔形及部首;后三个知识用于区分同音字,一般只用到笔画数和首笔笔形可能就够了。
②当正文内容按检索排序规则排好顺序并印刷为纸质文本时,查字、词典就是人工的把查找的字(检索字)和书中的某个字(当前字)比较,若检索字大,则在书中当前字后边再取一个字和检索字比较;若检索字小,则在书中当前字前边再取一个字和检索字比较;直到在书里找到检索字位置。
从实际使用的情况可以看出:汉语拼音检索法,在收汉字数量不太多的情况下,在知道读音时,区分同音字时往往只用到笔画数和首笔笔形,这相当于用26个字母表知识取代了大量部首知识。
所以它在这种时候显得比传统汉字、词典的字形检索法简单、快捷。
4.高速、自动、电脑化检索的实现在改革开放仅仅十五个年头的1994年(748汉字信息工程20周年时),中国在全国范围内基本淘汰了汉字机械打字机,淘汰了汉字四码电报,淘汰了铅字排版、印刷;中国被国际有关机构承认已经是全功能接入国际互联网。
这些标志了汉字的基本复兴,标志着中国在快速步入电脑化、信息化、数字化。
这时汉字信息检索也自然地实现了电脑化、高速化、智能化、自动化。
电脑化的检索有什么新特点呢?特点至少有:①电脑化之前,人们常用的检索主要是查字、词典,查图书目录等。
在网络化、数字化的现今,几乎什么信息都能通过网络检索、查找。
像查公交线路,查餐饮、旅店,查基金、股票,查有关新闻,...,几乎无所不能。
②非常快!弹指间就会得到结果,无论是从数万还是数十万、数百万资料里寻找。
③检索操作变得非常简单、快捷,用户几乎不必知道检索字(或词)的什么知识(无论是读音、笔画、部首什么的),只要会输入要检索的字(或词),再点击搜索软按钮即可。
④汉字信息的检索不再比英文差,无论是操作的简易性还是检索效率。
实际上汉字检索已经在不少地方超过英文,只是还需要时间待人们认识、接受。
⑤无需汉语拼音的帮助,直接用汉字就很便捷、高效,毫不拖泥带水。
总而言之,电脑化了的汉字信息检索真正实现了从落后、低效、繁难的手工操作跨入到自动、高速的电脑时代。
下面,让我们通过观察具体应用情况,了解一下电脑化检索的实际情况。
5.现今汉语拼音在国家图书馆图书检索中的使用下面就两项检索应用(查王蒙作品和查红楼梦),具体比较一下纸质卡片和电脑检索的情况。
查找王蒙作品①利用传统纸质卡片。
国家图书馆纸质卡片有三种:主题分类,作者拼音,著作名称拼音。
使用作者拼音卡片,按字母顺序容易找到姓wang 的作者卡片。
这些卡片里姓王的连排在一起;姓汪的连排在一起;...姓旺的连排在一起。
你在姓王的作者中,再找第二字的拼音是m打头的,其中会很容易找到‘王蒙’,完成查找。
显示汉语拼音的极好可用性。
②利用电脑检索系统和作者名字:‘王蒙’。
实际上,现今在国家图书馆已经很少有人还使用纸质卡片,大多数读者,或者说几乎全部读者,都使用电脑检索系统。
利用电脑,进入检索页面后,直接用汉字检索词‘王蒙’做作者查找。
立刻得到328条结果。
逐页翻看,几乎每一条信息都可用。
显示出汉字电脑检索的快速、便捷。
③利用电脑检索系统和作者拼音名字:‘wangmeng ’或者‘Wangmeng ’(注意,此处‘姓’与‘名’间无空格)。
也能立刻得到结果:“没有找到任何匹配的记录”,即检索失败。
④利用电脑检索系统和作者拼音名字:‘Wang meng ’或者‘wang meng ’(注意,此处‘姓’与‘名’间有空格)。
也能立刻得到显示结果:中文2000条,外文22条。
但逐个翻页用目视查找,在前三页仅仅有一条是属于‘王蒙’的。
其他条目分别属于:王猛(原国家体委领导),王梦,王濛(滑冰运动员),王萌(初中生一名,大学毕业生一名),王梦应,王梦魁,王梦鼎,王梦初,王孟英,王蒙田,等等。
由于大量同音名字使检索失败。
查找红楼梦①利用传统纸质卡片使用著作者名字拼音卡片或者书名拼音卡片,很容易完成查找。
显示汉语拼音在纸质印品检索时的极好有效性。
②利用电脑检索系统和著作篇名字:‘红楼梦’。
利用电脑,进入检索页面后,直接用汉字检索词‘红楼梦’,立刻得到中文结果1000条,外文结果28条。
逐页翻看,几乎每一条信息都可用。
其中外文结果都是日文版著作,名字使用了汉字。
显示出电脑汉字检索的高效、便捷。
③利用电脑检索系统和作品拼音名字:‘hongloumeng ’。
也能立刻得到结果:“没有找到任何匹配的记录”,即检索失败。
④利用电脑检索系统和作品拼音名字:‘Hongloumeng ’。
也能立刻得一条外文结果,是一部法文著作。
没有找到中文作品。
这也表明检索基本失败。
6.汉语拼音在百度查询中的使用①查找汉字检索词‘王蒙’立即显示:花费0。
001秒,得到1 130 000条结果。
翻看前两页,大部分是想要的,也查出古代中国画家王蒙一条。
显示出汉字电脑检索的高效、便捷。
②查找汉语拼音检索词‘wangmeng ’立即显示花费0。
0036秒,得到337 000条结果。
翻看前两页,大部分都不是想要的,同音不同人现象严重。
应该看作是拼音检索失败。
7.汉语拼音在北京公交网及国旅网上检索中的使用在北京公交网上查询,地名、站名都只能使用汉字。
当使用汉语拼音时,系统立即提示:名字非法。
在国旅网上查询,旅游出发地地名、和目的地站名都使用下拉菜单方式,显示出一系列汉字地名,供用户用鼠标点击选择。
不需要、也不能使用汉语拼音。
上述6和7 中的情况,是不是系统设计没有搞好?不是。
这种设计是有意封闭或封杀使用拼音,因为拼音带来的地名混淆没有办法由计算机自动处理,并且拼音的存储和查找都比用汉字的要多耗费至少一半的存储空间和运行时间。
8.汉语拼音在电子文档检索中功能的基本评价和分析从上述(5).~(7)中的事实看,可以说汉语拼音在电子文档检索中是不能用(如在公交网和国旅网),或者是不好用(如在国图)。
在现今中文网站上的检索,可以只用汉字完成,不必要使用汉语拼音。