当前位置:文档之家› 意念词典·语义词典·机器翻译

意念词典·语义词典·机器翻译

意念词典·语义词典·机器翻译易绵竹薛恩奎/解放军外国语学院提要词典或词库建设是研制开发自然语言处理系统的一项重要基础性工程,它区别于纸版辞书的特征是能存放在计算机系统中供语言信息处理程序使用,它一般以CD—ROM(Compact Disc—Read Only Memory高密度盘只读存储器)为介质,登录构成句子的词汇单位所负载的词法信息、句法信息、语用信息、概念信息及对译信息,这就是所谓的机器可读词典(Machine Readable Dictionary,MRD)或电子词典。

本文将讨论意念词典、语义词典的性质和编纂原则以及它们在语言信息处理中的作用。

关键词意念词典语义词典电子词典机器翻译1. 电子词典是机器翻译系统工程化的一个重要方面据有关文献记载,前苏联工程师П.П.Троянский首次提出了机器翻译设想。

1933年9月5日,他在莫斯科登记一项专利,其内容是要求保护“制造一台在从一种语言翻译成另一种语言或多种语言时能选择和打印词汇的机器”的专利,这实际上是一台查字典的机器,其思想已经使计算机介入了语言翻译环节。

(ЭСЮФ 1984:214;吴蔚天等1994:224)1946年当世界上第一台电子计算机问世之时,就有人考虑将它应用到语言学研究中,并由此产生了“计算语言学”这一边缘性交叉学科。

但是由于受计算机功能和程序设计环境上的制约,当时只能做词条索引及词语系统等方面的工作。

1949年,美国工程师W.Weaver(韦弗)提出使用计算机可能“解决世界范围内的翻译问题”,其主要方法也是“查字典”:先为源语言中的每一个词查出一个目标语言中的等价词,再按照目标语言的语法规则来编排每一个词,从而达到翻译的目的。

(林尧瑞等 1996:305)可见,词典在机器翻译的原初设想中占据重要地位。

在计算语言学文献中,电子词典亦称自动词典或机器词典,它被认为是语言工程的支柱和基石,构建信息含量大、功能齐全的电子词典应当成为民族语言现代化的一项基本建设。

冯志伟先生正确指出:“机器翻译系统的基本信息都来自机器词典,语法语义规则利用来自机器词典中的各种静态信息,运算出表示话语语义特征的各种动态信息来。

因此,我们可以说,机器词典是机器翻译的基础,没有好的机器词典,机器翻译就等于做无米之炊,是根本无法进行的。

近年来,,机器词典的研制成为一种专门学问,叫做‘电子词典’(electronic dictionary)。

电子词典是机器翻译系统工程化的一个重要方面。

”(冯志伟1994:231)电子词典是服务于机器翻译的知识库(лингвистическаябазазнаний)的重要构件之一(另一重要构件是语法规则库),它构造的是知识库而不是数据库。

电子词典的词条是具有完整意义的单词所代表的简单概念或词素(simple concept or lexeme)和具有完整意义的非自由短语(固定词组或句子)所代表的复合概念或句素(complex concept or phraseme/syntaxeme),而由这些概念所形成的层级化、秩序化的语义关系网络,能够充分揭示中外语言单位之间的内在逻辑联系,为计算机理解词义、句义及篇章义奠定基础。

(姚天顺等1995:215 216)众所周知,机器翻译的逻辑过程通常分为分析、转换和生成3个阶段,而对词汇的处理则贯穿机器翻译的全过程。

在分析过程中,通过设置一定的语义限制,以便于从源语言一个词的多个义项中选择一个正确的词义,亦即排除词汇歧义:在生成过程中,源语言一个词义往往可用目标语言不同的词来表达,如何选择一个符合目标语言表达习惯的等价词则是选词模块的主要工作:而在转换过程中,主要涉及两种语言词汇的转换和语言表达结构的转换。

2. 意念词典的性质及编纂原则2.1 什么是意念词典确定于计算机语言信息处理的总词表或总词库,实际上就是构造某种语言的义类词典(тезаурс),而义类词典亦称意念词典或概念词典(идеологический,идеографическийилиюнцептуальныйсловари)И.М.Кобозева将义类词典确定为语言内容平面聚合关系结构的模式(тезаурускакмодельпарадигматическойструктруыпланасодержанияязыка),并把它看作该语言的语义场系统。

(И.M.Кобозева 2000:123 124) 在各类辞书中,对义类词典或意念词典的译义大同小异,下面试列几条:(1)ТЕЗАУРУС(отгреч.thesauros-сокровище,сокровищница)— 1)словарь,вк-роммаксимальнополнопредставленывсесловаязыкасисчерпывающимпереченемпримеровихупореблениявконтекстах;2)идеографичекийсловарь,вк-ромпоказанысемантическиеотношения(родо-видовые,синонимическиеидр.)междулексическимиединицами.(ЛЭС 1990:506)(2)ТЕЗАУРУС—идеографическийсловарь,вкоторомпоказанысемантическиеотношениямеждуегоединицами.Структунойосновойтезаурусаявляетсяиерархическаясистемапонятийконкретнойпредметнойобласти.(ПЯ1996:13)(3)ТЕЗАУРУС…винформатике—полныйсистематизированныйнаборданныхокакой-л.областизнания,позволяющийчеловекуиливычислительноймашниевнейориентироваться.(ССИС 1992:597-598)(4)ТЕЗАУРУС(спец.)— 1)словарьязыка,ставящийзадачуполногоотражениявсейеголексики;2)словарьилисводданных,полностьюохватывающийтермины,понятиякакой-н.специальнойсферы.(ТСРЯ 1992:819)(5)THESAURUS — dictionary of words and phrases grouped together acoording to similarities in their meanings.同义语字汇;同义语字典。

(OALDCECT 1984:1223) 由上面所引这些译义可以推断,意念词典旨在揭示词汇单位之间各种语义关系(种—属关系、同义关系等),以构成语言知识库的语义描写系统,并使之与某个具体知识领域的概念层级系统对接起来,为人机通用的知识信息处理服务。

2.2 意念词典的编纂原则与一般详解的词典并不同,意念词典的词条不是按字母顺序排列,而是按一定主题原则(тематическийпринцип)排列。

从这个角度看,编纂意念词典应当尽可能全面地搜罗有关语言中概念相近、语义相关的所有词汇及短语,并将它们按照一定的主题原则分门别类,也就把这些词汇和短语表示的不同意义分成若干概念类目,用特定的符号代码标示出来,分别填入不同的工作单。

这样,意念词典的词条是由词典和短语所代表的概念类目(таксон),而概念类目实际上就是语义场。

确切地讲,意念词典输入的是“意念”(идеи),即概念范畴,而输出的却是表达该概念范畴的词汇或短语。

原则上,一部标准的意念(义类)词典应具有以下4种输入方式(参见И.М.Кобозева2000:125)。

1)由概念到概念(отконцептакконцепту:К→К),亦即从一个概念寻绎体现在纵横相联(上—下位、种—属、属—属等关联)的概念图式中另一概念。

这种图式是意念词典的基础,它被称作统览图式(синоптическаясхема)。

2)由概念到语词符号(отконцептакзнаку:К→З),亦即从一个概念寻绎表达这个概念的所有语词,它是意念词典的主干部分。

3)由语词符号到概念(отзнакакконцепту:З→К),亦即从贝字母顺序编排的词汇表中标志出某个语词在概念场的访问地址。

4)由语词符号到语词符号(отзнакакзнаку:З→З),亦即由一个语词(多为词组成短语)找出另一个单个的词,比如,从автоматический找到автоматизация总的说来,意念词典的构造原则在许多方面还存在争议,其争议的焦点可归结为下面4个方面的问题(А.Н.Баранов2000:64 65或访问http://ramina.irk.ru/lang/dict/agens.htm)。

1)如何提取语词的某个义素作为概念类目的名称?因为原则上任何义素均可选作概念类目,如俄语动词обманывать (欺骗)既可列入主题栏《ОБМАН,ЛОЖЬ》。

也可并入《ДОСТИЖЕНИЕЦЕЛИ》,《НЕКООПЕРАТИВНОСТЬПОВЕДЕНИЯ》,《ЭТИЧЕСКИЕНОРМЫ》,《ПРЕСТУПЛЕНИЕ》等类目。

2)怎样才能使概念层级系统囊括所有的语义关系类型?须知,词汇单位之间的语义关系绝非仅限于种—属、同义关系,还可能存在推涵/因果关系(отношенияследствия)、联想关系(отношенияассоциации)、论证关系(отношенияобоснования)等。

因此,采用树型图的分析方法不可能构筑严整的概念层级系统,为了表征多重的语义关系,最理想的方法是用语义网络(семаническаятеть)结构图,使各个语词能在其中彼此关联,相互引证。

3)如何制定概念类目划分的统一规则?因为只有根据统一的概念类目划分规则,方可判定语词的哪些义素能够选作概念类目,而哪些义素又是禁止用作概念类目的。

4)怎样区分素朴的与科学的世界观(наивныйинаучныйвзгляднамир)?亦即如何使概念的层级系统或统览图式与素朴的和科学的世界图景相吻合(наивнаяинаучнаякартинамира)?所谓“素朴的世界图景”,是指操某种语言的中等智力者对世界的映像,这种映像建立在前科学家的一般概念之基础上,而这些概念是由中等智力者掌握的语言所前定的。

波兰著名语言学家А.Вежбицкая在研究用于词义描写的语义原语(семантическийметаязык)过程中提出的心智语言(ligua mentalis),实质上就是素朴世界图景的概念构架。

相关主题