当前位置:文档之家› 面向信息处理的汉语复句研究

面向信息处理的汉语复句研究

面向信息处理的汉语复句研究面向信息处理的汉语复句研究是一项文理交叉的大型跨学科研究,对于汉外翻译、汉语篇章理解都十分重要。

本文介绍了面向信息处理的汉语复句研究领域采用的主要方法、关键技术以及研究成果。

标签:汉语复句信息处理语法分析语义分析一、前言中文信息处理包括字处理、词处理、句处理、篇章处理。

目前已经完成了字处理,较好地解决了词处理,正在向句处理迈进。

句处理内容复杂,包括句法知识、语义知识和语用知识等。

目前对于汉语单句的计算机处理研究较多,而对于汉语复句的计算机处理研究较少。

复句是由两个或更多的相对独立的主谓结构按照一定组合规律构成一个结合体,表达思想确切周密,传递信息内涵丰富。

从结构上看,复句是由小句联结而成的,由于它下连小句,上连篇章,在单句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面的属性。

深入研究汉语复句,对于汉外翻译、汉语篇章理解都是十分重要的。

几年来,随着信息处理的发展,汉语复句研究领域出现了新视野、新角度、新方法,有不少研究者加入汉语复句的信息处理工作中。

二、研究主要方法复句的信息处理最早是出于机器翻译的需要。

20世纪90年代初,周明、李生等人提出了一整套计算机对汉语复句的分析方法,并将该方法应用于CEMTI 汉英机器翻译系统中。

在这之后的十几年时间里,汉语复句的信息处理方法大致分为两类:基于语法形式的分析和基于语义分析。

随着技术的不断发展,理论的不断创新,呈现出两类方法综合起来进行处理的发展趋势。

(一)语法形式分析方法该方法从复句的结构入手,几乎不涉及语义范畴的概念。

分析的目标是:给出复句的深层句法分析,包括关联词语的识别、分句逻辑关系确定、形式化地表示出复句的层次结构关系等。

对复句作深层句法分析,一般首先从单复句的区分、复句的定义出发来分析复句的结构,并利用一种模型把复句结构化。

分析过程通常包括以下几个步骤:(1)词法分析:包括自动分词、词性处理、对关联词语加以确认。

(2)分句处理:分句数目确定,分句间的关系分析,解决分句的省略、指代现象。

(3)综合结果:综合各个分句的分析结果,构成语法分析树或功能结构树。

基于上述方法,张仕仁(1994)提出用盒式图来表示复句的形式结构,用复杂特征集来表示复句的意义结构。

通过对复句结构的分析,把复句归结为由三种基本成份构成:分句、联合结构、偏正结构,并用盒式图表示这些结构,以此构造出各式各样的复句来。

为了能正确地划分复句基本结构的类型,采用了复杂特征集描述。

首先由词库给出单词、给出单词的复杂特征集,进而分别形成短语、分句、复句复杂特征集。

最后构造出一棵复句的“功能结构树”。

该方法单纯从语法结构出发,当复句存在语义歧义的时候,就不能很好地处理。

而且文中也没有论述如何处理结构歧义问题。

另外,文中提到复句的形式结构的三种基本成分分类似乎欠妥,因为复句是由分句构成的,“分句”这个所谓的成分是从组成或构成角度来说的,联合结构、偏正结构,是从分句之间的逻来说的。

因此是把不同范畴的概念混淆在一起作为复句的三种基本成分了。

深层句法分析需要综合考虑多种因素,因而难度总是比较大。

集中力量解决复句分析中的某一个问题,是许多研究者采取的策略。

在词、短语、单句教学与研究中,分析的主要是结构、功能,尤其强调这三者的语法构造是一致的。

分析复句,则不得不抛开语法结构,而转为逻辑分析。

所以形式化地表示出复句的层次结构关系,成为许多学者研究的目标。

文献在依托复句本体研究的成果基础上,考察了复句关系词语的包孕机制对二重复句结构层次自动分析的辅助作用。

对于关系词语没有省略的二重复句,通过三个步骤实现结构层次的自动分析:第一,计算机掌握关系词语之间的常规组配形式;第二,最临近配对分句首先构成复句模块;第三,确定复句模块的层次归属。

另外,对于关系词语省略的复句,根据关系词语的包孕机制,来判断或辅助分析复句的层次情况。

显然,此篇论文研究有其局限性。

首先,论文中分析的手段是关联词语,但是从文中得出的结论可以看出,依据关系词语只能解决部分情况下二重复句的结构层次自动分析,在更多情况下多重复句结构层次的自动分析仅凭关系词语是无法解决的。

其次,分析的对象是限于二重复句的。

然而实际运用中,三重复句也是比较常见的,因此有必要把对象扩展为多重复句。

多重复句的结构层次划分,是语篇内部不同层级意义相对完整的体现,对于语篇的理解具有非常重要的作用。

中国社会科学院的鲁松、白硕将目标聚焦在多重关系复句的层次分析上。

并且提出“关系层次树”这个概念来形式化地表示多重关系复句的层次结构。

文章首先引入了上下文无关文法来表述多重复句,然后给出了一种具有预测机制、自底向上、部分数据驱动的确定性移进——规约关系层次分析算法。

整个分析算法的形式化基础是关联词语。

层次的分析过程是以关联词语提取预处理为前提,针对关联词语进行移进——规约操作。

通过开放测试,得出复句关系层次分析的正确率达到93.56%。

算法分析仍然是以关联词语为着眼点,对于没有任何关联词语指示的多重复句算法无能为力。

(二)语义分析方法汉语的形态不发达,因此汉语中语法分析比较困难。

并且汉语是一种“重意合”、“轻形式”的语言,即它是以语义为主,不大注重形式。

因此,在中文信息处理中,要理解汉语复句并进行处理,就要分析复句的句法,显式地描述复句各组成成分之间的语义。

研究者寻求一种有效的进行汉语复句语义分析,生成复句语义表示的方法。

最具代表性的是华中师范大学的胡金柱、罗旋、王琳等人所作的一系列的研究工作。

他们将本体技术用于复句领域的概念建模。

据介绍,建立复句的本体模型有助于更好地理解复句领域所有的概念和概念之间隐藏的语义,能为汉语复句语义上的计算机自动识别提供支持。

胡金柱(2005)首先介绍了本体研究现状,然后介绍了本体元模型建模方法,通过对复句静态结构及与小句关系的分析,在汉语小句元模型的基础上初步构造了汉语复句静态本体模型。

正式引入了本体理论来研究复句领域的建模问题。

概括地说,把一个模型应用到概念的结果就是本体,建模的方式也就是将事物表示成一个五元组:1.类/概念;2.关系;3.函数;4.公理;5.实例,即从这五个视角来观察事物。

基于上述思想,在分析了复句领域涉及的词汇和复句结构的基础上,构建了复句本体模型。

从文中的阐述可知,复句领域概念本体描述了该领域的静态知识,论文也提出可以进一步尝试描述领域的动态知识。

另外,还需要对富含的语义进行扩充,将模型形式化地表示出来。

建立面向复句句法标注的本体也是需要努力的目标。

王琳、罗旋(2006)就针对上述问题进行了研究。

王琳所研究的复句语义分析采用的算法思想是:利用本体元建模方法建构了汉语小句元模型,并采用本体网络语言OWL对小句本体进行描述,对小句进行语义分析。

然后利用构成的小句元模型再去描述复句模型,最后生成整个复句的OWL表示。

需要指出的是,论文中模型的构建是从句子的功能构造层面进行分析,对于句子的组成成分关系分析得还不够深入。

另外算法大多还处于理论研究阶段,没有接受计算机的真实测试,必定还包含许多隐藏的因素。

但是有问题存在就有继续研究下去的希望,也为后来的研究者指明了一条道路。

至于文献所做的主要是资源建设方面的工作。

通过建立汉语复句的本体语义标注模型,给出了一个有标复句本体标注说明和标注规范。

在研究了汉语关系词词类自动标注、复句层次自动标注、短语自动标注以及复句类型认定方法的基础上,建立了一个大规模的有标复句语料库和一些标注好的复句库。

目前,语义标注都是需要手工操作来实现,对于大量的文档,这种方法就不是很适用了。

所以半自动化的标注研究,是今后深入研究的又一个目标。

(三)研究发展趋势自然语言理解系统都是以句法分析的结果作为理解的起点,即首先分析出“语法树”,然后赋予其语义。

然而,汉语是一种“意合型”的语言,这一特点导致在汉语理解过程中,单纯把语法分析和语义分析隔离开来是件很困难的事,因此在汉语复句的分析中应寻求一种结合语法分析和语义分析的方法。

邢福义先生(1995)提出的“小句中枢说”以及之后陆续提出的有关小句和复句方面的理论,为复句的信息处理奠定了坚实的理论基础。

罗进军、尹蔚(2006)发展了“小句中枢说”的思想,提出了“小句关联理论”,它包括:(1)小句句法关联;(2)小句语义关联;(3)小句表里关联。

小句句法关联是小句句法形式上的某种联系,在有标复句中就体现在关系词之间的关联。

但是随着研究的深入,仅仅搞清楚小句之间的“句法关联”是不够的,“语义关联”才能够挖掘小句之间深层次的关系。

前者是处理的基础,后者则被称为“攻坚手段”,而“小句表里关联”则被视为复句信息处理的金钥匙。

所谓表里关联,也就是语表形式(句法关联)和语里意义(语义关联)之间存在对应关系。

邢福义先生在“小三角”理论中总结为“表里印证”。

在理论的指导下,作者又提出了有标复句层次关系自动识别的思想和方法。

显然,“小句关联理论”在复句的本体研究与复句信息处理之间搭建了一座理论沟通的桥梁。

在理论的指导下,可以制定研究内容,确立目标,并且切实的展开研究工作。

近年来,邢福义先生主持华中师范大学重点建设学科项目“小句中枢说在汉语与临界领域研究中的应用与验证”。

其中“小句中枢理论的应用与复句信息工程”是其中的一个子项目。

姚双云(2005)介绍了该工程研究内容的网络以及工程的具体规划。

文章详细介绍了工程的阶段性成果——复句语料库。

目前,已经完成了5000个有标复句的句法信息标注,正在准备研制复句自动标注系统。

三、小结复句信息工程的研究是一个文理交叉的大型跨学科专题研究课题。

在汉外翻译、汉语篇章理解、句法分析中对于复句的理解与分析都遇到很大的困难。

开展复句研究工程是很有必要的,有利于推动本体研究,更有利于在涉及“句处理”方面取得进展。

由于目前还处于起步阶段,并且采用的方法和思路比较单一,如何把语法分析方法和语义分析方法紧密地结合起来,充分显示复句的深层结构和语义,都有待于进一步研究。

另外,目前复句的研究主要集中在有标复句,毕竟从关系词这个显性标志着手,研究会比较容易一些,而且它的研究成果也会带动无标复句的处理,实现从“有标”向“无标”过渡,这对于“意合型”的汉语语法来说具有重大的意义。

参考文献:[1]张仕仁.汉语复句的结构分析[J].中文信息学报,1994,(4).[2]胡金柱.本体论在复句领域概念建模中的应用[J].计算机应用研究,2006,(10).[3]周明,李生,石淼.计算机对汉语复句的分析[J].情报科学,1990,(1).[4]李晋霞,刘云.面向计算机的二重复句层次划分研究[A].语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C].2003.[5]鲁松.汉语多重关系复句的关系层次分析[J].软件学报,2001,(7).[6]胡金柱. 汉语复句本体模型初探[J].华中师范大学学报(自然科学版),2005,(4).[7]王琳. 基于本体的汉语复句语义分析[D].华中师范大学,2006.[8]罗旋. 基于复句领域本体的语义标注方法研究[D].华中师范大学,2006.[9]罗进军尹蔚.面向复句信息处理的小句关联理论[J].湘潭师范学院学报(社会科学版),2006 6).[10]姚双云.小句中枢理论的应用与复句信息工程[J].汉语学报,2005,(4).[11]刘云俞士汶.“句管控”与中文信息处理[J].汉语学报,2004,(2).[12]鲁松宋柔.汉英机器翻译中描述型复句的关系识别与处理[J].软件学报,2001.[13]邢福义. 汉语复句研究[M].北京:商务印书馆,2001.(洪鹿平,南京师范大学文学院)。

相关主题