当前位置:文档之家› 自然语言理解

自然语言理解

自然语言理解
自然语言也就是我们是日常使用的语言,像各国语言汉语,英语等只要能完成人们之间相互交流的语言就成为自然语言,自然语言是人类学习环境和互相通讯的工具。

在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。

就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。

所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。

根据可计算性理论,任一计算机的运算都是按一定程序,分步骤相继作用在离散对象之上所完成的,而这些对象又都以线性序列相邻接地排列组合所构成。

而自然语言具有的离散性、序列性和邻接性三个特征其具备了“可计算性”,为自然语言处理奠定了物质基础。

语法是语言的组织规律。

语法规则制约着如何把词素构成词,把词构成词组和句子。

语言正是在这种严格的制约关系中构成的。

用词素构成词的规则称为构词规则,如“学”+“生”构成“学生”。

一个词又有不同的词形、单数、复数、阴性、阳性等等。

这种构造词形的规则称为构形法,如“学生”+“们”构成“学生们”。

这里,只是在原来的词的后面加上了一个具有复数意义的词素,所构成的并不是一个新词,而是同一个词的复数形式。

构形法和构词法称为词法。

语法中的另一部分是句法。

句法可分为词组构造法和造句法两部分。

词组构造法是把词搭配成词组的规则,例如,把“新”+“朋友”构成“新朋友”。

这里,“新”是一个修饰“朋友”的形容词,它们的组合构成了一个新的名词。

造句法则是用词和词组构造句子的规则,如“我们是计算机系的学生”就是按照汉语造句法构造的句子。

对于自然语言德理解,能够更好的处理计算机语言与人类语言的交互。

他也就是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。

自然语言理解通常又叫自然语言处理,因为处理自然语言的关键是要让计算机“理解”自然语言。

但什么是“理解”呢?对于这个术语也存在着各式各样的认识。

如心理学家认为,理解是“紧张的思维活动的结果”,哲学家认为,理解是“认识或揭露事物中本质的东西”,而逻辑学家则认为理解是“把新的知识、经验
纳入已有的认识结构而产生的”。

这样,自然语言的理解过程,实质上是把一种表达转换为另一种表达的过程,这种转换也可视为映射。

建立自然语言理解系统就是寻求映射的算法,使机器能够得到同人在理解上相当的输出。

判断机器是否理解语言的最直观的方法,当然是依据机器对你所提出问题的回答,来判定机器是否理解了你的问话。

自然语言理解是计算语言学及人工智能的一个重要分支。

目前,针对自然语言理解的研究基本还停留在词法分析和句法分析的层面上,对语义层面的探索是很有限的,我国在这方面的研究成果很少。

人机交互和人工智能的核心问题都可归结为语义计算的问题,因此语义计算的研究是非常重要的。

目前国外在语义计算方面正呈现出快速发展的状态,因此这一问题的研究对于赶超国外先进的科学技术有着重要的意义。

自然语言处理的研究大体上经历了三个时期,即60年代以关键词匹配为主流的早期,70年代以句法-语义分析为主流的中期,和80年代开始走向实用化和工程化的近期。

2.1以关键词匹配为主流的早期历史
当通用计算机问世时,人们想到的第一件事就是用计算机把一种语言翻译成另一种语言。

在开始的15年(1950-1965年),机器翻译几乎成了所有自然语言处理系统的中心课题。

当时人们相信好的译文可以通过分别处理查词典和重新排列词序两步操作来得到。

于是那时的学者们普遍认为机器翻译包括两个基本过程,即查词典和语法分析。

即首先通过查词典,将源语文章的每个词的对应的目标词查找出来,然后再进行第二步,即语法分析——调整词序、词尾和形式等等。

2.2以句法-语义分析为主流的中期历史
进入70年代以后,一批采用句法-语义分析技术的自然语言理解系统脱颖而出。

这个时期的代表作是LUNAR,SHRDLU和MARGIE系统。

这些系统的主要特点是在句法,语义的分析中采用了所需要的知识表达形式和处理模型,尽管它还是局限在某个领域内,但在语言分析的深度和难度方面都比早期系统有了长足的进步,能够更好地理解自然语言,标志着自然语言处理进入了一个新的阶段。

下面以LUNAR系统作为例子。

2.3走向实用化和工程化为特征的近期历史
自然语言的最大特点就是充满了歧义。

句法分析达不到令人满意的效果,是由于其不能很好地解决自然语言中的各种歧义现象。

因此语义分析就成了自然语言理解的研究主题。

其目的是根据上下文辨识一个多义词在指定句子中的确切意义,然后根据
该句子的句法结构和各词的词义推导出这个句子的句义,并用形式化的方式表达出来,从而使计算机能够根据这一表示进行推理。

到80年代一批新的语法理论脱颖而出,具有代表性的有词汇功能语法(LFG)、功能合一语法
(FUG)和广义短语结构语法(GPSG)等。

基于语料库的方法主要存在两个问题:首先,由于只是根据概率统计值来进行自然语言处理,因此缺乏对语言内部的深入理解,导致正确率受到极大的限制;其次,模型要求大规模语料库和人工标注工作量过大之间存在矛盾。

可以通过以下的方法来解决上述的问题:首先,是引入部分规则机制来弥补对语言理解的不足,也就是规则和统计相结合的汉语自动分词;其次,通过引入开放学习机制,不断修正统计数据,弥补语料统计数据的局限性。

应该说,凡是汉语语法研究的成果对机器理解汉语都是有用的,似乎没必要区分面向人的研究还是面向机器的研究。

只不过当前的计算机的智力比人类差得远,要教会这样一个“傻瓜”理解自然语言,既需要提出一个合理的可以实现的培养目标,又需要有一套特别设计的教材与教学法,在这个意义上讲,面向机器的语法研究可以看作是对计算机的语言教学研究。

自然语言处理的中心任务就是要得到既作为分析的结果又作为生成的起源的机内中间表示形式。

计算语言学家为此进行了艰苦的探索,建立了各种模型。

自然语言的理解在语言的结构、语义和发音3 方面都有待更深入地研究和实践,为计算机能识别和处理自然语言提供技术基础,使其向智能机器迈进,更好地替代人类的劳动。

本文从语言的语法角度分析了语言的组成结构,并介绍了一种通过计算机高级语言容易实现的语法分析算法,通过实例分析证明其正确性。

该算法结合文法规则,利用栈的结构来实现,具有较好的效率和应用价值。

当前在计算机普及应用中,为了让计算机更方便地为人类服务,人们迫切希望用自然语言同计算机进行通讯的时代早日到来,这正是计算机科学家,语言学家,心理学家等寻求的目标。

自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。

在美、英、日、法等发达国家,自然语言处理如今不仅作为人
工智能的核心课题来研究,而且也作为新一代计算机的核心课题来研究。

从知识产业的角度来看,自然语言处理的软件也占重要地位,专家系统,数据库、知识库,计算机辅助设计系统、计算机辅助教学系统、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人-机界面。

从长远看,具有篇章理解
能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘,自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。

[1] 曹佩.论自然语言处理[J].信息与电脑(理论版), China Computer & Communication.2010-05-142.
[2] 贾丽娟.一种自然语言理解中语法分析的算法设计与实现[J].软件导刊.2010-05.。

相关主题