作者简介:崔刚(1966)),副教授,博士,研究方向:心理语言学与计算语言学收稿日期:2000-09-112001年第2期总第142期外语与外语教学For eign L anguages and T heir T eaching2001,l 2Serial l 142计算心理语言学简介崔 刚(清华大学外语系,北京 100084)摘 要:计算心理语言学是一门介于心理语言学和计算机科学之间的跨学科的研究领域。
本文讨论了计算心理语言学与心理语言学之间的关系,并分别对语言理解和言语产生过程中句法处理和句法编码的计算心理语言学模式进行了评述。
关键词:计算心理语言学;句法;句法编码 Abstract:Co mputational psy cholinguistics is a joint study ar ea of computational science and psycholinguistics.In this paper,the w riter makes an effort to discuss the significance of this new area of study for psy cholingui stics and introduce the comput atio nal models of the grammatical processes in both language compr ehension and speech pr oduction.Key words:computat ional psycholinguistics,syntax,syntactic encoding中图分类号:H0-05 文献标识码:A 文章编号:1004-6038(2001)02-0014-05计算心理语言学是近年来随着心理语言学和计算机科学的不断发展而产生的一门跨多学科的研究领域,其研究的重点在于以现有的心理语言学研究成果为基础,采用计算机技术模拟心理语言学提出的各种关于言语理解和言语产生的模式,帮助心理语言学家验证模式的正确性,并为人工智能中自然语言的处理提供理论基础。
1.计算机心理语言学研究对心理语言学的重要性在心理语言学的发展过程中,研究者提出了许多模式来解释语言处理过程中各个阶段内所发生的心理过程,从而使我们对人类语言处理系统的构成具有了一定的认识。
尤其是近十几年来,由于科技的发展为心理语言学研究提供了更精确的测量工具,研究者可以获得更为准确的数据,心理语言学家对语言处理过程各个阶段的认识越来越深刻,他们所提出的心理语言学模式也越来越复杂。
(L ev elt,1996)与此同时,计算机技术得到了飞速的发展,而且被广泛地应用到各个领域,许多心理语言学家开始求助于计算机技术,力图通过计算机的模拟技术来验证这些模式的正确性。
目前,计算机模拟已经成为心理语言学研究人类语言处理的重要手段。
图1显示了计算心理语言学的基本工作流程。
(Dijkstra and Smedt,1996:5)如图1所示,心理语言学中关于语言理解与产生的模式可以使用自然语言进行表述,也可借助计算机语言转化为计算机模型,这一模型可以通过计算机编程语言制作成一系列可以运行的计算机程序。
计算机程序的运行过程实际上就是模拟人类自然语言处理的过程,因此,模拟结果和心理语言学实验结果的比较可以验证心理语言学理论,为心理语言学理论的修订与发展奠定基础。
图1 计算心理语言学基本工作流程计算机模拟技术极大地推动了心理语言学的发展,因为采用计算机模型与传统的单纯使用自然表述的模式相比具有明显的优势。
(1)计算机模拟可以提高心理语言学研究的效率和心理语言学理论的可靠性。
传统的心理语言学研究主要采用观察和试验的方法,但是这两种方法都有一定的局限性。
首先,无论是观察还是试验,能够采集的数据量都不大,从某种程度上来说,数据的不足就使得结论不具有广泛性和普遍性。
其次,耗时较长,这一点在利用观察的方法时更为突出。
时间长就使得被测个体或群体的内部因素不稳定,例如心情变化、知识增长、生理变化等等,从而导致实验结果与实际有误差。
再次,观察者和试验者都难免在研究过程中出现错误,而重复试验有时又不可行,这就无法保证试验结果的准确性。
而现有的计算机技术为解决上述问题提供了方便。
利用计算机进行模拟,我们可以获得更多的有效数据,从而使结论更具普遍性。
计算机自动、快速的运行和处理功能可节约大量的人力、物力和时间。
计算机的准确性可以在一定程度上保证结果的准确性,而且,最重要的一点在于计算机保证了试验和结果的实时性。
(2)计算机模拟可以进行一些传统上难以进行的实验。
正如Cutler(1981)所指出的,心理语言学实验正在变得越来越难以进行,因为在设计实验时需要考虑太多的相关因素,例如,在设计关于词汇认知的实验时,需要考虑有可能影响词汇认知的各种因素,包括词频、词频相近的单词数量及其意义、语音相近的词的数量及相关词的意义、近义词的数量及其意义、听话者对单词的熟悉程度等等。
如果不采用计算机模拟的方法,要把所有的这些因素都考虑在内进行实验是非常困难的。
而且,还有一些实验根本无法直接以人为实验对象进行。
例如,有些研究者(例如,Patterson,Seidenberg and M cClelland,1989;Haarmann and Kolk,1991等)采用计算机模拟技术进行大脑损伤导致失语症的各种实验,而这种实验根本不可能在正常人身上进行。
(3)计算机模拟有助于人们检验心理语言学理论的完整性和内部一致性。
根据某一心理语言学模式建立的计算机模型,只要编程无误,通过计算机程序的运行就应该得出心理语言学模式所预期的结果。
例如,关于语言理解的计算机模型可以产生对词汇的识别或对句子解释的结果。
计算机程序能否顺利运行能够有效地检验心理语言学模式的内部一致性,如果计算机程序能够顺利运行,就说明心理语言学理论在逻辑上是前后一致的,不存在定义不清、自相矛盾和循环论证等问题。
而计算机模拟的结果能否与预测的结果一致可以有效地检验心理语言学模式的完整性。
如果计算机模拟的结果与人的言语行为相同,这说明计算机模型所依据的心理语言学理论是可靠的。
正如桂诗春教授(1991:58)所指出的那样:/并不是所有的心理学理论都是那样清楚明白的,有的往往较为含混,甚至循环论证。
这些理论看上去有一定的吸引力,但却经不起推敲和科学论证。
计算机模拟有助于我们清楚明了前后一致的认知心理语言学理论。
0(4)计算机模拟可以为心理语言学的研究提出新的研究课题,从而为心理语言学的发展注入新的活力。
计算机模拟往往会产生一些出人意料的结果,心理语言学家则需要解释产生这些结果的原因。
这些结果有助于修订原有的心理语言学理论,还会推动研究者继续开展进一步的研究。
2.语言的理解语言的理解是心理语言学研究的中心问题之一。
在计算心理语言学中,与语言的理解相关的计算机模型主要涉及言语听辨、句法处理和语篇的理解三个方面。
目前,在计算心理语言学领域,言语听辨的代表性模型有两种:言语听辨的模糊逻辑模型(Fuzzy L ogical M odel of Percept ion,F LM P) (M assaro,1996)和跟踪模型(T race M odel)(M cClelland and Elman,1986;M cClelland,1991)。
关于语篇理解的代表性模型也有两个,一个是由K intsch和van Dijk在1978年提出的命题模型(Pro positio n M odel),另一个是Sharkey(1990)所提出的语篇理解的关联模型(Connectionist M odel of T ex t Co m-prehension)。
本文主要介绍句法处理的模型。
句法处理是计算心理语言学所研究最早最多的领域,早在1972年Kaplan就提出了句法处理扩展转移网络模型(augmented transition networ ks,AT N)。
在1973年,Kimball 又提出了自然语言表层结构分析的七条原则,从此以后,句法处理一直是计算心理语言学的中心课题之一。
句法处理主要关注句子歧义的问题。
句子歧义的原因有两方面:一是由句子结构引起的歧义,二是由一词多义或一词有多个语法类别造成的。
因此,现有的句法处理模型就可相应地分为由短语结构驱动型(phrase-structure dr iven)和词汇驱动型(lex ically dr iven)两种。
在短语驱动型模式中,作句法分析时多采用最少附着项(M inimal Attachment)的原则(M itchell,1994),该原则强调句法分析的结果应使得句法树的结点最少。
在词汇驱动型模式中,句法分析则主要采用右侧结合原则(Right Associatio n)。
右侧结合原则是Kimball在1973年提出的,他认为在句法处理中,新的组成成分倾向于与现有句法树的最右边的非终结点结合。
例如,T he man kept the dog in the house这个句子分别用最少附着项原则和右侧结合原则分析可得到以下两个不同的句法树:SN PT he manVPV N Pthe dogPPin house.最少附着项原则SNPT he manV PVkeptN PNPthe dogP Pin the house.右侧结合原则图2两种不同的句法分析方法目前,关于句法分析比较成熟的计算心理语言学模型是移进)归约句法分析模型(Shift-Reduce Parsing)。
(Shieber, 1983;Pereira,1985;Abney,1989)移进)归约句法分析模型主要用来解决词类模糊的问题(即词类不确定的问题)。
其原理是:为了消除不确定性,程序提前考虑所有可能的词类,并把它们储存在控制表中,然后让输入一步步消除所有其他的可能性,问题就会自然得到解决。
该模型主要由两个模块组成:一个是句法模块,一个是输入模块。
句法模块中包含句法状态和语法符号;输入模块中包含一些等待加工的自左向右排列的句子。
归约指的是当一条句法规则完成后,就会重写句法模块顶部的符号,并且把新的符号压入输入模块的顶部,若输入模块的符号与该符号(图3中的箭头及箭头上的标记)相符,则该符号和新的状态将被一起压入句法模块的顶部,这就是移进。
移进)归约句法分析模型的句法分析过程如图3所示(箭头所指为转移方向):图3 移进)归约句法分析模型我们用*NP 表示将要输入一个名词短语,用N P *表示已经输入一个名词短语,而S 则标记输入状态,图3的工作过程为:初始状态S0:S->*N P V PNP->*AR T N状态S1:NP->AR T *NS->N P *VP状态S2:S ->N *VP V P->*AU X V N P V P->*V N PVP 有两种可能的输入,一种是情态动词+动词+名词短语,另一种可能是动词+名词短语,计算机预先保存了这两种可能。