词语搭配抽取的统计方法及计算机实现邓耀臣王同顺(上海交通大学外国语学院,上海200240 )摘要:计算机语料库的发展为词语搭配研究提供了新的方法。
然而,也同样受到资源共享困难和语料分析工具不足的困惑。
本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro (VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法并对这种方法的可行性和结果的可靠性进行了评估。
关键词:词语搭配;统计方法;计算机实现Statistics in Collocation Extraction and Computer ImplementationDENG Yaochen, WANG Tongshun(College of Foreign Studies, Shanghai Jiao Tong University, Shanghai 200240, China) Abstract: The development of computer corpora provides a new approach for collocation study. However, the corpus-based collocation study is restricted by difficulties in resource share and inefficiency of current analysis tools. This paper, on the basis of the introduction to three commonly-used statistics in collocation extraction, proposes a method to calculate the collocation measures and to extract collocations automatically by combining a free concordance software and Visual Foxpro. An evaluation test confirms its practicability and reliability.Key words: collocation, statistics, computer implementation语料库语言学的发展为语言研究开辟了一个新的领域,词语搭配以其在语言产生、语言理解和语言学习中的重要作用无疑处于该领域的中心地位。
然而,基于语料库的词语搭配研究也同样受到资源共享困难和语料分析工具不足的困惑。
目前词语搭配研究中较为权威可靠的工具要么属于商业性软件,如WordSmith,Sara等,价格昂贵,不是一般的研究人员所能拥有;要么功能不全,如TACT仅提供Z-值并且对语料库的大小有严格限制,WordSmith 仅提供MI-值,只能抽取出显著性最高的10个搭配词。
由此可见,现有工具远不能满足语料库深入研究的需要。
本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro(VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法。
通过与TACT和WordSmith 抽取结果的对比,对这种方法的可行性和结果的可靠性进行了评估。
1 词语搭配抽取的统计方法词语搭配指的是词与词的结伴使用这种语言现象,是词语间的典型共现行为(Firth作者简介:邓耀臣(1967—),男,汉,博士研究生。
研究方向:语料库语言学与二语习得。
王同顺(1955—),男,汉,教授,博士生导师。
研究方向:二语习得,大纲设计。
1957:12)。
词语搭配的典型性取决于搭配的概率属性,因为任何搭配都是可能的,只不过一些比另一些更为恰当(Sinclair 1966:411)。
因此,抽取“更为恰当”的、典型的搭配成为词语搭配研究的一个重要方面。
在基于语料库的词语搭配研究中,运用概率信息自动抽取典型词语搭配的方法主要有三种:1)统计搭配词与节点词的共现频数 2)统计测量共现词项间的MI-值 3)统计测量共现词项间的T-值(或Z-值)。
1.1 搭配词与节点词共现频数的统计该方法首先利用检索工具对节点词作带有语境的检索(KWIC ),然后提取一定跨距内与节点词共现的所有词项,并统计这些共现词项的频数。
所谓节点词就是研究者要在语料库中观察和研究其搭配行为的关键词。
跨距指的是节点词的左右语境,以词形为单位计算。
跨距的确定直接关系到搭配词提取的结果 。
以往研究结果表明就英语而言,将跨距界定为-4/+4或-5/+5 是较为合适的。
但是跨距的界定也受所研究文本的语体、文体和语域等因素的影响,因此也要视文本的具体性质和特点而定(卫乃兴 2002:42)。
通常情况下,只有在语料库中与节点词共现频数达到3次以上的词项才可被认为是节点词的搭配词,只出现一次或两次的搭配序列可能是语言使用中的偶然行为。
当然,这也与研究所用语料库的大小有关,如果使用的语料库较小,也可将最低共现频数设为2。
搭配词的共现频数可使研究者清楚看出哪一些词与节点词经常在一起搭配使用。
但是,该方法也存在严重的不足。
由于界定跨距忽略句子界限,并且一些共现词与节点词本来没有语法限制关系,对节点词也没有任何预见作用,只是由于他们是英语中的高频词汇而有可能被当作某一节点词的搭配词。
另外,仅根据共现频数的高低,研究者也无法确定每一个搭配词是否为显著搭配词。
要确定某一搭配词的显著性,就必须运用统计测量的手段,检验每一个搭配词与节点词之间的相互预见和相互吸引程度,判断它们的共现行为在多大程度上体现了词语组合的典型性。
常用的测量方法是计算共现词项间的T-值和MI-值。
1.2 T-值和MI-值的计算计算T-值和MI-值都是通过比较搭配词的观察频数和期望频数的差异来确定某一词语搭配在语料库中出现概率的显著程度(Hunston 2002:70)。
MI-值(Mutual Information Score,互信息值)表示的是互相共现的两个词中,一个词对另一个词的影响程度或者说一个词在语料库中出现的频数所能提供的关于另一个词出现的概率信息。
MI 值越大,说明节点词对其词汇环境影响越大,对其搭配词吸引力越强。
因此,MI 值表示的是词语间的搭配强度。
MI-值的计算公式为:)()();(2);(log y x y x y x P P P MI ⨯==)()(),(2log y x y x F F N F ⨯⨯公式中x ,y 代表两个相互共现的词项,P (x) ,P (y)分别表示词项x ,y 在语料库中出现的概率, F (x),,F (y)分别表示词项x, y 在语料库中出现的频率,F (x,y)表示词项x, y 在语料库中的共现频数,N 表示语料库的总词次数(token )。
如果x 和y 之间存在真正的连结关系,那么观察概率将远大于期望概率,结果为I (x,y)>0。
如果两个词相关程度不高,那么观察概率接近期望概率,结果为I (x,y)≈0。
如果I (x,y)<0,说明其中一个词出现时,另一个词不出现,即二者呈互补分布( Church & Hanks 1990:24 )。
基于语料库的词语搭配研究中通常把MI 值等于或大于3 的词作为显著搭配词(Hunston 2002:71)。
T-值是根据假设检验中的t 检验计算得来的。
假设检验主要通过检验某一样本的平均数与正态分布总体的平均数之间的差异是否显著来断定该样本取自总体的可能性有多大。
或者说二者之间的差异是否由偶然性造成。
运用t 检验断定搭配词的显著性时,首先形成零假设:两个共现词之间没有联系,不能构成搭配。
然后以标准差来衡量观察频数和期望频数的差异是否达到显著性水平。
T-值计算公式为:T =[(F (o) –F (e))]/SD 。
其中F (o)代表两个共现词的观察频数,F (e)代表期望频数,SD 代表标准差。
后两者的计算公式为:S F N F F x y e 2/)()()⨯⨯=( S f N f N f SD x y y 2)1()()()(⨯⨯-⨯=T-值反映的是共现的词语间在多大程度上存在典型搭配关系,它给研究者提供的是一种把握性。
对T-值高的共现序列,研究者便有足够的把握确定其为显著搭配。
通常情况下,我们把T-值等于或大于2 的共现序列作为显著词语搭配。
2 计算机实现方法实现计算机自动抽取显著搭配词是词语搭配研究的一个重要方面。
本文提出的计算机实现方法首先利用检索软件Wconcord 进行词频统计、词语检索和搭配词频数统计,然后将其结果和Visual Foxpro 编程技术相结合,计算搭配词的MI-值和T- 值,达到自动抽取的目的。
下面详细介绍搭配词频数统计和Visual Foxpro 程序的编写和运行方法。
2.1 运用Wconcord 统计搭配词的共现频数1)点击Wconcord.exe 启动Concordancer 界面。
点击file →new list→Add,建立要处理的语料库列表。
然后,点击确定→OK 。
2)点击Tools →word search 后出现图2.1界面:3)在Mask 下方框内填入要搜索的关键字,然后双击OK 。
生成图2.2。
在填入关键词时,可将要搜索词的各种词形依次填入。
如get, got, gets, getting 等。
图2.1 节点词检索界面4)点击Edit →Sort,选择排序方式:a. left part of sentence b. right part of sentence 。
然后,点击OK 。
5)点击Edit →Frequency of collocates,生成图2.3。
6) 选择跨距,双击OK 。
7) 点击Edit →Sort, 选择排序方式:Column with totals 。
然后,点击Edit →Copy, 选择save to a file 保存搭配词频数表。
图2.2 KWIC 结果界面 图2.3 跨距选择界面2.2 编写VFP 程序计算MI-值和T-值在编写Visual Foxpro 程序前,除了要按以上步骤计算节点词的搭配词频数,还要用Wconcord 统计语料库的词频并将他们分别存成文件名为collfeq.dbf 和corpfreq.dbf 的Visual Foxpro 数据表,每个表包含五个字段:word (单词),fx(搭配词在语料库中的频数),fxy(搭配词与节点词的共现频数),tscore (T-值),miscore (MI- 值)。