当前位置:文档之家› 词汇分布语义的语言学基础分析

词汇分布语义的语言学基础分析

词汇分布语义的语言学根底分析一、引言自然语言处理是人工智能领域极其重要也极具挑战的争论方向,属于计算机科学与语言学的穿插学科。

它将抽象的人类语言转换成适合计算机处理的形式,从而建立语言、学问与客观世界之间的可计算关系。

自然语言处理的核心,是让机器具备理解各种语言形式〔词汇、短语、句子、篇章等〕内在含义的力气。

词汇是自然语言的根本单位,词汇的语义表示因此也成为自然语言理解的根本问题之一。

传统上,人们承受人工构建语义词典和语义学问库的方式来表达词汇语义①。

但人工标注的方式本钱昂扬,掩盖面亦有限,难以获得大规模高质量的标注数据。

随着深度学习技术的进展和文本数据的爆炸式增长,利用机器学习算法在大规模语料上对词汇表示进展抽象和学习,成为当前词汇语义表示的主流方法。

这种表示方法又称分布语义,它通过对语料的学习,将符号表示的词汇转化为数学表示的向量,使得词汇具有语义可计算的力气,已经在智能搜寻、语音识别、机器翻译、诗歌创作、古文断句、信息过滤、意图理解等领域得到了广泛使用②。

尽管词汇分布语义在应用上取得了很大的成功,然而也应当看到,对其背后的语言学机理,我们还缺乏全面的生疏。

我们要问,这种通过对语料的学习而自动获得的分布语义,本质上是一种什么样的语义?它能否涵盖词汇的完整意义?这种语义表示的潜力和局限又是什么?我们认为,要答复这些问题,需要结合相关的语言学理论来深化思考。

本文试图从语言学学说史的角度打量词汇分布语义的理论根底,并以在海量《人民日报》语料库上训练得到的词汇分布语义作为实证分析的依据③,以厘清词汇分布语义在自然语言处理领域的潜力和边界,并为自然语言理解模型的构建和应用供给的思路。

二、意义即使用:词汇分布语义的语言哲学根底词汇的意义理论是语言哲学的两个根本问题之一④。

什么是词义?对这个问题的争论,最早可追溯至古希腊时期对“词”与“物”的关系之辩,即名实之争。

“逻各斯〔logs〕”学说的提出者,古希腊哲学家赫拉克里特〔Heraclitus〕主见“本质说”,认为名称与它所代表的事物之间的联系是不行分割的,名称包含了事物的本质⑤。

与此相反,德谟克里特〔Democletus〕主见“商定说”,认为名称与事物之间的联系并非由事物的本质打算,而是商定俗成的⑥。

后来柏拉图〔Plato〕在他的《对话录》中提出了“语词是命名〔naming〕”的折中观点,认为事物的意义在于名称和事物之间的自然联系,但这种内在联系会随着时间推移而减弱。

柏拉图的同学亚里斯多德则坚决主见名实分别,认为名称不是自然赐予的,而是商定俗成的具有意义的声音,在成为一种符号时才成为名称⑦。

公元二世纪语言学的亚历山大里亚学派〔theAlexandrians〕也传承了这一观点⑧。

古希腊哲学家关于名实关系的争论,对中世纪以后的语言哲学学说,产生了极其深远的影响。

意义的指称论〔referentialtheoryofmeaning〕即秉持“商定说”的名实分别观点,认为词的意义就是词所指的对象。

近代英国哲学家、规律学家密尔〔l〕把名称分为专名和通名,其中通名既有外延又有内涵,外延表示所指称的事物,而内涵表示所指事物的特性,即意义⑨。

德国哲学家弗雷格〔G.Frege〕进一步进展了指称论,在1892 年发表的《论意义和所指》一文中,弗雷格对符号的意义和所指〔一译“意谓”〕做了明确区分。

他以望远镜观看月亮来比方:月亮是所指,望远镜物镜中的影像是意义,视网膜上的图像是意象,意义介于所指和意象之间,既不是所指对象本身,也不像意象那样主观,而是一种客观的存在⑩。

指称论的另一位代表人物罗素〔B.A.W.Russell〕则提出,应将语词分为专名和摹状词,专名的意义就是所指称的对象,摹状词的意义由所组成的语词的意义确定輥輯訛,罗素的意义理论被称为“规律指称论”,并深刻影响了他的同学维特根斯坦,早期维特根斯坦就认为,名称和对象之间存在直接的对应关系,名称所指的对象就是名称的意义輥輰訛。

由上可知,指称论者虽然在具体观点上有所差异,但都主见语言是对世界的反映,词汇的意义在于所指称的世界中的事物。

但是,指称论是以名称为范例来对待词汇的,而词汇并不都是名称,很多词汇的意义,要依据上下文甚至社会语境才能确定。

后期维特根斯坦就否认了自己早期的指称论观点,在后期著作《哲学争论》中,他提出“意义即用法”的观点,他说:“一个字词的意义是它在语言中的用法。

”輥輱訛例如,作为路标的箭头符号之所以能够指路,是由于人们使用它,依据它的指向行走,正是使用赐予箭头符号以意义。

依据维特根斯坦的观点,词汇的意义受到语言使用规章的制约,因此必需争论语言玩耍的规章,这种思路被称作意义的使用论〔usetheoryofmeaning〕,并直接促使人们对词的用法进展阅历性争论。

意义的使用论被多个语言学派所吸取和承受,但“使用”这一概念过于空泛,不少语言学家给出了更为明确的关于“词义”的阐述。

语言学伦敦学派的创始人弗斯〔J.R.Firth〕说:“词汇的意义取决于搭配”,认为意义存在于词汇消灭的上下文之中,上下文可以挂念理解词义。

輥輲訛英国语言学家克鲁斯认为:“一个词项在各种语境中遇到的全部正常关系称为它的语境关系〔contextualrelations〕,…,词的意义是由它的语境关系构成的。

”輥輳訛用词的上下文信息来表达词的意义,与传统语义学和乔姆斯基〔A.N.Chomsky〕的生成语法理论形成了鲜亮比照,但在实践中却有很强的可操作性。

我们以汉字“埙”为例,假设一个人并不清楚这个字的含义,但告知他这个字在如下的文本中消灭輥輴訛:〔1〕正是周敏在城墙头上吹动了埙,声音沉缓悠长,呜呜如夜风临窗。

(贾平凹《废都》)〔2〕它的外形有椭圆形、圆形、橄榄形不等,大多由陶土烧制而成,所以又叫陶埙。

〔华社闻文本〕〔3〕假设不会吹笛,埙和箫都成,曲风应是悠扬轻远的。

〔剧本《武林外传》〕那么,依据“埙”这个词在上下文中的分布,不难推断出它的意义:“一种陶制的吹奏乐器”。

由此可见,假设给定足够多的上下文,就能够利用分布统计方法来刻画每个词的含义。

词汇分布语义各种模型的根本思想,正是通过机器学习算法来学习词汇在大规模文本语料中的分布模式,从而获得词汇的语义表示。

在各具特色的词汇分布语义学习模型中,Word2Vec 神经网络模型是较有影响力的一种輥輵訛。

本文承受Word2Vec 的Skip-Gram 算法对《人民日报》语料进展训练,然后将得到的词向量降到3 维〔原参数设为256 维〕,再检索“埙”的语义近邻分布,结果如以下图1 所示。

由图1 中词汇的空间分布,可以得到更多关于“埙”的语义学问,例如,由“编钟”、“篪”、“古琴”、“青铜器”等近邻词可以推断,“埙”应是一种远古乐器。

可见,词汇分布语义实质上是通过词汇在空间中的位置来表达语义的。

自然语言本质上是符号化的,而在分布表示框架下,符号表示的词汇最终被转换成了数学表示的向量,这种转换具有格外重要的意义,由于在转为数学向量之后,词汇语义变得可计算甚至可推理了。

例如,通过向量计算,可以觉察“埙”与“箫”的距离要明显小于它与“架子鼓”的距离,也就是说,“埙”在语义上要更接近“箫”。

同时,这种语义距离还具有可推理的性质,例如,通过计算,我们可以得到类似于“吹奏乐器-埙=打击乐器-架子鼓”这样的语义推理结果。

那么,通过空间距离来表达词汇语义,是否符合人类对概念的认知规律呢?我们可以从认知语言学的角度对待这个问题。

温格乐〔F.Ungereer〕认为,概念构造是体验性的〔embodied,一译“具身”〕,语义的形成,很大程度上源于我们的身体体验輥輶訛。

认知语言学的代表人物莱考夫〔koff〕指出,隐喻是人类语言的普遍现象,是人类认知和思维的本质輥輷訛。

格雷迪(E.J.Grady)的根本隐喻理论认为,儿童在概念认知的早期,能学会数百个可被辨识的根本隐喻,根本隐喻又进一步构成了简洁隐喻輦輮訛。

莱考夫总结分析了约50 条根本隐喻,其中格外重要的一条就是“相像是近〔similarityiscloseness〕”,该隐喻是人类对挨近的相像对象进展观看而获得的根本阅历,说明人类的思维会将实体概念映射到空间,而相像的概念在空间中的距离也相近輦輯訛。

莱考夫认为,人类正是通过“相像是近”这一根本隐喻来进展概念层面的抽象思维。

由此可见,用词汇在向量空间中的位置来表示词汇,用词汇间的空间距离来表示词汇的语义相像度,可以从认知语义学中找到理论依据。

三、句段与联想:词汇分布语义的两类上下文词汇分布语义通过空间距离表达语义相像程度,而这种距离正是通过对词汇在语料中的“使用”模式进展统计,由学习模型自动习得的。

因此,有必要打量词汇的“使用”指的是什么?以及对“使用”的不同定义得到的词汇语义有何区分?瑞士语言学家索绪尔〔F.D.Saussure〕是现代语言学的奠基者輦輰訛。

索绪尔认为,语言是一套具有价值的符号系统,符号的价值在于对不同功能的区分,而这种区分是不能脱离系统而存在的。

依据索绪尔的观点,作为语言符号系统的一局部,词汇不仅具有意义,而且具有价值,词汇的价值由它与其他词的关系打算,索绪尔将这种关系分为两类:句段关系和联想关系輦輱訛。

句段关系是指话语中各个要素挨序排列结成的线条性关系,其特征是有序的,在现场的〔法语inpraesentia〕輦輲訛,例如,语词中构字成词,连词成句,集句成段等都属于句段关系;联想关系的特征是无序的,非现场的〔法语inabsentia〕,可替换的輦輳訛。

下面以一个简洁例子来说明句段关系和联想关系,如以下图2 所示。

在这个例子中,“李白”和“诗人”属于句段关系,“李白”和“杜甫”则属于联想关系。

索绪尔指出,整个语言机构都无外乎对这两种关系的运用。

从这个角度来看,词汇分布语义模型对语义的学习,最终可以归结为对这两种关系的学习。

句段关系是词汇的横向组合,通过对固定的语言单元内〔如句子、段落、篇章〕词汇的共现关系〔co-occurrence〕的建模,可以刻画词汇的分布语义。

例如,我们统计词汇在上述3 个句子中的共现次数,如下表1 所示。

不难看出,“李白”和“诗人”的共现频率最高,因此语义上更为接近。

具有联想关系的词汇不在同一现场共现,但具有相像的上下文语境,且一般能够相互替换。

例如,我们依据上述语料可以构建一个词词共现矩阵,如下表2 所示。

可以看出,“李白”和“杜甫” 虽然不在同一个句子中消灭,但拥有相像的上下文〔即“唐代、诗人”〕,因此语义相像度较高。

固然,上述例子仅是一个简洁例如,但假设依据海量的语料来构建词汇的共现矩阵,无疑可以表达更为丰富全面的语义。

这个共现矩阵的规模通常会很大,潜语义分析、非负矩阵分解、典型相关分析等自然语言处理领域的分布语义技术,通过不同的途径对共现矩阵进展降维,从而得到词汇的潜在分布语义。

相关主题