当前位置:文档之家› 基于WMD距离的文本相似度算法研究

基于WMD距离的文本相似度算法研究

基于WMD距离的文本相似度算法研究
随着AI技术的迅速崛起,人工智能和随之而来的海量文本数据对自然语言处理也提出了更高的要求。

文本相似度作为自然语言处理领域的一大基础任务,在搜索引擎、QA系统、机器翻译、文本分类、拼写纠错等领域有广泛的应用。

文本作为承载语义信息的一种重要方式,传统的文本表示采用向量空间模型来表达语义信息,这种方式未考虑到特征词的顺序以及上下文语义理解,造成高维稀疏以及计算效率低的问题。

WMD距离算法利用word2vec中的语义信息,实现高度语义共现精确度,并能挖掘出独立词之间的语义相关性。

因此本文的研究工作基于WMD距离算法展开,在WMD距离算法的基础上充分挖掘文本语义中有价值的特征项以及结合知识词典中的语言学知识构架和句法依存关系,提出了两种改进算法。

本文的主要工作有:1.本文基于WMD距离算法存在过于单一的词频权重无法有效提取文本特征及利用语义信息的问题,提出了WMD-JCS(Word Mover’s DistanceJoint Character and Sentence)算法。

该改进算法将原始的词频权重代替为使用TF-IDF系数、词语词性以及出现的物理位置作为新的文本特征项,并将这些特征项以合理的数学计算公式加入算法中;其次将训练好的词向量以无监督方式构造句子的句向量,以充分考虑语义的上下文环境;最后将筛选出的关键词的词向量和句向量参与计算改进后的距离公式。

实验表明,该改进算法与WMD距离算法相比,可以有效提高文本相似度的准确度。

2.基于上述第一种改进的WMD-JCS算法,本文提出了另一种改进算法
WMD-WSA(Word Mover’s Distance-Word Sense Analysis)。

由于基于深度学习的计算方法的语义可解释性差以及WMD-JCS算法存在无法融合深层语义相关性
信息的问题,该算法首先基于HowNet常识性知识库和句法依存关系从语言学的角度更深层次地挖掘词汇的语义信息,以此计算词语和句子间的相似度;接着将相似度转化为词句间的转移代价,对距离公式进行改进。

实验表明,该算法取得了更高的准确率、召回率和F1值,进一步提升文本相似度计算精度。

相关主题