当前位置:文档之家› 文本相似度计算研究进展综述

文本相似度计算研究进展综述


中图分类号: TP 391. 1
文献标志码: A
A survey on research progress of text similarity calculation
WANG Hanru,ZHANG Yangsen
( Computer School,Beijing Information Science & Technology University,Beijing 100101,China)
( T1,T2,…,Tn) 构成了一个文档向量空间,采用空 间向量间的余弦相似度计算文本相似度。
VSM 的缺陷在于: ①对于大规模语料,VSM 会 产生高维稀疏矩阵,导致计算复杂度增加; ② VSM 假设文本中的各个特征词独立存在,割裂了词与词 之间的关系以及段落间的层次关系。因而用向量空 间进行文本相似度计算时,通常改进 TF-IDF 的计算 方法以提高精确度。例如,张奇等[4]将文本用 3 个 向量( V1,V2,V3) 表示,V1 中的每一维代表特征词 的 TF-IDF 值,V2 根据一个 bi-gram 是否出现取值 0 或 1,V3 使用 tri-gram 信息,取值同 V2,用回归模型 将 3 对向量相似度综合得到句子的相似度; 华秀 丽[5]等利用 TF-IDF 选择特征项,利用知网计算文本 的语义相似度。 2. 2 基于主题模型:
1) 语言的多义同义问题。同一个词在不同的 语境下,可以 表 达 不 同 的 语 义,例 如“苹 果 ”既 可 以 表示水果,也可以表示科技公司; 同理,相同的语义 也可以由不同的词表达,例如“的士”、“计程车”都 可以表示出租车。
以检测出两段文本的抄袭程度; 在文本聚类方面,相 似度阈值可以作为聚类标准; 在自动文摘中,相似度 可以反映局部信息拟合主题的程度。
根据相似度计算方法的特点,文本相似度可以 分为字面 匹 配 相 似 度、语 义 相 似 度 和 结 构 相 似 度。 字面相似度一般采用 Jaccard 距离、最小编辑距离、 最长公共子串等基本方法进行文本相似度计算。语 义相似度可以从基于统计和基于规则两方面进行考 虑; 结构相似度计算的关键在于分析文本的句法 结构。
2 基于统计的经验主义方法
基于统计的经验主义思想源于 Harris 在 1954 年提出的分布假设( distributional hypothesis) 。这个 假设认为具有相似上下文的词,应该具有相似的语 义。其计算完全依赖于语料库,根据词汇在文本中 的共现频率衡量其语义相似度。目前,根据语料将 文本表示成计算机可操作的向量形式,是利用统计 方法计算文本相似度的主要思路。基于构建向量的 方式 不 同,有 向 量 空 间 模 型 ( vector space model, VSM) 、主题模型以及神经网络模型 3 种表示方式。 2. 1 基于向量空间模型
DOI: 10. 16508 / j.cnki.11-5866 / n.2019. 01. 013
文本相似度计算研究进展综述
王寒茹,张仰森
( 北京信息科技大学 计算机学院,北京 100192)

要: 相似度计算是自然语言处理工作的基石。随着自然语言处理技术的发展,相似
度计算的研究价值和应用价值突显。现有的计算方法因其复杂度和精确度的问题,与现实应用的
收稿日期: 2018-09-17 基金项目: 国家自然科学基金项目( 61772081) 第一作者简介: 王寒茹,女,硕士研究生; 通讯作者: 张仰森,男,博士,教授。
第1期
王寒茹等: 文本相似度计算研究进展综述
69
1 基于字面匹配的方法
基于字面匹配的相似度算法只是单纯从词形上 考虑文本的相似度,认为“形 似 即 义 似”。车 万 翔 等[1]采用编辑距离计算相似度,用词语代替单个汉 字或字符作为基本编辑单元; 俞婷婷等[2]根据 k( ngram 窗口的大小) 个字符在文本中出现的频率及其 所占权重,用 Jaccard 距离计算 2 个文本间的相似 度; 李圣文等[3]利用公共字符串的信息熵评价文本 相似度。
第 34 卷 第 1 期 2019 年 2 月
北京信息科技大学学报 Journal of Beijing Information Science & Technology University
Vol.34 No.1 Feb.2019
文 章 编 号: 1674-6864( 2019) 01-0068-07
2) 语言的组合结构问题。词是自然语言中的 最小语义单位,由词可以组成句子和篇章,不同的词 序可以表达不同的语义,如“深度学习”和“学习深 度”; 更进一步,还存在句法结构问题,例如“从北京 到上海高铁”和“从上海到北京高铁”虽然含有的词 语完全相同,但其语义完全不同。
文本相似度的计算不能只停留在字面匹配的层 面,更需要语义层面的匹配,这涉及到语义的表示和 计算的问题。现有的算法分别从统计和规则两方面 进行考虑。
Keywords: distance formula; similarity calculation method; word similarity; sentence similarity; text similarity
0 引言
文本相似度计算是自然语言处理任务的基石, 对后续的文本处理起着非常关键的作用。文本相似 度一般指文本在语义上的相似程度,被广泛应用于 自然语言处理任务的各个领域。在机器翻译领域, 它可以作为翻译精确度的评价准则; 在搜索引擎领 域,可用于衡量检索文本与被检索文本之间的相似 程度; 在自动问答领域,可用来评定问题与答案之间 的语义匹配度; 在抄袭检测领域,通过相似度计算可
针对 VSM 中高维向量空间,一词多义和多词一 义的问题,学者们提出了各种主题模型。如潜在语 义分析模型和潜在狄利克雷分布模型,在词和文档 之间加入 主 题 的 概 念,对 文 本 隐 含 主 题 进 行 建 模。 两篇文档是否相关不仅仅取决于字面上的词汇重 复,更重要的是挖掘文字背后的语义关联。
Deerwester 等[6]于 1990 年提出潜在语 义 分 析 模型 ( latent semantic analysis,LSA) ,该算法的基本 思想是对大型语料库中的词语进行统计分析产生词 条-文档矩阵,并采用奇异值分解( SVD) 技术剔除 不重要的奇 异 值,从 而 去 除 文 本 的“噪 音 ”,将 文 本 从稀疏的高维词汇空间映射到低维的潜在语义空 间,在低维语义空间上使用余弦距离计算文本相似 度。这样做的优点在于两个相关的文本即使没有相 同的词汇也能获得相似的向量表示,更加符合文本 本身的关系。由于 LSA 算法过高的计算成本,LSA 并没有得到大规模的应用。
随着深度学习在图像、语音方面取得的进展,学
70
北京信息科技大学学报
第 34 卷
者们又把目光转向了利用深度学习模型进行自然语 言 处 理 的 工 作。 如 DSSM、ConvNet、Tree-LSTM、 Siamese LSTM[9-13]都是在对词语或者句子建模的基 础上得到词向量或者句向量,并选择合适的距离公 式进行相似度计算。
3 基于规则的理性主义方法
基于规则的理性主义方法是采用人工构建的、 具有规则体系的知识库进行文本相似度计算。根据 知识库中定义的规则,将词汇分解成概念,这样词汇 间的相似性度量就可以转化为相似性最高的概念间 的相似度。
VSM 将 文 档 看 成 相 互 独 立 的 特 征 项 组 ( T1,T2,…,Tn) ,并根据其在文档中的重要程度赋 予其一定的特征项权重 W ; 将 ( T1,T2,…,Tn) 看作 一个 n 维坐标系中的坐标轴,( W1,W2,…,Wn) 为 相 应 的 坐 标 值。 这 样 由 特 征 项 组
需求并不匹配。针对现有需求,对于不同粒度的文本,研究出一套适合大规模实际应用的相似度
计算方法体系迫在眉睫。从方法论的角度,对目前主流的相似度计算方法进行总结,介绍了不同
粒度的文本相似度计算的差别以及近几年的研究进展,总结了目前相似度计算方向存在的问题,
并对发展趋势进行了展望。 关 键 词: 距离公式; 相似度计算方法; 词语相似度; 句子相似度; 篇章相似度
Blei 等[7]于 2013 年提出隐含狄利克雷分布模 型( latent dirichlet allocation,LDA) 。它是一种对离 散数据主题信息进行建模的方法,可以用来识别大 规模文档集或语料库中的主题信息。文本的相似度 通过计算与之对应的主题概率分布来实现。由于短 文本的代表词少,LDA 对于短文本的主题挖掘并不 一定能达到预期效果,因而更适用于长文本。例如 王振振等[8]利用 LDA 建立文本主题空间,增强文本 的向量表示。LDA 对文档的主题建模,仅保留本质 信息,有助于高效处理大规模文档。 2. 3 基于神经网络模型
Abstract: Similarity calculation is the cornerstone of natural language processing. With the development of natural language processing technology,the research value and application value of similarity calculation become more and more important. However,the existing calculation methods do not match the requirements of real-world applications due to their complexity and accuracy. It is urgent to study a set of similarity calculation method system suitable for large - scale practical application for different granularity texts. From the perspective of methodology,this paper firstly expounds the current mainstream similarity calculation method,and then introduces the difference of text similarity calculation with different granularity and the research progress in recent years. Finally it summarizes the problems existing in the current similarity calculation direction and provides an outlook of development.
相关主题