1文本相似度算法基本原理
1.1文本相似度含义
文本相似度来自于相似度概念,相似度问题是一个最基本的问题,是信息科学中绕不过去的概念,在不同的应用方向其含义有所不同,但基本的内涵表示了一个信息结构与另外一个信息结构的一致程度,从某个角度研究时特征量之间的距离大小[10]。
比如,在机器翻译方面是指词这个基本单位的可替代性,在信息检索方面是指检索结果与检索内容的一致性,在自动问答方面是指搜索的结果与输入的问题的匹配程度。
这充分表明文本相似度研究和应用领域十分广泛,所表达的含义也十分不同。
从本文研究的角度来看,文本相似度可以描述为:有A、B两个对象,二者之间的公共区域越多、共性越大,则相似程度越高;若二者没有关联关系,则相似程度低。
在文本相似度研究方面,一个层次是研究文档中以篇章、句子、词语衡量相似程度,这不同层次衡量算法也不同,研究的标准和依据也不同,算法的复杂程度也不同。
从这个意义上,可以运用在新闻领域对新闻稿件进行归档,按照新闻的领域分门别类的存放在一起;也可以运用在信息检索进行信息查询,作为一个文本与另一个文本之间相似程度测量的基本方法。
1.2文本相似度计算方法分类
当前研究文本相似度都是以计算机作为计算工具,即利用计算机算法对文本进行分类,在各个领域应用十分广泛,比如包括网页文本分类、数据智能挖掘、信息识别检索、自动问答系统、论文查重分析和机器自主学习等领域,其中起最关键作用的是文本相似度计算算法,在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。
特别是随着智能算法、深度学习的发展,文本相似度计算方法已经逐渐不再是基于关键词匹配的传统方法,而转向深度学习,目前结合向量表示的深度学习使用较多,因此度量文本相似度从方法论和算法设计全局的角度看,一是基于关键词匹配的传统方法,如N-gram相似度;二是将文本映射到向量空间,再利用余弦相似度等方法,三是运用机器学习算法的深度学习的方法,如基于用户点击数据的深度学习语义匹配模型DSSM,基于卷积神经网络的ConvNet和LSTM 等方法。
本文研究的重点是对电子作业检查等各类电子文档对比,在对两个电子文档是否相同,相似比例为多少这一问题探究中需要比较文档的相似度,而文档的相似度又可分成段落相似度、句子相似度来进行考虑,所以课题的关键是如何定义
相似度,要求通过研究归类现有相似度算法,分析其优缺点而提出一些改进的新的相似度算法。
按照这样一个研究任务,本文主要研究三种方法:一个是应用数学余弦定理计算余弦相似性的相似度计算方法,另一个是运用计算文档共有词的方法评估相似度的简单共有词相似度算法,第三个是以欧几里得距离作为衡量文本相似度的欧几里得距离相似度算法。