句子相似度地计算在自然语言处理具有很重要地地位,如基于实例地机器翻译( )、自
动问答技术、句子模糊匹配等.通过对术语之间地语义相似度计算,能够为术语语义识别[]、术语聚类[]、文本聚类[]、本体自动匹配[]等多项任务地开展提供重要支持.在已有地术语相似度计算方法中,基于搜索引擎地术语相似度算法以其计算简便、计算性能较高、不受特定领域语料库规模和质量制约等优点而越来越受到重视[].
相似度计算方法总述:
《向量空间模型信息检索技术讨论》,刘斌,陈桦发表于计算机学报,
相似度():指两个文档内容相关程度地大小,当文档以向量来表示时,可以使用向量文
档向量间地距离来衡量,一般使用内积或夹角地余弦来计算,两者夹角越小说明似度
越高.由于查询也可以在同一空间里表示为一个查询向量(见图),可以通过相似度计算
公式计算出每个档向量与查询向量地相似度,排序这个结果后与设立地阈值进行比较.
如果大于阈值则页面与查询相关,保留该页面查询结果;如果小于则不相关,过滤此页.这样就可以控制查询结果地数量,加快查询速度.资料个人收集整理,勿做商业用途
《相似度计算方法综述》
相似度计算用于衡量对象之间地相似程度,在数据挖掘、自然语言处理中是一个基础
性计算.其中地关键技术主要是两个部分,对象地特征表示,特征集合之间地相似关系.
在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合地相似
性地计算.而针对不同地应用场景,受限于数据规模、时空开销等地限制,相似度计算
方法地选择又会有所区别和不同.下面章节会针对不同特点地应用,进行一些常用地相
似度计算方法进行介绍.资料个人收集整理,勿做商业用途
内积表示法:
《基于语义理解地文本相似度算法》,金博,史彦君发表于大连理工大学学报,
在中文信息处理中,文本相似度地计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键地问题,长期以来一直是人们研究地热点和难点.计算机对于中文地处理相对于对于西文地处理存在更大地难度,集中体现在对文本分词
地处理上.分词是中文文本相似度计算地基础和前提,采用高效地分词算法能够极大地提
高文本相似度计算结果地准确性.本文在对常用地中文分词算法分析比较地基础上,提出
了一种改进地正向最大匹配切分()算法及歧义消除策略,对分词词典地建立方式、分词
步骤及歧义字段地处理提出了新地改进方法,提高了分词地完整性和准确性.随后分析比
较了现有地文本相似度计算方法,利用基于向量空间模型地方法结合前面提出地分词算法,给出了中文文本分词及相似度计算地计算机系统实现过程,并以科技文本为例进行了
测试,对所用方法进行了验证.这一课题地研究及其成果对于中文信息处理中地多种领域
尤其是科技类文本相似度地计算比较,都将具有一定地参考价值和良好地应用前景.资料
个人收集整理,勿做商业用途
《随机内积空间》,林熙,郭铁信发表于科学通报,
称(,盘)为数域上地以概率空间(口,,)为基地随机内积空间(,简空间),若是数域上地线性空间且映射盘:×(口,)满足,∈,∈,资料个人收集整理,勿做商业用途
(一):∈(口)且((.)一.{一(中零元);
(一):()一”();其中¨表地共轭随机变量.
(一):¨(∞)一Ⅲ(∞);..
(一):.,,()一,.,(∞),,(∞)...
若还存在零测集Ⅳ,使得对所有口\Ⅳ上述公理成立,则称,.劈)为一致随机内积空间.在空间中称为与地随机内积.资料个人收集整理,勿做商业用途
余弦响亮度量方法:
《基于云计算地余弦向量度量法文本检索模型》,付永贵发表在情报科学,
目前信息检索技术在国内外已经取得了很大地究成果,为用户信息检索提供了很
大地便利,具体体现在不同地检索模型地应用,比如布尔模型、扩布尔模型、向量空
间模型、概率模型、潜在语义模、统计语言模型等等,在文本信息检索中向量空间型
中地余弦向量度量法是应用相对广泛而且效率.资料个人收集整理,勿做商业用途
经典地余弦向量度量法文本检索模型(⁃)中查询和文本均被看成是由索引项构成
地向量,比如对于有个索引项地文本检索,可以由这个索引项构成地空间向量来表示
查询和文本.则查询可以表示为:(,…),文本可以表示为:(,…).其中,(≤≤)分别表示查询
和文本地第个索引项.在具体应用中通常用索引项在查询和文本地权值来表示其在查询
和文本中地重要程度,则查询和文本可以用索引项权值构成地空间向量来表示,设(,…),(≤≤)表示索引项(≤≤)在查询中地权值,文本(,…),(≤≤)表示索引项(≤≤)在文本中地权值.资
料个人收集整理,勿做商业用途
《基于项目评分预测地协同过滤推荐算法》,邓爱林,朱扬勇,施伯乐发表在软件学报,
度量用户间相似性地方法有多种,主要包括如种方法【:余弦相似性相关相似性及修正地余弦相似性·余弦相似性():用户评分被看做是维项目空间上地向量,如果用户
对项目没有进行评分,则将用户对该项目地评分设为,用户间地相似性通过向量间地
余弦夹角度量.设用户和用户,在维项目空间上地评分分别表示为向量,歹,则用户和
用户之间地相似性() 分子为两个用户评分向量地内积,分母为两个用户向量模地乘积.
相关相似性():设经用户和用户共同评分地项目集合用表示,则用和用户,之间地相似
性()通过相关系数度量:.表示用户对项目地评分,和,分别表示用户和用户,对项目
地平均评分.修正地余弦相似性():在余弦相似性度量方法中没有考虑不同用户地评分
尺度问题,修正地余弦相似性度量方法通过减去用户对项目地平均评分来改善上述缺
陷,设经用户和用户共同评分地项目集合用表示和分别表示经用户和用户评分地项目
集合,则用户和用户之间地相似性()为资料个人收集整理,勿做商业用途
.表示用户对项目地评分,和,分别表示用户和用户对项目地平均评分.
:
《信息检索向量空间模型》
此方法看上去很好理解,就是用和文档共同出现地词地个数,除以一共地词数.当然也有很多问题
没有考虑文档中词出现地次数(没有考虑因素)
没有考虑文档地频率(没考虑因素)
没有考虑文档地长度,长文档和短文档计算相似度地差别会很大
系数主要用于计算符号度量或布尔值度量地个体间地相似度,因为个体地特征属性都
是由符号度量或者布尔值标识,因此无法衡量差异具体值地大小,只能获得“是否相同”这个结果,所以系数只关心个体间共同具有地特征是否一致这个问题.如果比较与地相似系数,只比较和中相同地个数.资料个人收集整理,勿做商业用途
信息科学与工程学院肖艳丽。