当前位置:文档之家› 简单共有词相似度算法

简单共有词相似度算法

1.1 简单共有词相似度算法
这类算法的思路比较直观,易于理解其基本原理,直观的讲就是首先统计需要比较相似度的两篇文档的总字符数,其次分别统计文档中共有词语的总字符数,第三用共有词语除以最长文档的字符数得到相似度衡量数值。

这个算法模型可以这样建立:设待统计相似度的文档总字符数为0A ,0B ,其中两篇文档中共有词字符数为c ,相似度为S ,则算法模型为:

00B A ≥时,0A c S = (3-4)

00B A ≤时,0B c S = (3-5)
在这里可以利用一个例子说明这个问题,假设只包括A 、B 两句话的文档,第一步,对两个文档先取出这两句话共同都有的词,统计共有多少个字数;第二步,对比A ,B 两句话,看哪句话更长,就以这句话的字符数作为分母;第三步,用共有的词语数除以最长的一句话的字符数。

例如同样是A 、B 两句话,共有词的字符长度为4,最长句子长度为6,那么4/6,相似度约等于0.667。

相关主题