当前位置：文档之家› 简单共有词相似度算法

简单共有词相似度算法

1.1 简单共有词相似度算法
这类算法的思路比较直观，易于理解其基本原理，直观的讲就是首先统计需要比较相似度的两篇文档的总字符数，其次分别统计文档中共有词语的总字符数，第三用共有词语除以最长文档的字符数得到相似度衡量数值。

这个算法模型可以这样建立：设待统计相似度的文档总字符数为0A ，0B ，其中两篇文档中共有词字符数为c ，相似度为S ，则算法模型为：
当
00B A ≥时，0A c S = （3-4）
当
00B A ≤时，0B c S = （3-5）
在这里可以利用一个例子说明这个问题，假设只包括A 、B 两句话的文档，第一步，对两个文档先取出这两句话共同都有的词，统计共有多少个字数；第二步，对比A ，B 两句话，看哪句话更长，就以这句话的字符数作为分母；第三步，用共有的词语数除以最长的一句话的字符数。

例如同样是A 、B 两句话，共有词的字符长度为4，最长句子长度为6，那么4/6，相似度约等于0.667。

e商务文档

简单共有词相似度算法

相关文档推荐：