当前位置:文档之家› 相似度测度总结汇总

相似度测度总结汇总

1 相似度文献总结相似度有两种基本类别:(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。

1.1 客观相似度客观相似度可分为距离测度、相似测度、匹配测度。

它们都是衡量两对象客观上的相近程度。

客观相似度满足下面的公理,假设对象 A 与B 的相似度判别为 (,)A B δ,有:(1) 自相似度是一个常量:所有对象的自相似度是一个常数,通常为 1,即(,)(,)1A A B B δδ==(2) 极大性:所有对象的自相似度均大于它与其他对象间的相似度,即(,)(,)(,)(,)A B A A A B B B δδδδ≤≤和。

(3) 对称性:两个对象间的相似度是对称的,即(,)(,)A B B A δδ=。

(4) 唯一性:(,)1A B δ=,当且仅当 A B =。

1.1.1 距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。

设{}{}''1212,,,,,,,n n x x x x y y y y ==表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:1.1.1.1 欧氏距离:Euclidean Distance-based Similarity最初用于计算欧几里德空间中两个点的距离,假设 x ,y 是 n 维空间的两个点,它们之间的欧几里德距离是:1/221(,)()n i i i d x y x y x y =⎡⎤=-=-⎢⎥⎣⎦∑ ()当x ,y 是两个直方图时,该方法可称为直方图匹配法。

可以看出,当 n=2 时,欧几里德距离就是平面上两个点的距离。

当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。

()范围:[0,1],值越大,说明d 越小,也就是距离越近,则相似度越大。

说明:由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。

欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。

优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果1.1.1.2 曼哈顿距离,绝对值距离(街坊距离或 Manhattan 距离):原理:曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。

同欧式距离相似,都是用于多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。

说明:比欧式距离计算量少,性能相对高。

1(,)ni ii d x y x y ==-∑()1.1.1.3 切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中A 格(x1,y1)走到B 格(x2,y2)最少需要走几步(,)max i i id x y x y =- ()1.1.1.4 明氏(Minkowski)距离/闵可夫斯基距离:1/1(,)()mn m i i i d x y x y =⎡⎤=-⎢⎥⎣⎦∑ ()可以看出,、、式实际上是式当2,1,m =∞的特殊情况。

在实际中较多地使用欧氏距离。

显然,在观测量的量纲取定的条件下,两个矢量越相似,距离()d •就越小,反之亦然。

值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。

这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。

若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。

马氏(Mahalanobis)距离是不受量纲影响的。

1.1.1.5 马氏距离(Mahalanobis):马氏距离定义如下:设n 维矢量i x 和j x 是矢量集{}12,,,n x x x 中的两个矢量,它们的马氏距离 d 定义为2'1(,)()()i j i i i i d x x x y V x y -=-- ()式中,'1111()(),1n n i i i i i V x x x x x x n n ===--=-∑∑。

V 的含义是这个矢量集的协方差矩阵的统计量。

适用场合:1) 度量两个服从同一分布并且协方差矩阵为C 的随机变量X Y 与的差异程度2) 度量X 与某一类的均值向量的差异程度,判别样本的归属,此时Y 为类均值向量。

优点:1) 独立于分量量纲2) 排除了样本之间的相关性影响缺点:不同的特征不能差别对待,可能夸大弱特征1.1.1.6 汉明距离(Hamming Distance )在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。

换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。

例如:1011101与1001001之间的汉明距离是2。

2143896与2233796之间的汉明距离是3。

“toned ”与“roses ” 之间的汉明距离是3。

1.1.1.7 巴氏距离(Bhattacharyya )巴氏距离常用于计算直方图间相似度,定义如下:1[,]nBhattacharyya i d x y ==其中,x 、y 为归一化数据向量。

Bhattacharyya 系数取值在0~1之间,越靠近1,表示两个模型之间相似度越高。

如果,x 、y 向量未归一化,则巴氏系数的计算定义为:(,)Bhattacharyya d x y =()1.1.1.8 Hausdorff 距离:Hausdorff 距离(Hausdorff distance ,HD)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x 、y 之间的Hausdorff 距离定义为:(,)max((,),(,))H x y h x y h y x = ()式中,(,)max min j i i j y yx xh x y x y ∈∈=-为x 到y 的有向Hausdorff 距离;(,)max min i j i j x xy yh y x x y ∈∈=-为y 到x 的有向Hausdorff 距离;•为某种定义在点集x 、y上的距离范数。

常用的是欧几里得范数。

如果定义^min,min i i i i y yx xd y d x ββββ∈∈=-=-(β表示空间中的任意点)则Hausdorff距离可定义为^(,)max(max ,max )i i i i y x x xy yH x y d d ∈∈=,这里称^,d d ββ分别为点集y 和点集x 在空间中的变化距离。

由于Hausdorff 距离是度量两个点集之间最不匹配点的距离,因此它对远离中心的噪声、漏检点都非常敏感,而这一点,在提取图像特征点集特征时使不可避免的。

为了克服这个缺点,需要对Hausdorff 距离的定义进行扩展。

1.1.1.9 改进的部分Hausdorff 距离:为获得准确的匹配结果,Sim 提出了改进的部分Hausdorff 距离(LTS-HD ),它是用距离序列的线性组合来定义的:11(,)min ()kLTS i h x y x y i k ==-∑ ()式中,1k f p =⨯⎢⎥⎣⎦,p 为x 内点的个数,1f 为一个属于[0,1]的百分数。

把点集x 中的所有点到点集y 的距离按由小到大的顺序排列,将序号为1~k 的k 个距离求和,再求平均。

所以,该匹配方法不仅能消除远离中心的错误匹配点的影响,而且对零均值高斯噪声的消除能力明显。

因袭,采用LTS-HD 用于图像特征点集的匹配,力求在所有可能的变换空间中寻找图像特征点集之间的最优变换,以便通过使LTS-HD 最小化来获得最优匹配结果。

设g 为变换空间T (通常由旋转矩阵R 、平移变换向量t 、尺度c 等变换组成)中的一个变换,则最优匹配变换g0满足0(,)min (,)g g TM x y H x gy ∈=1.1.1.10 相关度距离常用于计算直方图间相似度,定义如下:(,)ni icorrel x yd x y •=∑()1.1.1.11 卡方系数常用于计算直方图间相似度,定义如下:21()(,)ni i Chi square i i ix y d x y x y -=-=+∑ () (备注:引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士学位论文第一章,节)1.1.1.12 (未命名)常用于计算直方图间相似度,定义如下:()其中,N 表示图像颜色样点空间,比起前面几个计算公式,该式在给出图像相似度的计算中更为直接,操作也更加简便。

(备注:引自《基于混合图结构的图像相似度的研究_庄小芳》,2013年福建师范大学硕士学位论文第一章,节)1.1.1.13 直方图相交距离直方图相交距离是常用于颜色特征相似性度量的一种方法,常用于计算直方图间相似度。

如果有两幅图像X Y 和,则它们的相交距离定义式如下:11min((),())(,)()Niii Ni i f X f Y S X Y f Y ===∑∑ ()1.1.2 相似测度这类测度是以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要,同样设{}{}''1212,,,,,,,n n x x x x y y y y ==。

1.1.2.1 角度相似系数(夹角余弦)原理:多维空间两点与所设定的点形成夹角的余弦值。

范围:[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。

说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,所以皮尔森相似度值也是数据中心化后的余弦相似度。

定义:矢量之间的相似度可用它们的夹角余弦来度量。

两个矢量x 和 y 的夹角余弦定义如下:''1/2''cos(,)()()x y x yx y x y x x y y ==•⎡⎤⎣⎦() 与欧几里德距离类似,基于余弦相似度的计算方法也是把特征点作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个特征点之间的相似度值就是两条直线(向量)间夹角的余弦值。

因为连接代表特征点与原点的直线都会相交于原点,夹角越小代表两个特征越相似,夹角越大代表两个特征的相似度越小。

同时在三角系数中,角的余弦值是在[-1, 1]之间的,0度角的余弦值是1,180角的余弦值是-1。

相关主题