机器学习_相似度度量讲解
此处分母之所以不加s的原因在于: 对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二 元变量。非对称的意思是指状态的两个输出不是同等重要的。
机器学习相似度概述
主要相似度算法
余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值 作为衡量两个个体间差异的大小。相比距离度量,余弦 相似度更加注重两个向量在方向上的差异,而非距离或 长度上。
主要相似度算法
马氏距离
表示数据的协方差距离。它是一种有效的计算两 个未知样本集的相似度的方法。与欧式距离不同的是它 考虑到各种特性之间的联系(例如:一条关于身高的信 息会带来一条关于体重的信息,因为两者是有关联的) 并且是尺度无关的),即独立于测量尺度。
C为X,Y的协方差矩阵,如果协方差矩阵为单位矩阵,那 么马氏距离就简化为欧式距离,如果协方差矩阵为对角 阵,则其也可称为正规化的欧氏距离。
主要相似度算法
加权欧式距离
加权欧式距离:在距离计算时,考虑各项具有不同的权 重。公式如下:
机器学习相似度概述
主要相似度算法
曼哈顿距离
曼哈顿距离,也称为城市街区距离,是一种使用 在几何度量空间的几何学用语,用以标明两个点在标准 坐标系上的绝对轴距总和:
X(2,4),Y(1,6) dist(X,Y)=|2-1|+|4-6|=3
13计算机技术
Xxx xxxxxxxx
目录
相似性度量 主要相似度度量算法
度量学习 流形学习
部分算法实践 机器学习相似度概述
相似性度量
机器学习相似度概述
相似度度量
相似度度量
机器学习的目的就是让机器具有类似于人类的学习、 认识、理解事物的能力。计算机对大量的数据记录进行归 纳和总结,发现数据中潜在的规律,给人们的生活带来便 利。
主要相似度算法
切比雪夫距离
切比雪夫距离是由一致范数(或称为上确界范数) 所衍生的度量,也是超凸度量的一种。在数学中,切比 雪夫距离(L∞度量)是向量空间中的一种度量,二个点 之间的距离定义是其各坐标数值差的最大值。
X(2,4),Y(1,6) dist(X,Y)=max{|2-1|,|4-6|}=2 机器学习相似度概述
机器学习相似度概述
主要相似度算法
闵可夫斯基距离
闵可夫斯基距离(闵氏距离)不是一种距离,而 是一组距离的定义。闵氏距离是欧氏距离的推广,是对 多个距离度量公式的概括性的表述。公式如下:
其中p是一个变参数。 当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离; 当p→∞时,就是切比雪夫距离。 根据变参数的不同,闵氏距离可以表示一类的距离 机器学习相似度概述
对数据记录和总结中常用到聚类算法。聚类算法就 是按照对象间的相似性进行分组,因此如何描述对象间相 似性是聚类的重要问题。
机器学习相似度概述
相似度度量
相似度度量
刻画数据样本点之间的亲疏远近程度主要有以下两 类函数:
(1)相似系数函数:两个样本点愈相似,则相似 系数值愈接近1;样本点愈不相似,则相似系数值愈接近0。 这样就可以使用相似系数值来刻画样本点性质的相似性。
机器学习相似度概述
主要相似度算法
调整余弦相似度
余弦相似度更多的是从方向上区分差异,而对绝 对的数值不敏感,因此没法衡量每个维度上数值的差异。 需要修正这种不合理性,就出现了调整余弦相似度,即 所有维度上的数值都减去一个均值。 用户对内容评分,按5分制,X和Y两个用户对两个内容 的评分分别为(1,2)和(4,5),使用余弦相似度得到 的结果是0.98,两者极为相似。但从评分上看X似乎不 喜欢两个这个内容,而Y则比较喜欢。比如X和Y的评分 均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦 相似度计算,得到-0.8,相似度为负值并且差异不小, 但显然更加符合现实。
马氏距离
汉明距离
夹角余弦
杰卡德距离 & 杰卡德相似系数
机器学习相似度概述
主要相似度算法
欧式距离
欧氏距离( Euclidean distance)也称欧几里得距离, 它是一个通常采用的距离定义,它是在m维空间中两个 点之间的真实距离。
也可以用表示成向量运算的形式:
机器学习相似度概述
主要相似度算法
标准欧式距离
杰卡德相似系数 & 杰卡德距离
卡德距离:是与杰卡德相似系数相反的概念,杰 卡德距离用两个集合中不同元素占所有元素的比例来衡 量两个集合的区分度。杰卡德距离可用如下公式表示:
杰卡德相似系数: 两个集合A和B的交集元素在A,B的 并集中所占的比例,称为两个集合的杰卡德相似系数, 用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的 相似度一种指标。
由于特征向量的各分量的量纲不一致(比如说身高和体 重),通常需要先对各分量进行标准化,使其与单位无 关。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为: (160cm,60kg) (170cm,50kg) 标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差 机器学习相似度概述
(2)距离函数:可以把每个样本点看作高维空间 中的一个点,进而使用某种距离来表示样本点之间的相似 性,距离较近的样本点性质较相似,距离较远的样本点则 差异较大。
机器学习相似度概述
主要相似度算法
机器学习相似度概述
主要相似度算法
主要相似度算法
欧氏距离
标准化欧氏距离
闵可夫斯基距离
曼哈顿距离
切比雪夫距离
机器学习相似度概述
主要相似度算法汉明距离源自两个等长字符串s1与s2之间的汉明距离定义为将 其中一个变为另外一个所需要作的最小替换次数。例如 字符串“1111”与“1001”之间的汉明距离为2。汉明 距离就是表示X,Y取值不同的分量数目。
只适用分量只取-1或1的情况。
机器学习相似度概述
主要相似度算法
机器学习相似度概述
主要相似度算法
杰卡德相似系数 & 杰卡德距离
例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合, 1表示集合包含该元素,0表示集合不包含该元素。 p:样本A与B都是1的维度的个数 q:样本A是1而B是0的维度的个数 r:样本A是0而B是1的维度的个数 s:样本A与B都是0的维度的个数 那么样本A与B的杰卡德相似系数可以表示为: