当前位置：文档之家› 距离分类器

距离分类器

d ( X , Mi ) d ( X , M j ), j i X i
或者
d ( X , Mi ) min d ( X , M j ) X i

特例：欧氏距离
d 2 ( X , M j ) ( X , M j )T ( X , M j )
X T X 2M jT X M jT M j
标准样本的距离分类器分散样本的距离分类器距离分类法优缺点分析
这是最简单和直观的分类方法，以点距离作为样本相似性量度的主要依据。距离越近，表示样本越相似。
设 X , Y 为空间中的两个点,两点之间的距离d ( X , Y )
作为距离函数应该满足下述三个条件： a) 对称性： d ( X , Y ) d (Y , X )

每类以几个平均样本点代表，使用最近邻法分类。
好处：节省存储，减少计算量聚类算法就是这个思想，不过聚类算法理论上是无导师的自学习过程。

根据未知样本X最近邻的k个样本点中多数点的类别来分类。

计算X与所有训练样本的距离，找到最近邻的k个点，根据如下规则确定X的
类别。
ki k j , j i X i
k
j 1

R
j
k
k-近邻具有较好的噪声免疫性能。但是加权值相同的假设有些不合理。

优点：
概念直观，方法简单，比较适合于低维、小样本、样本散布小的情况。同时提供
了其他分类原理的基础。
缺点：–把图像看做一 Nhomakorabea确定的过程，以距离作为分类的基础并不严格。没有考虑到用概
率和可能性来分类。 –用所有样本点来进行距离计算时存储量和计算量较大；用平均样本又不能充分利
n 2 d ( X , Y ) xi yi i 1
d ( X , Y ) xi yi
i 1 n
1 2
d ( X , Y ) xi yi i 1
n
m

1 m
d ( X ,Y )
X T Y X Y

分类原理：
如果有R个类别 1 , 2 , , R ，可以各用一标准样本 M1 , M 2 , , M R 表示，则可以采用最小距离分类原理，将未知样本X分类到与其距离最小的标准样本 M i 中。即：

由于畸变和噪声的影响，样本总是散布的，散布的程度取决于样本的性质、预处理和特征提取的方法

根据不同情况，有如下几种不同的方法： –平均样本法 –平均距离法 –最近邻法

1 s 在样本分散较小时，可以将每类的样本平均值作为标准样本，即 M j Yt ， s t 1 然后再采用标准样本的最小距离分类法即可
令 ji
m ji 为 M j 的一个分量
j ,n 1
1 T MjMj 2
mji , i 1,2, n
则
g j ( X ) W j'T X ' j 1, 2, , n
Mj X ' ' ，其中 X ,W j 1 T M j M j 1 2
X T X 2( M j T X
2
T
1 M jT M j ) 2
1 T g ( X ) M X M mid d ( X , M j ) max j j j Mj 2

分类准则
gi ( X ) g j ( X ), i j X i

线性判别函数
设每类的样品为n维，即
d ( X , i ) d ( X , j ), j i X i
优缺点分析： –优点：对大多数的线性可分的情况，能达到较好的效果。 –缺点：需要存储所有的样本，并且没有充分利用所有的样本信息，因而受噪声影响较大。
–折衷策略：1.利用集群方法 2.k-近邻方法

根据一定的准则，把一类样本分成子集，利用各个子集的平均样本表示。
用信息。
–由最小距离分类概念直接得到判决准则，不能用数字方法判定其分类好坏。
b) 非负性：d ( X , Y ) 0 ，当且仅当 X Y 时等号成立
c) 三角不等式： d ( X , Y ) d ( X , Z ) d (Y , Z )
设 X ( x1, x2 , , xn ), Y ( y1, y2 , , yn ) 为n维空间中的两点 –欧氏距离： –街市距离： –明氏距离： –角度相似函数：
优缺点分析：
优点：考虑到了样本的散布，效果优于平均样本法。缺点：需要存储所有的样本，计算量较大，比较费时。

考虑样本散布的另一种分类方法，是以与未知样本X最近邻的点的类别作为X的分类，即：
d ( X , j ) min d ( X , Yt )
l 1,2, s
并以距离最小的类别作为X的分类：

优点：简单，存储量小，易于实现缺点：没有考虑到样本散布对分类的影响

考虑到样本散布的影响，未知样本X对类别 j 的距离 d ( X , j ) 用类别 j 的
所有样本的平均距离来表示，即
1 s 2 d ( X , j ) d ( X , Yt ) s t 1
2
然后采用标准样本的最小距离法进行分类即可。

e商务文档

距离分类器

相关文档推荐：