当前位置:文档之家› 距离分类器

距离分类器


d ( X , Mi ) d ( X , M j ), j i X i
或者
d ( X , Mi ) min d ( X , M j ) X i

特例:欧氏距离
d 2 ( X , M j ) ( X , M j )T ( X , M j )
X T X 2M jT X M jT M j
标准样本的距离分类器 分散样本的距离分类器 距离分类法优缺点分析
这是最简单和直观的分类方法,以点距离作为样本相似性量度的主要依 据。距离越近,表示样本越相似。
设 X , Y 为空间中的两个点,两点之间的距离d ( X , Y )
作为距离函数应该满足下述三个条件: a) 对称性: d ( X , Y ) d (Y , X )


每类以几个平均样本点代表,使用最近邻法分类。
好处:节省存储,减少计算量 聚类算法就是这个思想,不过聚类算法理论上是无导师的自学习过程。

根据未知样本X最近邻的k个样本点中多数点的类别来分类。

计算X与所有训练样本的距离,找到最近邻的k个点,根据如下规则确定X的
类别。
ki k j , j i X i
k
j 1

R
j
k
k-近邻具有较好的噪声免疫性能。但是加权值相同的假设有些不合理。

优点:
概念直观,方法简单,比较适合于低维、小样本、样本散布小的情况。同时提供
了其他分类原理的基础。
缺点:–把图像看做一 Nhomakorabea确定的过程,以距离作为分类的基础并不严格。没有考虑到用概
率和可能性来分类。 –用所有样本点来进行距离计算时存储量和计算量较大;用平均样本又不能充分利
n 2 d ( X , Y ) xi yi i 1
d ( X , Y ) xi yi
i 1 n
1 2
d ( X , Y ) xi yi i 1
n
m

1 m
d ( X ,Y )
X T Y X Y

分类原理:
如果有R个类别 1 , 2 , , R ,可以各用一标准样本 M1 , M 2 , , M R 表示,则可以采用 最小距离分类原理,将未知样本X分类到与其距离最小的标准样本 M i 中。即:

由于畸变和噪声的影响,样本总是散布的,散布的程度取决于样本的性质、 预处理和特征提取的方法

根据不同情况,有如下几种不同的方法: –平均样本法 –平均距离法 –最近邻法

1 s 在样本分散较小时,可以将每类的样本平均值作为标准样本,即 M j Yt , s t 1 然后再采用标准样本的最小距离分类法即可
令 ji
m ji 为 M j 的一个分量
j ,n 1
1 T MjMj 2
mji , i 1,2, n

g j ( X ) W j'T X ' j 1, 2, , n
Mj X ' ' ,其中 X ,W j 1 T M j M j 1 2
X T X 2( M j T X
2
T
1 M jT M j ) 2
1 T g ( X ) M X M mid d ( X , M j ) max j j j Mj 2

分类准则
gi ( X ) g j ( X ), i j X i

线性判别函数
设每类的样品为n维,即
d ( X , i ) d ( X , j ), j i X i
优缺点分析: –优点:对大多数的线性可分的情况,能达到较好的效果。 –缺点:需要存储所有的样本,并且没有充分利用所有的样本信息,因而受噪声影 响较大。
–折衷策略:1.利用集群方法 2.k-近邻方法

根据一定的准则,把一类样本分成子集,利用各个子集的平均样本表示。
用信息。
–由最小距离分类概念直接得到判决准则,不能用数字方法判定其分类好坏。
b) 非负性:d ( X , Y ) 0 ,当且仅当 X Y 时等号成立
c) 三角不等式: d ( X , Y ) d ( X , Z ) d (Y , Z )
设 X ( x1, x2 , , xn ), Y ( y1, y2 , , yn ) 为n维空间中的两点 –欧氏距离: –街市距离: –明氏距离: –角度相似函数:
优缺点分析:
优点:考虑到了样本的散布,效果优于平均样本法。 缺点:需要存储所有的样本,计算量较大,比较费时。

考虑样本散布的另一种分类方法,是以与未知样本X最近邻的点的类别作为X的 分类,即:
d ( X , j ) min d ( X , Yt )
l 1,2, s
并以距离最小的类别作为X的分类:

优点:简单,存储量小,易于实现 缺点:没有考虑到样本散布对分类的影响

考虑到样本散布的影响,未知样本X对类别 j 的距离 d ( X , j ) 用类别 j 的
所有样本的平均距离来表示,即
1 s 2 d ( X , j ) d ( X , Yt ) s t 1
2
然后采用标准样本的最小距离法进行分类即可。
相关主题