当前位置:
文档之家› 模式识别课件(第六章 NO1)(最近邻法)
模式识别课件(第六章 NO1)(最近邻法)
剪辑步:利用参照集æ NR中的样本 Y1,Y2 ,......, YNR对测试集æ NT 中的每个样本采用最近邻法进行分类,并剪辑掉æ NT中被错误 分类的样本。或者说,若Y ' ( X ) æNR是X æNT的最近邻样本,则 剪辑掉与Y’(X)不同类的样本X,然后将æ NT中余下的样本构成 剪辑样本集æ NTE。
分类步:利用剪辑样本集æ NTE 采用最近邻规则对待识样本X作 分类决策。
二. 最近邻法的决策规则
设有c类模式样本,
ω1, ω2,……, ωc
每类有Ni个样本(i=1,2,……,c),则最近邻法的(ωi类)判别 函数为:
gi (X )
min k
X
X
k i
(k 1,2,.....,.Ni )
式中X
k i
表示ωi类中的第k个样本。
对应的决策规则为:
如果 则决策
gi
(
X
)
6.2 k-近邻法(k-NN法)
为了克服单个样本类别的偶然性以增加分类的可靠性,可 将最近邻法则进行改进,一个简单的方法就是k-近邻法。
此法就是考察待分样本X的k个最近邻样本,这k个最近邻 元素中哪一类的样本最多,就将X判属哪一类。或者说,就是 在N个已知类别的样本中,找出X的k个近邻,这k个近邻中多
数属于的那一类i ,就是 X i 。
具体就是:设k1,k2,......,kc分别为X的k个最近邻样本中属于
1,2 ,......, c
类的样本数,
则定义 i (i 1,2,......, c) 类的判别函数为:
gi (X ) ki
决策规则为:
如果 则判
g
j
(
X
)
max i
gi
(
X
)
X j
最近邻法和k-近邻法的共同优点是简单,而且结果是比较好 的,但是它们也存在下述问题:
D(Xi , M p ) r p
故得证。
3. 快速近邻算法
பைடு நூலகம்第一阶段:将样本集æ 按级分解。 首先将æ 分为l个子集,每个子集再分成l个子子集,依次分
下去,图6.3为l=3的情况。这时每个节点上对应一群样本。
第二阶段:搜索 树搜索算法:
step1:设置B=∞,L=0,P=0.(L是当前水平,P是当前节点)。 step2:将当前节点P的所有直接后继节点(即子节点)放入一个目 录表中,并对这些节点X计算 D( X , M p )
“好”。
而当各类的P(i
X ) 都接近于 1 c
时(即所有类别是等可能
的),最近邻法与Bayes法的结果就不一样了。这时两者的错
误率都接近于 1 1
c
定量描述:
P P P(2 c P) c 1
式中:p为最近邻法的渐近平均错误率 P为 Bayes错误率 c 为类别数
P 一般较小
P P 2P
设æ ={X1,X2,……,XN}表示全部样本集;
æ P表示节点P对应的样本子集,即æ Pæ ;
NP表示æ P中的样本数;
MP表示æ P中的样本均值(即“类心”);
rP
max
X iæp
D( X i , M p )
:表示从MP到Xiæ p
的最大距离;
B表示除æ p中的样本之外的样本到待分样本X的最近距离。
二. 剪辑近邻法
此类方法的基本思想是:剪掉(清理)两类间的边界,取 掉类别混杂的样本,使两类边界更清晰。
1. 两分剪辑近邻法(亦称剪辑最近邻法) 基本过程为:
设N个样本分成c类
æN
={
æN1 1
,
æN2 2
,……,
æNc } c
(N1+N2+……,+Nc= N)
step1:剪辑。利用已知样本集æN 中的样本进行预分
一. 快速近邻算法 该算法对最近邻法和k-近邻法都适用。下面以最近邻法为
例来讨论。
1. 基本思想 将全部已知样本按级分成一些不相交的子集,并在子集的
基础上进行搜索。也就是说,该算法由两个阶段组成:
第一阶段:将样本集按级分解,形成树状结构。 第二阶段:用搜索算法找出待识样本的最近邻。
2. 涉及的规则
B的初值设为∞,以后再不断修正。
规则1 如果存在 B rp D( X , M p ) 则Xiæ p不可能是X的最近邻。
证明:对任意 X i æp,据三角不等式有
D(X , Xi ) D(Xi , M P ) D(X , M p )
而据 rp定义有
D( X i , M p ) rp
∴ 由上两式可得
类,并剪辑掉被错分类的样本,留下的样本构成 剪辑样本集 æNE
step2:分类。利用 æNE 和近邻规则对未知样本X进行
分类。
下面以两类情况进行具体介绍:
设将已知类别的样本集æ N分成测试集æ NT和参照集æ NR两 个独立的部分(即这两部分没有公共元素),它们的样本数各为 NR和NT,且NR+NT=N。
P( j X j ) P( j X )
这时最近邻法可看成是如下的随机化决策:
按照概率 P( j
X ) 来决定X的类别。
故最近邻法可看成是用后验概率来对X进行分类的。
再进一步说,就是如果有下式成立:
P(i
X)
max j
P(
j
X)
则依Bayes决策,应取i作为X的类别。而在最近邻法中, 最近邻的类别为i 的概率为 P(i X ) ,所以X分到 i 类去的
概率为 P(i X ),而不分到 i类去的概率为:
1 P(i X )
这也就是说:
按Bayes决策的话:以概率为1,而得决策 X i
按最近邻法决策的话:以概率为P(i X ) ,而得决策 X i
显然,当P(i X ) 接近于1时,最近邻法与最小错误率下 的Bayes法的结果就几乎相同了。也就是说,当最小错误概率 较小时,最近邻法的错误概率也是较小的,这两种方法同样
min j
g
j
(
X
)
X i
(j 1,2,.....,.c)
即只要将待分样本X与全部N(
c
N
)个已知类别的样本进
i
i 1
行欧氏距离之间的比较,然后将X归到离它最近的类别中。
由于这种方法只根据离待分样本X最近的一个样本的类 别而决定其类别,所以通常称为1-最近邻法(亦称1-NN方法)
三. 最近邻法的错误率问题
Xi rP Mp
X的近邻
X
D( X , X i ) D( X , M P ) rp B
即得
B rp D( X , M p )
则 X i æp 不可能是X的最近邻。
规则2. 如果存在
B D(Xi, M p ) D(X , M p )
则 X i æp 不可能是X的最近邻。
证明:比较规则1与规则2,并参图,可知
第六章 近邻法
6.1 最近邻法
一. 最近邻法的基本思想 此法是一种根据全部样本提供的信息,绕开概率的估计
而直接决策的方法,所以它是非参数决策方法的一种。
其基本思想是:设有一组N个样本
æ ={ X1,X2,……,XN} 其中每个样本都已标以类别标志。如果在这N个样本中与待 分样本X相距最近的一个样本为Xiæ ,则把X分到Xi所在的 类别中去。
① 需要将全部样本存入机器中,每次决策都要计算X与全部样本 间的距离并进行比较。所以要求的存储容量和计算量都很大。
② 没有考虑到决策的风险,所以如果决策的错误代价很大时,会 产生很大的风险。
③上述分析是建立在样本数 N 的假定上的,这在实际应用中 是无法实现的。
6.3 近邻法的改进算法
共同特点是如何尽快地找出最近邻可能存在的小的空间, 减少搜索的范围,从而达到减少近邻法中的计算量和存储量的 问题。
最近邻法是一种次优方法,它的错误率比最小错误概率 的Bayes决策规则下的错误率要大,但是,当样本数目无限 时,它的错误率不会超过Bayes错误率的一倍。
定性分析:
若将X的最近邻Xj的类别看成是一个随机变量 j ,于是
j j
的概率就是后验概率 P( j X j ) .
当样本数目很多时,可以认为X的最近邻Xj 离它很近, 从而近似的认为