当前位置：文档之家› 模式识别课件(第六章 NO1)(最近邻法)

模式识别课件(第六章 NO1)(最近邻法)

剪辑步：利用参照集æ NR中的样本 Y1,Y2 ,......, YNR对测试集æ NT 中的每个样本采用最近邻法进行分类，并剪辑掉æ NT中被错误分类的样本。或者说，若Y ' ( X ) æNR是X æNT的最近邻样本，则剪辑掉与Y’(X)不同类的样本X，然后将æ NT中余下的样本构成剪辑样本集æ NTE。
分类步：利用剪辑样本集æ NTE 采用最近邻规则对待识样本X作分类决策。
二. 最近邻法的决策规则
设有c类模式样本，
ω1, ω2,……, ωc
每类有Ni个样本(i=1,2,……,c)，则最近邻法的(ωi类)判别函数为:
gi (X )
min k
X
X
k i
(k 1,2,.....,.Ni )
式中X
k i
表示ωi类中的第k个样本。
对应的决策规则为：
如果则决策
gi
(
X
)
6.2 k-近邻法(k-NN法)
为了克服单个样本类别的偶然性以增加分类的可靠性，可将最近邻法则进行改进，一个简单的方法就是k-近邻法。
此法就是考察待分样本X的k个最近邻样本，这k个最近邻元素中哪一类的样本最多，就将X判属哪一类。或者说，就是在N个已知类别的样本中，找出X的k个近邻，这k个近邻中多
数属于的那一类i ，就是 X i 。
具体就是：设k1,k2,......,kc分别为X的k个最近邻样本中属于
1,2 ,......, c
类的样本数，
则定义 i (i 1,2,......, c) 类的判别函数为：
gi (X ) ki
决策规则为：
如果则判
g
j
(
X
)
max i
gi
(
X
)
X j
最近邻法和k-近邻法的共同优点是简单，而且结果是比较好的，但是它们也存在下述问题：
D(Xi , M p ) r p
故得证。
3. 快速近邻算法
பைடு நூலகம்第一阶段：将样本集æ 按级分解。首先将æ 分为l个子集，每个子集再分成l个子子集，依次分
下去，图6.3为l=3的情况。这时每个节点上对应一群样本。
第二阶段：搜索树搜索算法：
step1：设置B=∞，L=0，P=0.(L是当前水平，P是当前节点)。 step2：将当前节点P的所有直接后继节点(即子节点)放入一个目录表中，并对这些节点X计算 D( X , M p )
“好”。
而当各类的P(i
X ) 都接近于 1 c
时(即所有类别是等可能
的)，最近邻法与Bayes法的结果就不一样了。这时两者的错
误率都接近于 1 1
c
定量描述：
P P P(2 c P) c 1
式中：p为最近邻法的渐近平均错误率 P为 Bayes错误率 c 为类别数
P 一般较小
P P 2P
设æ ={X1,X2,……,XN}表示全部样本集；
æ P表示节点P对应的样本子集，即æ Pæ ；
NP表示æ P中的样本数；
MP表示æ P中的样本均值(即“类心”)；
rP
max
X iæp
D( X i , M p )
：表示从MP到Xiæ p
的最大距离；
B表示除æ p中的样本之外的样本到待分样本X的最近距离。
二. 剪辑近邻法
此类方法的基本思想是：剪掉(清理)两类间的边界，取掉类别混杂的样本，使两类边界更清晰。
1. 两分剪辑近邻法(亦称剪辑最近邻法) 基本过程为：
设N个样本分成c类
æN
={
æN1 1
,
æN2 2
,……,
æNc } c
(N1+N2+……,+Nc= N)
step1：剪辑。利用已知样本集æN 中的样本进行预分
一. 快速近邻算法该算法对最近邻法和k-近邻法都适用。下面以最近邻法为
例来讨论。
1. 基本思想将全部已知样本按级分成一些不相交的子集，并在子集的
基础上进行搜索。也就是说，该算法由两个阶段组成：
第一阶段：将样本集按级分解，形成树状结构。第二阶段：用搜索算法找出待识样本的最近邻。
2. 涉及的规则
B的初值设为∞，以后再不断修正。
规则1 如果存在 B rp D( X , M p ) 则Xiæ p不可能是X的最近邻。
证明：对任意 X i æp，据三角不等式有
D(X , Xi ) D(Xi , M P ) D(X , M p )
而据 rp定义有
D( X i , M p ) rp
∴ 由上两式可得
类，并剪辑掉被错分类的样本，留下的样本构成剪辑样本集 æNE
step2：分类。利用 æNE 和近邻规则对未知样本X进行
分类。
下面以两类情况进行具体介绍：
设将已知类别的样本集æ N分成测试集æ NT和参照集æ NR两个独立的部分(即这两部分没有公共元素)，它们的样本数各为 NR和NT，且NR+NT=N。
P( j X j ) P( j X )
这时最近邻法可看成是如下的随机化决策：
按照概率 P( j
X ) 来决定X的类别。
故最近邻法可看成是用后验概率来对X进行分类的。
再进一步说，就是如果有下式成立：
P(i
X)
max j
P(
j
X)
则依Bayes决策，应取i作为X的类别。而在最近邻法中，最近邻的类别为i 的概率为 P(i X ) ，所以X分到 i 类去的
概率为 P(i X )，而不分到 i类去的概率为：
1 P(i X )
这也就是说：
按Bayes决策的话：以概率为1，而得决策 X i
按最近邻法决策的话：以概率为P(i X ) ，而得决策 X i
显然，当P(i X ) 接近于1时，最近邻法与最小错误率下的Bayes法的结果就几乎相同了。也就是说，当最小错误概率较小时，最近邻法的错误概率也是较小的，这两种方法同样
min j
g
j
(
X
)
X i
(j 1,2,.....,.c)
即只要将待分样本X与全部N(
c
N
)个已知类别的样本进
i
i 1
行欧氏距离之间的比较，然后将X归到离它最近的类别中。
由于这种方法只根据离待分样本X最近的一个样本的类别而决定其类别，所以通常称为1-最近邻法(亦称1-NN方法)
三. 最近邻法的错误率问题
Ｘi rP Mp
Ｘ的近邻
Ｘ
D( X , X i ) D( X , M P ) rp B
即得
B rp D( X , M p )
则 X i æp 不可能是X的最近邻。
规则2. 如果存在
B D(Xi, M p ) D(X , M p )
则 X i æp 不可能是X的最近邻。
证明：比较规则1与规则2，并参图，可知
第六章近邻法
6.1 最近邻法
一. 最近邻法的基本思想此法是一种根据全部样本提供的信息，绕开概率的估计
而直接决策的方法，所以它是非参数决策方法的一种。
其基本思想是：设有一组N个样本
æ ={ X1,X2,……,XN} 其中每个样本都已标以类别标志。如果在这N个样本中与待分样本X相距最近的一个样本为Xiæ ，则把X分到Xi所在的类别中去。
① 需要将全部样本存入机器中，每次决策都要计算X与全部样本间的距离并进行比较。所以要求的存储容量和计算量都很大。
② 没有考虑到决策的风险，所以如果决策的错误代价很大时，会产生很大的风险。
③上述分析是建立在样本数 N 的假定上的，这在实际应用中是无法实现的。
6.3 近邻法的改进算法
共同特点是如何尽快地找出最近邻可能存在的小的空间，减少搜索的范围，从而达到减少近邻法中的计算量和存储量的问题。
最近邻法是一种次优方法，它的错误率比最小错误概率的Bayes决策规则下的错误率要大，但是，当样本数目无限时，它的错误率不会超过Bayes错误率的一倍。
定性分析：
若将X的最近邻Xj的类别看成是一个随机变量 j ，于是
j j
的概率就是后验概率 P( j X j ) .
当样本数目很多时，可以认为X的最近邻Xj 离它很近，从而近似的认为

e商务文档

模式识别课件(第六章 NO1)(最近邻法)

相关文档推荐：