当前位置：文档之家› 训练样本类别

训练样本类别

Ch 05. 非参数方法
Part 2 kn-近邻估计
Parzen窗估计的问题
• 如果p(x)的分布不均匀，在整个特征空间中采用同样的窗宽度可能无法总是得到令人满意的结果
同样尺寸的窗口
kn-近邻估计
• 一种解决Parzen窗估计单一窗宽问题方法
• 不固定窗宽度，而固定包括在x周围的某个区域中的样本个数k • 通常k取决于样本总数n，所以表示为kn • 当x周围数据密度大时，窗口变小（分辨率高） • 当x周围数据密度小时，窗口变大（分辨率低） • 包括进来的kn个样本称为x的kn个最近邻
• 对测试样本x，设
• 条件误差概率
是距离x最近的训练样本
• x和xk的类别标记分别为和
最近邻规则的误差率
• 条件误差概率（cont’）
• 当时，假设D包含的样本足够多，使得
则当
时，有
• 平均误差率（
时）
最近邻规则的误差界
• 平均误差率的下界
• 平均误差率
• 当
的上界
对每个x取最小值时，最大，则贝叶斯误差率表示为
• 逐步加进更多的维数时，部分距离的值严格非递减 • 计算测试样本x的最近邻时如何节省计算量？
• 计算x的最近邻时，每考察一个训练样本，可以更新当前的x的最近邻。
• 如果x到某个训练样本的在子集r上的部分距离已经大于其到当前最近邻的距离，则计算可以立即停止，舍弃该训练样本，继续考察下一个。 • 当计算距离时，如果方差大的维度先计算，此技术尤其有用
• 平均误差率
贝叶斯误差率
的下界
• 平均误差率
• 当
的上界
时，
，并且
• 当k足够大，但是相对于n又足够小时，在大样本数上应用k-NN规则近似于最优决策
k-近邻规则的误差界
k的选择
• k-近邻规则可被看作直接从样本中估计后验概率的方法
• 为了得到可靠的估计（误差率低），k越大越好
• 为了使尽可能逼近越近越好，即k越小越好 • 根据实际问题，折中选取k的值 • 当n趋向于无穷大，并且k以较慢的速度同样趋向于无穷大时，k-近邻规则是最优分类规则，x的近邻x’距离x
窗口包含同样多的样本
kn-近邻估计
• 令则，收敛到真实分布p(x)的充要条件为
• 满足此条件的一个常用选择
举例
• 一维分布，
• n=1时，
• n 1时，
1 pn ( x) 2 n max x xi
ikn 近邻
ห้องสมุดไป่ตู้

举例
n=8, k=3或5
举例
K=5
举例
更多非参数估计的例子
例子
k = 3 (奇数)， x = (0.10, 0.25)
训练样本 (0.15, 0.35)
类别
1
(0.10, 0.28)
(0.09, 0.30) (0.12, 0.20)
x的k个近邻:
2
5 2
{(0.10, 0.28, 2); (0.09, 0.30, 5); (0.12, 0.20,2)} 根据k-近邻规则，判断x的类别为2
计算复杂度
• 直接方法
• 假设训练集D包括n个d维样本
• 给定一个测试样本x，它与训练集中所有的样本xi之间都要计算距离，计算复杂度为O(dn)
• 当n很大时，时间和空间复杂度都将很高！
• 降低计算复杂度的方法
• 计算部分距离 • 预建立结构 • 对训练样本加以剪辑
计算部分距离
• 在计算距离时，只使用d个维度中的一个子集r
预建立结构
• 预先建立某种形式的搜索树，根据训练样本点之间的相对距离将它们组织起来 • 搜索树建立好之后，寻找x的最近邻只需访问整个树的一部分，因此可以节省计算量 • 例子
• 最近邻规则把特征空间分成一个个网格单元结构，称为 Voronoi网格
• 每一个单元包含一个训练样本点x’ • 该单元中任意一点x，到x’的距离均小于到其他训练样本点的距离 • 该单元中所有样本点均判别为 x’所属的类别
最近邻规则的误差率
• 给定训练集同类别的样本，其中包括n个来自c个不
• 设x的真实类别为
最近邻规则的误差界
• 平均误差率
• 给定
的上界（cont’）
）
（即给定
此式当第二项最小时最小，而第二项当除m以外的i取值相同时最小，即
对所有
最近邻规则的误差界
• 平均误差率
• 所以
的上界（cont’）
或
• 所以 • 当P*较小时，最近邻规则的平均误差率上界：
最近邻规则的误差界
如果xk属于类别，则判断x的类别为
• 最近邻规则是次优的方法，通常的误差率比最小可能的误差率（即贝叶斯误差率）要大
最近邻规则
• 直观理解
• 当样本个数非常大时，可认为x’距离x足够近，以使得
P(i | x ') P(i | x)
即最近邻规则是对真实后验概率的一个有效近似
Voronoi网格
k-近邻规则
• k-近邻（k-NN）规则是对最近邻（1-NN）规则的扩展，即考虑多个最近的邻居
• 给定训练集同类别的样本
• 对测试样本x，设集合练样本 • k-近邻规则
如果
，其中包括n个来自c个不
包含距离x最近的k个训
是在S中出现频率最高的类，则判断x的类别为
k-近邻规则
k-近邻规则的误差界
• 后验概率
• 决策
• Parzen窗估计：选择 ki / k 最大的类别 i
• kn-近邻估计：选择 ki 最大的类别 i
k-近邻分类器
最近邻规则
• k=1时的k-近邻决策
• 把x判断为与其距离最近的训练样本x’所属的类别
• 给定训练集同类别的样本
，其中包括n个来自c个不
• 对测试样本x，如果是距离x最近（根据某种距离度量）的训练样本，则最近邻（1-NN）规则为
• 直方图估计
更多非参数估计的例子
• Parzen窗估计
更多非参数估计的例子
• kn-近邻估计
更多非参数估计的例子
更多非参数估计的例子
Ch 05. 非参数方法
Part 3 k-近邻规则
模式分类的途径
• 途径1：估计类条件概率密度
• 通过和，利用贝叶斯规则计算后验概率通过最大后验概率做出决策，然后
• 两种方法
• 方法1a：概率密度参数估计
基于对的含参数的描述
• 方法1b：概率密度非参数估计
基于对的非参数的描述
• 途径2：直接估计后验概率
• 不需要先估计
• 途径3：直接计算判别函数
• 不需要估计或者
后验概率的非参数估计
• 假设一个x附近的区域R，能够包括进k个样本，其中ki个属于类别i ，则

e商务文档

训练样本类别

相关文档推荐：