哈工大模式识别第3章
采用映射x→Y 则:判别函数g(x)又可表示成
g(x)被称为广义线性判 别函数, a 称为广义 权向量
– 按照这种原理,任何形式的高次判别函数都可转 化成线性判别函数来处理。 – 这种处理非线性分类器的方法,在支持向量机中 得到充分的研究。 – 产生问题: 维数会增加很多
推广----线性判别函数的齐次简化
Fisher线性判别函数
Fisher线性判别函数是研究这类判别函数中 最有影响的方法之一。 对线性判别函数的研究就是从R.A.Fisher在 1936年发表的论文开始的。
Fisher线性判别函数基本原理
– 设计线性分类器首先要确定准则函数,然后再利 用训练样本集确定该分类器的参数,以求使所确 定的准则达到最佳。 – 维数问题: 降低维数 – 线性判别函数把d维空间映射到1维空间
上式并不是W的显函数,需化为W的显函数
进一步化为W的显函数
分子
分母
分母:
因此
3.3.2 最佳W值的确定
最佳W值的确定: 求取使JF达极大值时的 w*
可以采用拉格朗日乘子算法解决
设计一拉格朗日函数
对向量的求导(或偏导)的定义是
由于Sw非奇异,两边乘以Sw-1得
最佳法线向量W*
准则函数 Jp(a) 就是感知准则函数
感知准则函数方法的思路
1)随意找一个初始向量 a(0) 2)用训练样本集中的每个样本Y来计算 3)若Y’使aTY’<0,则a不适合,需修正。 若对当前经k次叠代修正的广义权向量为a(k)修正
a(k 1) a(k) J p
并使其满足:
3.3.1 Fisher准则函数
Fisher准则基本原理
如果在二维空间中一条直线能将两类样本分开,或者错分类 很少,则同一类别样本数据在该直线的单位法向量上的投影 的绝大多数都应该超过某一值。而另一类数据的投影都应该 小于(或绝大多数都小于)该值,则这条直线就有可能将两类分 开。 – Fisher准则就是要找到一个最合适的投影轴,使两类样本 在该轴上投影的交迭部分最少,从而使分类效果为最佳。 – 分析w1方向之所以比w2方向优越,可以归纳出这样一个准 则 向量W的方向选择应能使两类样本投影的均值之差尽可 能大些 而使类内样本的离散程度尽可能小
a:称为增广 权向量 (广 义权向量)
称为增广 样本向量 将g(x)中的W向量与w0统一表示成
它使特征空间增加了一维,但保持了样本间的欧氏距离不变, 对于分类效果也与原决策面相同,只是在Y空间中决策面是通过 坐标原点的,这在分析某些问题时具有优点,因此经常用到。
例如:一个一维特征空间的分类器,其决策 面方程为: X-c=0 在一维空间中为一个点。经齐次简化后得:
具体过程
1 、按需要确定一准则函数J。 2 、确定准则函数J达到极值时w*及w0* 的具体数值,从而确定判别函数,完成 分类器设计。
设计线性分类器,是指所用的判别函数、 分界面方程的类型已选定为线性类型,因此 主要的设计任务是确定线性方程的两个参数, 一个是权向量W,另一个是阈值w0。
3.3
否则,按如下方法确定: 1、 2、 3、
(P(W1)、P(W2) 已知时)
分类规则
3.4 感知准则函数
感知准则函数是五十年代由Rosenblatt提出的一种 自学习判别函数生成方法,企图将其用于脑模型感 知器,因此被称为感知准则函数。 特点:随意确定判别函数的初始值,在对样本分类 训练过程中逐步修正直至最终确定。 感知准则函数:是设计线性分类器的重要方法 感知准则函数使用增广样本向量与增广权向量
§3.1引言
贝叶斯决策理论设计分类器的步骤
非参数判别分类
非参数判别分类方法两个过程
确定使用什么典型的分类决策方法
即决定判别函数类型(如线性判别函数)及优化 准则
利用训练样本集提供的信息及优化准则 (Fisher准则、感知函数准则、最小错分样本数准 则等)确定这些函数中的参数。
相对最小错误率及最小风险决策(最优分类器)而 言,是次优方法,但在所提准则下,是最好的。
a
样本规范化
在线性可分条件下,广义权向量a应有: 若 Y∈ω 1 ,则:aTY>0 Y∈ω 2 ,则:aTY<0 为了方便起见,令 :
Y 若Y 1 Y' { -Y 若Y 2
Y’ 称为规范化的增广样本向量。则合适的a能使所有 的Y'满足aTY’>0. 需要解决的问题: 找到满足上式的a
解区与解向量
满足aTY’>0的权向量a称为解向量。 解向量存在无穷多个,解向量组成的区域称为解区
对解区的限制
目的:使解向量更可靠 越靠近解区中间的解向量越好 解区边界上的解向量不好 引入余量b>0,解向量应满足: aTY’>b.
aTY’>0. aTY’>b.
分析:怎样确定准则函数
使Fisher准则函数JF达极大值的解,也就是按 Fisher准则将d维X空间投影到一维Y空间的最 佳投影方向。
是在两类正态分布但具有相同的 协方差矩阵Σ时,按最小错误率的贝叶斯决策 得到的结果。
如果P(ωi)=P(ωj),则最佳分界线就是两类概率 密度函数值相等的点的集合。
按Fisher准则,Sw=Σ1+ Σ2=2 Σ, Sb=(u1-u2),
– 根据训练样本确定增广权向量 a – 在给定一个规范化增广样本集Y1,…,YN的条件下 ,对于任何一个增广权向量a ,可计算 aTyi
– 显然如果该向量是一个能将此样本集正确分类的 增广权向量,则应有
aTyi>0,
i=1,2,….,N
而对可导致错分类的增广权向量,则必有若干个yi , 使
aTyi<0
yk yk
(步长系数 )
算法
1)给定初始权向量a(k) ,k=0;
( 如a(0)=[1,1,….,1]T)
2)利用a(k)对对样本集分类,设错分类样本集为yk 3)若yk是空集,则a=a(k),迭代结束; 否则,转4) 4)计算:ρ k, J p (a) ( y) a(k 1) a(k) k J p yy 令k=k+1 5)转2)
广义线性判别函数
选择一种映射X→Y,将原样本特征向量X映射成另 一向量Y,从而可以采用线性判别函数的方法。
广义线性判别函数
– 线性判别函数优点
具有形式简单 计算方便的优点 已被充分研究
– 希望能将其用适当方式扩展至原本适宜非线性判 别函数的领域
例如,对于二次函数情况,其一般式可表示成:
k
感知准则函数利用梯度下降算法
可简单叙述为: 任意给定一向量初始值a(1),第k+1次迭代时的权向量 a(k+1)等于第k次的权向量a(k)加上被错分类的所有样本之和 与ρ k 的乘积。 由于每次修正a时都要计算成批样本,因此,该算法也称为 “批处理感知算法”
即:若两类样本的离散矩阵相近,也就是说两类分 布的形式很相近,按Fisher准则,错分率就应比较 小(接近最小错误率),Fisher准则的合理性可以 在这里体现
3.3.3 W0的确定
若维数d足够大,样本数足够多,可估计各类样本 在1维上的方差和均值、先验概率等,然后,按最 小错误率Bayes决策确定阈值W0。
§3.2 线性分类器
判别函数是线性判别函数的分类器称为线性分类器 主要工作:用训练样本去估计线性判别函数的参数 3.2.1 线性判别函数的基本概念 线性判别函数的一般形式
w0是一个常数,称 为)=0就是相应的决策面方程,在线性判别 函数条件下它对应d维空间的一个超平面
在两类别情况下,判别准则是
为简单起见,我们不考虑g(X)=0的情况。
为了讨论原理方便,这一节在线性可分条件下 讨论问题,并且只谈两类识别问题。
线性可分性
设已知样本集{y1,y2,…,yN}, yn是d维增广样本向量, 分属于ω 1 和ω 2类。 若存在权向量a,使任何y∈ω 1 ,都有:aTy>0 y∈ω 2 ,都有:aTy<0 则称这组样本集线性可分。 或:若训练样本集是线性可分的,则必存在一个权 向量a,可使该训练样本集中的每个样本正确分类。
样本在d维特征空间的一些描述量
(1) 各类样本均值向量mi (2) 样本类内离散度矩阵Si与总类内离散度矩阵Sw
(3) 样本类间离散度矩阵Sb
若考虑
先验概率,则:
2 在一维Y空间
(1) 各类样本均值
(2) 样本类内离散度 和总类内离散度
Fisher准则的函数形式
Fisher选择投影方向W的原则: y=WTX 类间分布尽可能分开, 类内样本投影尽可能密集的要求 评价投影方向W的函数
y2
y1
3.2.3 线性分类器设计步骤
线性分类器设计任务 在给定样本集XX={X1,X2,…,XN}条件下, 确定线性判别函数的各项系数,w1,w2,…,wd , 以期对待测样本进行分类时,能满足相应的 准则函数J为最优的要求。 关键问题: 确定所需的准则函数,然后用最优化技术 确定准则函数的极值解w*及w0*,或增广权向 量 a*
向量W的意义
设在该决策平面上有两个特征向量X1与X2,则
W与该平面上任两点组成的向量(X1-X2)正交 W是该超平面的法线向量
X g(X) / ||W|| R0=w0 / ||W|| Xp R2: g<0 H: g=0 r 正侧 R1: g>0 负侧
g(X)、 w0的意义 g(X)是d维空间任一点X到决策面H的距离的代数度量 w0体现该决策面在特征空间中的位置 1) w0=0时,该决策面过特征空间坐标系原点 2)否则,R0=w0/||W||表示坐标原点到决策面的距离