当前位置：文档之家› 机器学习与模式识别-第4章_线性判别

机器学习与模式识别-第4章_线性判别

– 针对各种不同的情况，使用不同的准则函数，设计出满足这些不同准则要求的分类器。 – 这些准则的“最优”并不一定与错误率最小相一致：次优分类器。 – 实例：正态分布最小错误率贝叶斯分类器在特殊情况下，是线性判别函数g(x)=wTx（决策面是超平面），能否基于样本直接确定w?
选择最佳准则
训练样本集
另一类是非线性判别函数
6
线性判别函数
• d维空间中的线性判别函数的一般形式：
g (x) w x w0
T
T
• x是样本向量：样本在d维特征空间中的描述， w是权向量， w0是一个常数(阈值权)。
x x1, x2 ,... xd
w w1, w2 ,...wd
T
• 两类问题的分类决策规则:
30
31
4.3 感知准则函数
感知准则函数是五十年代由Rosenblatt提出的一种自学习判别函数生成方法，由于 Rosenblatt企图将其用于脑模型感知器，因此被称为感知准则函数。其特点是随意确定的判别函数初始值，在对样本分类训练过程中逐步修正直至最终确定。

32
感知器的原理结构为：
x3
W区间
3
5
4
2 x2 H
H
H2
1
x1
39
梯度下降算法
感知器算法：
1.错误分类修正wk 如wkTx≤0并且x∈ω1 wk+1= wk+ρkx 如wkTx≥0并且x∈ω2 wk+1= wk-ρkx 2.正确分类，wk不修正如wkTx＞0并且x∈ω1 如wkTx＜0并且x∈ω2 wk+1= wk
8
线性判别函数
这是二维情况下判别由判别边界分类。情况如图：
x2

1
g ( x) w1x1 w2 x2 w3
2
x1
9
线性判别函数的基本概念
10
广义线性判别函数
11
广义线性判别函数
• 线性判别函数是形式最为简单的判别函数，但是它不能用于复杂情况。
– 例：设计一个一维分类器，使其功能为：
g1 g2
. . .
x2
. . .
MAX
a(x)
xn
gc
训练样本集
– 最一般情况下适用的“最优”分类器：错误率最小，对分类器设计在理论上有指导意义。决策规则： – 获取统计分布及其参数很判别函数困难，实际问题中并不一定具备获取准确统计分布决策面方程的条件。
3
直接确定判别函数
• 基于样本的直接确定判别函数方法：
• 线性判别函数的齐次简化：
g (x) w x w0 a y
T T
• 增广样本向量使特征空间增加了一维，但保持了样本间的欧氏距离不变，对于分类效果也与原决策面相同，只是在 Y空间中决策面是通过坐标原点的。
13
设计线性分类器的主要步骤:
1) 有一组具有类别标志的样本集 2) 根据实际情况确定一个准则函数J,满足: J是样本集和w,wo,a的函数 J的值能反映分类器的性能，它的极值解对应于“最好”的决策．
X X 0 由J(W)经第K+1次迭代时，J(W)趋于0，收敛于所求的W值。
即感知器迭代公式：Wk 1 Wk k
X
37
梯度下降算法
• 梯度下降算法：对(迭代)向量沿某函数的负梯度方向修正，可较快到达该函数极小值。
J p ( a) J p (a) (y) a yY
第四章线性判别函数
1
• •
4.1 引言 4.2 Fisher线性判别
• 4.3 感知准则函数 • 4.4 最小平方误差准则函数 • 4.5 多类问题 • 4.6 讨论
2
引言
分类器功能结构
基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数
样本分布的统计特征：
概率密度函数 x1
如果 y 1 , 则aT y 0 如果 y 2 , 则aT y 0
• 规范化样本向量：将第二类样本取其反向向量
y 如果 y 1 y= y 如果 y 2
a y i 0 i 1,..., N
T
34
解向量与解区
35
基本思路：通过对W的调整，可实现判别函数： g(x) =WTX > RT 其中RT为响应阈值定义感知准则函数准则：只考虑错分样本定义： J (W ) W T X ，其中X0为错分样本
决策规则：判别函数决策面方程
4
判别函数
假设对一模式X已抽取n个特征，表示为：
X ( x1 , x2 , x3 ,..., xn )T X是n维空间的一个向量
x2
2
1
x1
边界
模式识别问题就是根据模式X的 n个特征来判别模式属于
ω1 ,ω2 , … , ωm类中的
那一类。例如右上图：三类的分类问题，它们的边界线就是一个判别函数
所有样本正确分类
Y
N
得到合理的a 完成分类器设计
38
梯度下降算法
W的训练过程：例如: x1, x2, x3∈ω1 作 x1, x3的垂直线可得解区(如图) 。假
设起始权向量w1=0 ，步长ρ k = 1： 1. x1, x2, x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分； 2. x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分； 3. 依上法得矢量4,垂直于矢量4做超平面, H2将x3错分； 4. x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可以把 x1, x2, x3分成一类。
3) 利用最优化方法求出准则函数的极值解和
w,wo,a，进而得到g(x)
14
4.2 Fisher线性判别
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
至此，我们还没有解决分类问题，只是将d维映射到１维，将d维分类问题转划为１维分类问题，如何分类？确定阈值
k
任意给定一向量初始值a(1) a(k+1)= a(k)+ rk×Sum (被错分类的所有样本)
a( k 1) a( k ) rk J p (a) a( k ) rk
yY k
y
• 算法(step by step)：
1. 初值: 任意给定一向量初始值a(1) 2. 迭代: 第k+1次迭代时的权向量a(k+1) 等于第k次的权向量a(k)加上被错分类的所有样本之和与rk的乘积 3. 终止: 对所有样本正确分类
• 固定增量法与可变增量法 • 批量样本修正法与单样本修正法
– 单样本修正法：样本集视为不断重复出现的序列，逐个样本检查，修正权向量 – 批量样本修正法：样本成批或全部检查后，修正权向量
56
感知器方法小结
• 感知准则函数方法的思路是：先随意找一个初始向量a(1)，然后用训练样本集中的每个样本来计算。若发现一个y出现aTy<0，则只要a(k+1) = a(k) + rky，rk为正(步长系数)，则必有a(k+1)Ty = a(k)Ty + rkyTy，就有趋势做到使a(k+1)Ty >0。当然，修改后的a(k+1) 还可以使某些y出现a(k+1)Ty <0的情况，理论证明，只要训练样本集线性可分，无论 a(1)的初值是什么，经过有限次叠代，都可收敛。
| wT x | x x | wT x | x x
T T
③
部分修正规则 ρk=λ
0＜λ≤2
41
梯度下降算法
例题：有两类样本：
ω1=（x1,x2）={(1,0,1),(0,1,1)}，ω2=（x3,x4）={(1,1,0),(0,1,0)} 解：先求四个样本的增值模式 x1=(1,0,1,1) x2=(0,1,1,1) x3=(1,1,0,1) x4=(0,1,0,1) 假设初始权向量 w1=(1,1,1,1) ρk=1 第一次迭代： w1Tx1=(1,1,1,1) (1,0,1,1)T=3>0 所以不修正 w1Tx2=(1,1,1,1) (0,1,1,1)T=3>0 所以不修正 w1Tx3=(1,1,1,1) (1,1,0,1)T=3>0 所以修正w1 w2=w1-x3=(0,0,1,0) w2Tx4=(0,0,1,0)T (0,1,0,1) =0 所以修正w2 w3=w2-x4=(0,-1,1,-1) 第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,…次迭代， 42 如下表：
1 1 1 1 0 0 0 –1 1 1 1 1 1 1 0 -1
迭代次数
1
1011 0111 1101 0101
1011 0111 1101 0101 1011 0111 1101 0101 1011 0111 1101 0101
1 –1 2 0 1 –1 2 0 0 –2 2 –1 0 –2 2 -1 0 –2 2 –1 0 –1 3 0 0 –1 3 0 0 –1 3 0 0 0 0 0 –1 –1 –1 –1 3 3 3 3 0 0 0 0
X X 0
当分类发生错误时就有WTX <0，或－WTX >0, 所以J(W) 总是正值，错误分类愈少， J(W)就愈小。理想情况为 J (W ) 0 ，即求最小值的问题。
36
求最小值，对W求梯度 J
J (W ) X W -ρk▽J
3
5
用判别函数进行模式分类，取决两个因素：
判别函数的几何性质：线性与非线性判别函数的参数确定：判别函数形式+参数

e商务文档

机器学习与模式识别-第4章_线性判别

相关文档推荐：