当前位置:文档之家› 机器学习与模式识别-第4章_线性判别

机器学习与模式识别-第4章_线性判别

– 针对各种不同的情况,使用不同的准则函数, 设计出满足这些不同准则要求的分类器。 – 这些准则的“最优”并不一定与错误率最小相 一致:次优分类器。 – 实例:正态分布最小错误率贝叶斯分类器在特 殊情况下,是线性判别函数g(x)=wTx(决策面 是超平面),能否基于样本直接确定w?
选择最佳准则
训练样本集
另一类是非线性判别函数
6
线性判别函数
• d维空间中的线性判别函 数的一般形式:
g (x) w x w0
T
T
• x是样本向量:样本在d维特征空间中的描述, w是权向量, w0是一个常数(阈值权)。
x x1, x2 ,... xd
w w1, w2 ,...wd
T
• 两类问题的分类决策规则:
30
31
4.3 感知准则函数
感知准则函数是五十年代由Rosenblatt提 出的一种自学习判别函数生成方法,由于 Rosenblatt企图将其用于脑模型感知器, 因此被称为感知准则函数。其特点是随意 确定的判别函数初始值,在对样本分类训 练过程中逐步修正直至最终确定。

32
感知器的原理结构为:
x3
W区间
3
5
4
2 x2 H
H
H2
1
x1
39
梯度下降算法
感知器算法:
1.错误分类修正wk 如wkTx≤0并且x∈ω1 wk+1= wk+ρkx 如wkTx≥0并且x∈ω2 wk+1= wk-ρkx 2.正确分类 ,wk不修正 如wkTx>0并且x∈ω1 如wkTx<0并且x∈ω2 wk+1= wk
8
线性判别函数
这是二维情况下判别由判别边界分类。 情况如图:
x2

1
g ( x) w1x1 w2 x2 w3
2
x1
9
线性判别函数 的基本概念
10
广义线性判别函数
11
广义线性判别函数
• 线性判别函数是形式最为简单的判别函数,但是 它不能用于复杂情况。
– 例:设计一个一维分类器,使其功能为:
g1 g2
. . .
x2
. . .
MAX
a(x)
xn
gc
训练样本集
– 最一般情况下适用的“最 优”分类器:错误率最小, 对分类器设计在理论上有 指导意义。 决策规则: – 获取统计分布及其参数很 判别函数 困难,实际问题中并不一 定具备获取准确统计分布 决策面方程 的条件。
3
直接确定判别函数
• 基于样本的直接确定判别函数方法:
• 线性判别函数的齐次简化:
g (x) w x w0 a y
T T
• 增广样本向量使特征空间增加了一维,但保持了样本间的 欧氏距离不变,对于分类效果也与原决策面相同,只是在 Y空间中决策面是通过坐标原点的。
13
设计线性分类器的主要步骤:
1) 有一组具有类别标志的样本集 2) 根据实际情况确定一个准则函数J,满足: J是样本集和w,wo,a的函数 J的值能反映分类器的性能,它的极值解对应 于“最好”的决策.
X X 0 由J(W)经第K+1次迭代时,J(W)趋于0,收敛于所求的W值。
即感知器迭代公式:Wk 1 Wk k
X
37
梯度下降算法
• 梯度下降算法:对(迭代)向量沿某函数的负 梯度方向修正,可较快到达该函数极小值。
J p ( a) J p (a) (y) a yY
第四章 线性判别函数
1
• •
4.1 引言 4.2 Fisher线性判别
• 4.3 感知准则函数 • 4.4 最小平方误差准则函数 • 4.5 多类问题 • 4.6 讨论
2
引言
分类器 功能结构
基于样本的Bayes分类 器:通过估计类条件 概率密度函数,设计 相应的判别函数
样本分布的 统计特征:
概率密度函数 x1
如果 y 1 , 则aT y 0 如果 y 2 , 则aT y 0
• 规范化样本向量 :将第二类样本取其反向向量
y 如果 y 1 y= y 如果 y 2
a y i 0 i 1,..., N
T
34
解向量与解区
35
基本思路:通过对W的调整,可实现判别函数: g(x) =WTX > RT 其中RT为响应阈值 定义感知准则函数准则:只考虑错分样本 定义: J (W ) W T X ,其中X0为错分样本
决策规则: 判别函数 决策面方程
4
判别函数
假设对一模式X已抽取n个特征, 表示为:
X ( x1 , x2 , x3 ,..., xn )T X是n维空间的一个向量
x2
2
1
x1
边界
模式识别问题就是根据模式X的 n个特征来判别模式属于
ω1 ,ω2 , … , ωm类中的
那一类。 例如右上图:三类的分类问题,它 们的边界线就是一个判别函数
所有样本 正确分类
Y
N
得到合理的a 完成 分类器设计
38
梯度下降算法
W的训练过程:例如: x1, x2, x3∈ω1 作 x1, x3的垂直线可得解区(如图) 。假
设起始权向量w1=0 ,步长ρ k = 1: 1. x1, x2, x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分; 2. x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分; 3. 依上法得矢量4,垂直于矢量4做超平面, H2将x3错分; 4. x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可以把 x1, x2, x3分成一类 。
3) 利用最优化方法求出准则函数的极值解和
w,wo,a,进而得到g(x)
14
4.2 Fisher线性判别
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
至此,我们还没有解决分类问题, 只是将d维映射到1维,将d维 分类问题转划为1维分类问题, 如何分类? 确定阈值
k
任意给定一向量 初始值a(1) a(k+1)= a(k)+ rk×Sum (被错分类的所有样本)
a( k 1) a( k ) rk J p (a) a( k ) rk
yY k
y
• 算法(step by step):
1. 初值: 任意给定一向量初始值a(1) 2. 迭代: 第k+1次迭代时的权向量a(k+1) 等于第k次的权向量a(k)加上被错分类的 所有样本之和与rk的乘积 3. 终止: 对所有样本正确分类
• 固定增量法与可变增量法 • 批量样本修正法与单样本 修正法
– 单样本修正法:样本集视为 不断重复出现的序列,逐个 样本检查,修正权向量 – 批量样本修正法:样本成批 或全部检查后,修正权向量
56
感知器方法小结
• 感知准则函数方法的思路是:先随意找一个 初始向量a(1),然后用训练样本集中的每个 样本来计算。若发现一个y出现aTy<0,则只 要a(k+1) = a(k) + rky,rk为正(步长系数), 则必有a(k+1)Ty = a(k)Ty + rkyTy,就有趋势 做到使a(k+1)Ty >0。当然,修改后的a(k+1) 还可以使某些y出现a(k+1)Ty <0的情况,理 论证明,只要训练样本集线性可分,无论 a(1)的初值是什么,经过有限次叠代,都可 收敛。
| wT x | x x | wT x | x x
T T

部分修正规则 ρk=λ
0<λ≤2
41
梯度下降算法
例题:有两类样本:
ω1=(x1,x2)={(1,0,1),(0,1,1)},ω2=(x3,x4)={(1,1,0),(0,1,0)} 解:先求四个样本的增值模式 x1=(1,0,1,1) x2=(0,1,1,1) x3=(1,1,0,1) x4=(0,1,0,1) 假设初始权向量 w1=(1,1,1,1) ρk=1 第一次迭代: w1Tx1=(1,1,1,1) (1,0,1,1)T=3>0 所以不修正 w1Tx2=(1,1,1,1) (0,1,1,1)T=3>0 所以不修正 w1Tx3=(1,1,1,1) (1,1,0,1)T=3>0 所以修正w1 w2=w1-x3=(0,0,1,0) w2Tx4=(0,0,1,0)T (0,1,0,1) =0 所以修正w2 w3=w2-x4=(0,-1,1,-1) 第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,…次迭代, 42 如下表:
1 1 1 1 0 0 0 –1 1 1 1 1 1 1 0 -1
迭代次数
1
1011 0111 1101 0101
1011 0111 1101 0101 1011 0111 1101 0101 1011 0111 1101 0101
1 –1 2 0 1 –1 2 0 0 –2 2 –1 0 –2 2 -1 0 –2 2 –1 0 –1 3 0 0 –1 3 0 0 –1 3 0 0 0 0 0 –1 –1 –1 –1 3 3 3 3 0 0 0 0
X X 0
当分类发生错误时就有WTX <0,或-WTX >0, 所以J(W) 总是正值,错误分类愈少, J(W)就愈 小。理想情况为 J (W ) 0 ,即求最小值的问题。
36
求最小值,对W求梯度 J
J (W ) X W -ρk▽J
3
5
用判别函数进行模式分类,取决两个因素:
判别函数的几何性质:线性与非线性 判别函数的参数确定:判别函数形式+参数
相关主题