当前位置:文档之家› 模式识别理论及应用

模式识别理论及应用

第四章 线性判别函数
23
梯度下降算法

感知器 准则
梯度下降算法:对(迭代)向量沿某函数的负 梯度方向修正,可较快到达该函数极小值。
J p (a )
J p (a ) a


y Y
k
( y )
a ( k 1) a ( k ) rk J p ( a ) a ( k ) rk
S w T (S S )w w T S w S1 1 1 2 w
第四章 线性判别函数
15
Fisher准则函数

Fisher 判别

评价投影方向w的原则,使原样本向量在该方向上 的投影能兼顾类间分布尽可能分开,类内样本投影 尽可能密集的要求 Fisher准则函数的定义:
J F (w) Sb S1 S 2 w Sbw w Sww
第四章 线性判别函数
20
基本概念

感知器 准则
感知器:Perceptron,Rosenblatt,50d/20thc 线性可分性:训练样本集中的两类样本在特征空间 可以用一个线性分界面正确无误地分开。在线性可 分条件下,对合适的(广义)权向量a应有:
如 果 y 1 , 则 a y 0
选择最佳准则
训练样本集
决策规则: 判别函数 决策面方程
4
第四章 线性判别函数
线性判别函数

引言
d维空间中的线性判别函 数的一般形式:
g (x ) w x w0
T

x是样本向量,即样本在d维特征空间中的描述, w是权向 量,w0是一个常数(阈值权)。
x x 1 , x 2 , ... x d
w * a rg m a x J ( K , w )
w

对于未知样本x,计算g(x),判断其类别
第四章 线性判别函数
9
4.2 Fisher线性判别

线性判别函数y=g(x)=wTx:
• 样本向量x各分量的线性加权 • 样本向量x与权向量w的向量点积 • 如果|| w ||=1,则视作向量x在向量w上的投 影
5
线性判别函数的几何意义

引言
决策面(decision boundary)H方程:g(x)=0 向量w是决策面H的法向量

g(x)是点x到决策面H的距离的一种代数度量
x xp r w w , g (x ) r w
x2
w x
r是 x 到 H 的 垂 直 距 离 x p是 x 在 H 上 的 投 影 向 量
T
如 果 y 2, 则 a y 0
T

规范化样本向量 :将第二类样本取其反向向量
y y = y 如 果 y 1 如 果 y 2
a y 0 i 1, ..., N i
T
第四章 线性判别函数
21
解向量与解区
感知器 准则
第四章 线性判别函数
22
感知器准则函数

引言
线性分类器设计任务:给定样本集K,确定线性 判别函数g(x)=wTx的各项系数w。步骤:
1. 收集一组样本K={x1,x2,…,xN} 2. 按需要确定一准则函数J(K,w),其值反映分类器的性 能,其极值解对应于“最好”决策。 3. 用最优化技术求准则函数J的极值解w*,从而确定判 别函数,完成分类器设计。
R
1
w S w S b w S w ( m 1 m 2 )( m 1 m 2 ) w
S w (m 1 m 2 )R
1
w
*

S w (m 1 m 2 ) S w
1
1
(m 1 m 2 )
19
第四章 线性判别函数
4.3 感知器准则

感知准则函数是五十年代由 Rosenblatt提出的一种自学习判别函 数生成方法,由于Rosenblatt企图将 其用于脑模型感知器,因此被称为感知 准则函数。其特点是随意确定的判别函 数初始值,在对样本分类训练过程中逐 步修正直至最终确定。

线性判别函数的齐次简化: g ( x ) w x w 0 a y
T T

增广样本向量使特征空间增加了一维,但保持了样本间的 欧氏距离不变,对于分类效果也与原决策面相同,只是在Y 空间中决策面是通过坐标原点的,这在分析某些问题时具 有优点,因此经常用到。 第四章 线性判别函数
8
线性分类器设计步骤

Fisher准则的基本原理:找到一个最合适的 投影轴,使两类样本在该轴上投影之间的距 离尽可能远,而每一类样本的投影尽可能紧 凑,从而使分类效果为最佳。
第四章 线性判别函数
10
Fisher线性判别图例
x2 w
1
Fisher 判别
H: g=0
Fisher准则的描述:用投影后数据的统计性质 —均值和离散度的函数作为判别优劣的标准。
m
ln P ( 1 ) / P ( 2 ) N1 N 2 2

分类规则:
y w x w0 0 x 1 y w x w0 0 x 2
T
第四章 线性判别函数
18
Fisher公式的推导
J F (w) Sb S1 S 2 w Sbw w Sww
1 Ni
y i

y,
i 1, 2
样本类内离散度和总类内离散度
Si
y i

( y mi ) ,
2
i 1, 2
S w S1 S 2
2 S b (m1 m 2 )

样本类间离散度
以上定义描述d维空间样本点到一向量投影的分 散情况,因此也就是对某向量w的投影在w上的 分布。样本离散度的定义与随机变量方差相类似

感知器 准则
对于任何一个增广权向量a ,
• 对样本y正确分类,则有:aTy>0 • 对样本y错误分类,则有:aTy<0

定义一准则函数JP(a) (感知准则函数):
J P (a )

y Y
k
(a y )
T
被错分类的规范化 增广样本集

恒有JP(a)≥0,且仅当a为解向量,Yk为空集(不 存在错分样本)时, JP(a)=0,即达到极小值。 确定向量a的问题变为对JP(a)求极小值的问题。
第四章 线性判别函数
13
样本与其投影统计量间的关系

Fisher 判别
样本x与其投影y的统计量之间的关系:
mi 1 Ni
y i

y
1 Ni

y K i
w x w mi,
T T
i 1, 2
(m m )2 (w T m w T m )2 1 2 Sb 1 2 w ( m 1 m 2 )( m 1 m 2 ) w w S b w
3
第四章 线性判别函数
直接确定判别函数

引言
基于样本的直接确定判别函数方法:
• 针对各种不同的情况,使用不同的准则函数, 设计出满足这些不同准则要求的分类器。 • 这些准则的“最优”并不一定与错误率最小相 一致:次优分类器。 • 实例:正态分布最小错误率贝叶斯分类器在特 殊情况下,是线性判别函数g(x)=wTx(决策 面是超平面),能否基于样本直接确定w?

y Y
k
y
24
第四章 线性判别函数
算法(step by step)
1. 初值: 任意给定一向量 初始值a(1) 2. 迭代: 第k+1次迭代时 的权向量a(k+1)等于 第k次的权向量a(k)加 上被错分类的所有样本 之和与rk的乘积 3. 终止: 对所有样本正确 分类
T
a
i 1
3
i
yi
第四章 线性判别函数
7
广义线性判别函数(2)

引言
按照上述原理,任何非线性函数g(x)用级数展开成高次多 项式后,都可转化成线性判别函数来处理。 一种特殊映射方法:增广样本向量y与增广权向量a
x T y x 1 , ..., x d ,1 1 w T a w 1 , ..., w d , w 0 1
武汉大学电子信息学院
模式识别理论及应用
Pattern Recognition - Methods and Application
第四章 线性判别函数
模式识别与神经网络
内容目录
4.1 引言 4.2 Fisher线性判别 4.3 感知器准则 4.4 最小平方误差准则 4.5 多类问题 4.6 分段线性判别函数 4.7 讨论
T T T
第四章 线性判别函数
14
样本与其投影统计量间的关系
Si
y i
Fisher 判别

( y mi)
T
2

x K i T
(w x w m i)
T
2
w
T ( x m i )( x m i ) w x K i
w Siw
T

二次函数的一般形式: 映射X→Y
g ( x ) c 0 c1 x c 2 x
2

g(x)又可表示成:
y1 1 a1 c0 y y 2 x , a a 2 c1 2 y3 x a3 c2 g(x) a y
第四章 线性判别函数
11
w2
x1
d维空间样本分布的描述量
相关主题