当前位置:文档之家› 第四章 线性判别函数

第四章 线性判别函数

xp
x1 H: g=0
广义线性判别函数
线性判别函数是形式最为简单的判别函数,但是它不能用 于稍复杂一些的情况。 欲设计这样一个一维样本的分类器,使其性能为
x b或x a 决策x w1 b x a 决策x w2
针对这种情况,如果设计这 样一个判别函数: g(x)=(x-a)(x-b) 相应的决策规则 :
x2
w x r
xp
x1 H: g=0
线性判别函数的几何意义
T 令 g( x) w x w0 = r w
若x为原点,则g ( x) w0 原点到超平面H的距离:r0 w0 w
w0 0 原点在H的正侧 w0 0 原点在H的负侧 w0 0 H 通过原点
x2
w x r
线性分类器的设计任务

在给定样本集 条件下 , 确定线性判别函数的各项系数 ,以 期对待测样本进行分类时,能满足相应的准则 函数J为最优的要求。 权向量 阈值权 或 增广权向量 此技术的关键问题是确定所需的准则函数,然 后用最优化技术确定准则函数的极值点 及 ,或增广权向量 。

线性分类器的设计步骤:
模式识别
第四章线性判别函数
回顾:
贝叶斯分类器 : 已知: 判别函数 分类 类条件概率密度p( x | j )
需要大量样本?
先验概率P( j )
参数估计与非参数估计 利用样本集直接设计分类器?
§4.1 引言

利用样本集直接设计分类器的基本思想:



给定某个判别函数类,且假定判别函数的参数形式 已知 用训练的方法来估计判别函数的参数值 分类决策
T
g ( x) aT y ˆ ˆ Y空间任意一点y到H的距离为:r a a
线性判别函数的齐次简化使特征空间增加了一维,但保持 了样本间的欧氏距离不变,对于分类效果也与原决策面相同, 只是在Y空间中决策面是通过坐标原点的,这在分析某些问题 时具有优点,因此经常用到。
广义线性判别函数
例如一个一维特征空间的分类器,其决策面方程为 x - c=0 在一维空间中为一个点。经齐次简化后可得:
T
其中
x = x1 , x2 ,...xd
w= w1 , w2 ,...wd
T
w0是一个常数,称为阈值权。相应的决策规则可表示成
g(x)>0, 则决策x 1 如果 g(x)<0, 则决策x 2 g(x)=0, 可将其任意分类或拒绝
g(x)=0就是相应的决策面方程,在线性判别函数条件下它对 应d维空间的一个超平面。

g ( x) = wT x+w0 给定样本集X,确定线性判别函数 的各项系数w和w0。步骤:

收集一组具有类别标志的样本X={x1,x2,…,xN} 按需要确定一准则函数J,其值反映分类器的性能,其极 值解对应于“最好”的决策。 用最优化技术求准则函数J的极值解w*和w0* ,从而确定 判别函数,完成分类器设计。
如果我们只考虑各分量的线性加权和,则它是各样本向 量与向量y的向量点积。
§4.2 Fisher线性判别
现在讨论通过映 射投影来降低维 数的方法。
w x2 ω1
y1
y2
ω2 x1
w(y)
把X空间各点投影到Y空间得一直线上,维数由2 维降为一维。若适当选择w的方向,可以使二类 分开。下面我们从数学上寻找最好的投影方向, 即寻找最好的变换向量w的问题。
线性判别函数的几何意义


g ( x) wT x w0
决策面(decision boundary)H方程:g(x)=0 向量w是决策面H的法向量 g(x)是点x到决策面H的距离的一种代数度量
w x = xp + r , g(x)= r w w x p是x在H 上的投影向量 r是x到H的垂直距离 w 是w方向上的单位向量 w


广义线性判别函数
一种特殊映射方法:增广样本向量y与增广权向量a
1 T y 1, x1 ,..., xd x

1 T a w0 , w1 ,..., wd w
线性判别函数的齐次简化:
g ( x) = w x+w0 = a y
T
这个函数称为Fisher准则函数。应该寻找使分子尽可能大, 分母尽可能小的w作为投影向量。
§4.2 Fisher线性判别
Sb (m1 m2 )2 J F (w) S1 S2 S1 S2
1 mi Ni
1 y wT x = wT mi , N x yYi i X i

不需要有关的概率密度函数的确切的参数形式, 属于非参数估计方法。
§4.1 引言

问题描述:

假设对一模式X已抽取n个特征,表示为:
X ( x1 , x2 , x3 ,...,xn )T X是n维空间的一个向量

根据模式X的n个特征来判别模式属于 ω1 ,ω2 , … , ωm 类中的那一类?
g ( x) 0 决策x w1 g ( x) 0 决策x w2
此时,g(x)不再是x的线性函数,而是一个二次函数
广义线性判别函数
由于线性判别函数具有形式简单,计算方便 的优点,并且已被充分研究,因此人们希望 能将其用适当方式扩展至原本适宜非线性判 别函数的领域。 一种方法是选择一种映射x→y,即将原样本 特征向量x映射成另一向量y,从而可以采用 线性判别函数的方法。
Sb =(m1 - m2 )(m1 - m2 )
T
一些基本参量的定义
2.在一维Y空间
各类样本均值 mi 1 Ni
y,
yYi
i 1, 2
样本类内离散度、总类内离散度和类间离散度
Si ( y mi ) 2 ,
yYi
i 1, 2
Sw S1 S2 S (m m )2
§4.1 引言

寻找线性判别函数的问题被形式化为极小化准 则函数的问题。以分类为目的的准则函数可以 是样本风险,也可以是训练误差。
目标:能够正确地对新的样本进行分类

线性判别函数的基本概念
设样本d维特征空间中描述,则两类别问题中线性判别函数的 一般形式可表示成 T
g ( x) w x w0
线性判别函数的基本概念
为了说明向量w的意义,我们假设在该决策平面上有两个特 征向量x1与x2,则应有
w x1 w0 w x2 w0 w ( x1 x2 ) 0
T T T
其中(x1-x2)也是一个向量
上式表明向量w与该平面上任两点组成的向量(x1-x2)正交,因 此w就是该超平面的法向量。这就是向量w的几何意义。 而g(x)也就是d维空间中任一点x到该决策面距离的代数度量,该 决策平面将这两类样本按其到该面距离的正负号确定其类别。 至于w0则体现该决策面在特征空间中的位置,当w0=0时,该 决策面过特征空间坐标系原点,而 时,则 表示了坐 标原点到该决策面的距离。
§4.1 引言

线性判别函数:x的各个分量的线性函数 或以x为自变量的某些函数的线性函数。 g ( x) wT x w0 对于c类问题: gi ( x) wi x wi 0
T

利用样本集估计参数wi和wi0,并把未知样 本x归到具有最大判别函数值的类别中去。

优点:

最优?次优? 计算简单;容易实现;需要的计算量和存储量小
思考一下,如果在两维空间存在一条不过原点的直线, ax1+bx2+c=0 (A),采用增广向量形式:
那么,它在增加一维的三维空间中,aTY=0表示的是什么呢? 答:一个过原点的平面,方程为ay1+by2+cy3=0 (B)。 (A)式与(B)式形式上略有不同,但当y3=1时两者就一样了。 也就是说(B)式表示的平面与y3=1子空间(一平面)的交线就是(A) 式中表示的直线,这样的方法在后面感知准则函数中用到。

w* max J
w

对于未知样本x,计算g(x),判断其类别。
换一个方式说:
设计线性分类器,是指所用的判别函数、分界面方程 的类型已选定为线性类型,因此主要的设计任务是确 定线性方程的两个参数,一个是权向量w,另一个是 阈值w0。 为了使所设计的线性分类器在性能上要满足一定的要 求,这种要求通过一种准则来体现,并且要表示成一 种准则函数,以便能通过将准则函数值优化的方法确 定w与w0 。
i 1, 2
(m m )2 (wT m - wT m )2 1 2 Sb 1 2
= w (m1 - m2 )(m1 - m2 ) w= w Sb w
则判别函数g(x)又可表示成
g ( x) aT y ai yi
i 1
3
此时g(x)被称为广义线性判别函数,a称为广义权向量。
广义线性判别函数

按照上述原理,任何非线性函数g(x)用级数展开成高次 多项式后,都可转化成广义线性判别函数来处理。 aTy=0在Y空间确定了一个通过原点的超平面。这样我们 就可以利用线性判别函数的简单性来解决复杂的问题。 经过这种变换,维数大大增加了,这将使问题很快陷入 所谓的“维数灾难”。怎么解决?
§4.2 Fisher线性判别

Fisher线性判别函数是研究线性判别函数中最 有影响的方法之一。对线性判别函数的研究就 是从R.A.Fisher在1936年发表的论文开始的。
§4.2 Fisher线性判别
g ( x) wT x+w0 设计线性分类器:
首先要确定准则函数; 然后再利用训练样本集确定该分类器的参数,以求使所确 定的准则达到最佳。 在使用线性分类器时,样本的分类由其判别函数值决定, 而每个样本的判别函数值是其各分量的线性加权和再加上 一阈值w0。
相关主题