费希尔判别费希尔判别(或称典型判别)的基本思想是投影(或降维):用p维向量x (X i,X2, X p)的少数几个线性组合(称为费希尔判别函数或典型变量)y i a i x, y2 a?x, y x (—般r明显小于p )来代替原始的p个变量X i,X2, X p,以达到降维的目的,并根据这r个判别函数y i,y2, *对样品的归属做出判别或将各组分离。
成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。
在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反点画于直角坐标系上,一组的样品点用“肿表示,另一组的样品点用“c”表示。
假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。
从图中可见,如果两组的点都投影到直线 z 上则这两组的投影点在该直线上的分布几乎无任何差异,他们完全混合在一起,我们无法将这两组的点区别开来, 这样的降维把 反应两组间差异的信息都给损失了, 显然是不可取的。
事实上,最好的投影是投 影到直线y 上,因为它把两组的投影点很清楚地区分了开来, 这种降维把有关两 组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的 直线上作判别分析。
我们现考虑在R p中将k 组的p 维数据向量投影到某个具有最佳方向的 a 上, 即投影到a 上的点能最大限度地显现出各组之间的差异。
设来自组i 的p 维观测值为X j ,j=1,2, ,n i ,i=l,2, ,k ,将它们共同投影 到某一 p 维常数向量a 上,得到的投影点可分别对应线性组合y j =a x 0,j=1,2, ,n i ,i=1,2, ,k 。
这样,所有的p 维观测值就简化为一维观测值。
下面 我们用%表示组i 中y j 的均值,y 表示所有组k 组的y 0的总均值,即对于任一用来投影的a ,我们需要给出一个能反映组之间分离程度的度量 比较图 中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的,而前者组之间的分离程度却明显高于后者, 原因就在于前者的组内变差要远小于 后者,后者组之间有较多重叠。
因此,可以考虑将组之间的分离程度度量为相对 其组内变差的组间变差。
在以下的讨论中,我们需假定各组的协方差矩阵相同,n i j iy ja X i式中nX i1 nixij, n j 1a X i1 k- n i X i o n i 1n in可用来度量y j 的组之间分离程度的一个量是(a)达到最大。
由于对任意非零常数c ,用ca 代替上式中的a , (a)将保持不变,故考虑对a 加以约束。
我们希望判别函数y ax 具1S p — E 替代,所以a 的约束条件实际应为a S p a 1,即判别函数的联合样本 n k方差为1。
y j 的组间平方和SSTRk ___式中 H n i (X i x)(x ii 1SSEk式中E(n i i 11)SmWy)2k__口 (a X i a x)2aHax)为组间平方和及叉积和矩阵。
y j 的组内平方和n __kn i (y ij y i )2j 1山__(a x ij a X i )2 a Eaj 1ni ____(X ij X i )(X ij X i ) i 1 j 1为组内平方和及叉积和矩阵。
(a)SSTR a Ha SSE a Ea我们应选择这样的a ,使得有单位方差,即V(ax) a a 1,但因未知,于是用其联合无偏估计图三组之间的分离程度设E 1H的全部非零特征值依次为i 2 s 0,这里s ran k(H),且有s min(k 1, p)( 5.4.2 )(通常情况下上式等号成立),相应的特征向量依次记为 t1,t2, ,t s (标准化为 t j S p t j 1 , i 1,2, ,s )。
由(1.8.5)式知,当 a i t i 时(aj 达到最大值i。
所以,选择投影到t i上能使各组的投影点最大限度地分离,称y i=t i x为费希尔第一线性判别函数,简称第一判别函数。
在许多情况下(如组数 k 是大的,或者原始的数据向量维数 p 是大的),仅仅使用第一判别函数也许不够,因为仅在这一个投影方向上组之间的差异可能还不够清晰,各组未能很好地分开。
这时,我们应考虑建立第二线性组合y2=a2 x,为使降维最具效率,应要求y2 (在线性关系的意义上)不重复 y i 中的信息,即Co(v y i,y2)=Co(v t i x,a2 x)=t i a2 0用S p代替未知的,于是我们在约束条件t i S p a20(或 t| Ea20)下寻找a2,使得(a?)达到最大。
按(1.8.6)式,当a? t?时(a?)达到最大值2,称y2=t 2 x为第二判别函数。
如还不够,可再建立第三判别函数 y3,依次类推。
一般地,我们要求第i个线性组合y i=a i x不重复前i 1个判别函数中的信息,即Co(v y j ,y i)=Co(v t j x,a i x)=t j a i 0, j= i,2, ,i i用S p代替,上式变为t j Spq 0(或 -Eq 0),j=1,2, ,i 1我们希望在约束条件()下寻找a i,使得(a)达到最大。
由(1.8.6)式知,当 a i t i时(a)达到最大值i,称y i=t i x为第i判别函数,i=2,3, ,s。
附:1.85-1.86设A 是p 阶对称矩阵,B 是p 阶正定矩阵,i 2p是B 1A 的p 个特征值,相应的一组特征向量t it , ,t p ,满足t i Bt j =0 , 1 i j p ,则(i)x Ax max — x 0 x Bx(ii)max xAx= i(当x=t i 时达到),i=2,3, , pxBtk 0 、=1, ,i 1 x 0综上所述,费希尔判别函数具有这样一些特点:(1)各判别函数都具有单位 (联合样本)方差;(2)各判别函数彼此之间不相关(确切地说,是彼此之间的 联合样本协方差为零);(3)判别函数方向t 1,t 2, ,t s 并不正交,但作图时仍将它 们画成直角坐标系,虽有些变形,但通常并不严重。
依(5.4.2 )式可知,组数k=2时只有一个判别函数,k=3时最多只有两个判 别函数。
这从直观上也不难理解,(不重合的)两个组重心(即组均值点)可在 (一维)直线上有最大分离,(不在一直线上的)三个组重心也可在(二维)平 面上有最大分开。
一般地,由全部 s 维空间可最大限度地分离k 个组重心。
(t i ) i 表明了第i 判别函数y i 对分离各组的贡献大小,y i 在所有s 个判别函数中的贡献率为s i /i jj=1而前r ( s )个判别函数y 1,y 2, ,y r 的累计贡献率为(当x=t 1时达到) .x Ax min x 0 x Bx(当x=t p 时达到)si=1它表明了 %肆2, ,y 「能代表wz, ,y 进行判别的能力。
在实际应用中,通常我 们并不使用所有s 个判别函数,除非s 很小,因为费希尔判别法的基本思想就是 要降维。
如果前 r 个判别函数的累计贡献率已达到了一个较高的比例(如 75%~95% ),则就采用这r 个判别函数进行判别。
在确定了需使用的r 个判别函数Y I ,Y 2, ,y r 之后,可制定相应的判别规则。
由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧式距那一组,即判别规则为如果只使用一个判别函数进行判别(即r=1),则(5.4.6 )式可简化为x l ,若 y Y I = mW y 耳 (5.4.7)1 i k式中 y 和 y i (i=1,2, ,k )分别是(5.4.6)式中的 %和 % (i= 1,2, , k )。
有时我们也使用中心化的费希尔判别函数,即y i =t i (x x ),i=1,2, ,s1 k ni式中x=2X ij 为k 个组的总均值,仍使用(5.4.6)式进行判别。
n i= 1 j=1r i=1 离。
我们米用距离判别法,依据(y i ,y 2.,y r )值,判别新样品归属离它最近的xl ,若r(y j j=1Y u )2r 吧j1(yj汀(546 )1 ni其中 y ij =t j x , x=X j n i j=1,y ij 为第判别函数在组i 的样本均值y i =(y i , y i2, ,%)的平方欧式距离, i=1,2, ,k 。
(5.4.6)式也可表达为X l ,若[t j (x X l )]j=1mi n k[t j (x x)]2j 1例5.4.1 (有用结论)组数k=2时的费希尔判别E 1H= 1(x i x 2)(x i x 2) m n 2有唯一的非零特征值此,费希尔判别函数为y=(又 X 2) S p 1x由于x=n 1x 1 n i门2乂 2 n 2故组间矩阵 x-i x= n2 (X |n j n 2X 2) , X 2x= ni (X 2 X) n j n 2H n 1(x 1 X)(£ x) n 2(x 2 x)(x 2 x)niPn 1 n 2 (x-x 2 )(x - %)假设组内矩阵E 是可逆的(必须有n i n 2 2 p ),则有1.6一中的性质(2)知门小2n n(% 1 -X 2) E (人 X 2)这是一个正数(因为E>0 )。
令a 为相应的特征向量,它应满足(H E)a 0即于是Ha= Ea门小2n 1门 2(X 1 X 2)(X 1 X 2)a 二 (X 1 1 x 2) E (x 1 x 2)Ea 易见,a=S p 1(x 1X 2)满足上述方程, 这里S p =n 1 n 2尹为联合协方差矩阵按(547 )式,判别规则为其中 y i =(X i X 2) S p 1X i , V 2=(X iV 2= (X i X 2) S p 1(X i X 2)0 ,y i >y 2。
因此,上述判别规则等价于也可以表达为11 1,右(X X 2)S p 1[X 2(X i卄 __11 _2,右(E X 2)S p [X(X 1 2此正为(5.2.6)式。
上例表明,对于两组的判别,费希尔判别等价于协方差矩阵相等的距离判别, 对两个正态组也等价于协方差相等且先验概率和误判代价也均相同的贝叶斯判 别。
当使用的判别函数个数r=2时,可将各样品的两个判别函数得分画成平面直 角坐标系上的散点图,用目测法对新样品的归属进行判别或对来自各组样品的分 离情况及结构进行观测评估。
当r=3时,可利用SAS 的交互式数据分析菜单系 统,让样本中来自不同组的样品点呈现不同颜色(或不同形状)以区分各组,然 后作(三维)旋转图从多角度来辨别新样品的归属或观测评估各组之间的分离效 果,但其目测效果一般明显不如r=2时清楚。