§5.2Bayes 判别1. Bayes 判别的基本思想假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别.2. 两个总体的Bayes 判别 (1) 基本推导设概率密度为1()f x 和2()f x 的p 维总体12,G G 出现的先验概率为1122(),()p P G p P G ==(121p p +=)先验概率的取法: (i)1212p p ==,(ii)12121212,n n p p n n n n ==++,一个判别法 = 一个划分=12(,)R R =R1212,,p R R R R =⋃=⋂=∅R距离判别中112212{|(,)(,)}{|(,)(,)}R d G d G R d G d G =≤=>x x x x x x判别R 下的误判情况讨论21(2|1,)()d R P f =⎰R x x ,或12(1|2,)()d R P f =⎰R x x代价分别记为(2|1),(1|2),(1|1)0,(2|2)0c c c c ==,在得新x 后, 后验概率为1111122()(|)()()p f P G p f p f =+x x x x2221122()(|)()()p f P G p f p f =+x x x x(i) 当(1|2)(2|1)c c c ==时, 最优划分是112212{:(|)(|)}{:(|)(|))}R P G P G R P G P G =≥⎧⎨=<⎩x x x x x x 两个总体的Bayes 的判别准则112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈<⎩x x x x x x 此时, 有最小的误判概率*12(2|1,)(1|2,)p p P p P =+R R .因为21*1122()d ()d R R p p f p f =+⎰⎰x x x x111122(1()d )()d R R p f p f =-+⎰⎰x x x x()112211()()d R p p f p f =+-⎰x x x只有取12211{:()()}R p f p f =≤x x x 时, 才有最小.(ii) 当(1|2)(2|1)c c ≠时 对1G 的误判平均损失:(1,)(2|1)(2|1,)l c P R =R ,对2G 的误判平均损失:(2,)(1|2)(1|2,)l c P R =R ,对整个误判的平均损失:12(1,)(2,)L p l p l =+R R12(2|1)(2|1,)(1|2)(1|2,)c p P R c p P R =⋅⋅+⋅⋅可证使L 最小的最优划分是1112221122{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c p f c p f R c p f c p f =≥⎧⎨=<⎩x x x x x x 或112212{:(2|1)(|)(1|2)(|)}{:(2|1)(|)(1|2)(|))}R c P G c P G R c P G c P G =≥⎧⎨=<⎩x x x x x x当12p p =时, 有112212{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c f c f R c f c f =≥⎧⎨=<⎩x x x x x x 当12p p =, 且时(1|2)(2|1)c c c ==, 有 112212{:()()}{:()()}R f f R f f =≥⎧⎨=<⎩x x x x x x 相当于经典统计学中的似然比准则判别. (2) 两个正态总体的Bayes 判别1) 12==ΣΣΣ的判别112212,()(),()()G if W W G if W W ∈≥⎧⎨∈<⎩x x x x x x 其中111222(),()T TW b W b ++x a x x a x @@,及 111111111,2ln TTT b p --+-a μΣμΣμ@@ 122122221,2ln TT T b p --+-a μΣμΣμ@@实用中, 用样本均值和样本协方差阵代.替.当1212p p ==时, 与距离判别等价. 如用后验概率来判别(或其估计), 则有112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈≥⎩x x x x x x .1) 12≠ΣΣ的判别与距离判别的区别为广义平方距离函数21111111()()()ln 2ln((2|1))T d c p -=--+-x x μΣx μΣ,21222222()()()ln 2ln((1|2))T d c p -=--+-x x μΣx μΣ推导过程略.当 “三同”时, 与距离判别一样.(3) 误判概率的计算在12==ΣΣΣ下, 作简要讨论. 用广义距离2221()()d d -x x 可导出划分12{:()}{:()}R W d R W d =≥⎧⎨=≥⎩x x x x (^_^) 其中112()()()T W -=--x μμΣx μ, 21(1|2)ln(2|1)c p d c p =,两个总体1G 与2G 的马氏平方距离可记为11212()()T λ-=--μμΣμμ经导, 对(^_^)的划分, 其误判率为*121p p p ΦΦ⎛⎫=+- ⎪⎝⎭随λ大而小. 实用中, 用(1)(2)1(1)(2)ˆ()()T λ-=--x x S x x 代λ.当121/2p p ==时, 有*2112211ˆ2n n pn n ⎛⎫=+ ⎪⎝⎭当12,p p 按容量比例选取时, 即12121212,n n p p n n n n ==++有*122112ˆn n pn n +=+误判率的回代估计.例5.3 预报春旱. 两个预报因子的观察值12,X X , 假设误报损失相同, 先验概率按比例. 由下表数据进行两总体的Bayes 判别.解16/140.4286p==,28/140.5714p==.调用proc discrim得12ln || 1.8053,ln || 3.6783S S =-=-(1)(2)25.31622.025,2.416 1.187x x ⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦122.2130.6570.2730.063,0.6570.2690.0630.106S S --⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦广义平方距离为(1,2j =)2()1()()()()ln 2ln j T j j j j j d p -=--+-x x xS x x S 后验概率为222ˆˆ0.5()0.5()1ˆ(|)e e jk d d jk P G --==∑x x x ,(1,2j =).回代判别结果如下略,误判率=0;若用交叉确认法, 则应按下式计算2()1()()()()()()()()ln 2ln j j j T j j x x x x j d p -=--+-x x x S x x S逐个剔除, 交叉判别.有一错(10号被判错), 交叉确认估计*ˆ1/140.0714cp==3. 多个总体的Bayes判别(1) 一般讨论设概率密度为1~() kf x的p维总体1~kG出现的先验概率为1~1~()k k p P G =, (11kj j p ==∑)先验概率的取法: (i) 1~1k p k=, 或(ii) 1~1~12k k k n p n n n =++L ,一个判别法= 一个划分=12{(,,,)}k R R R =R L 判别准则1,,kp j i j j R R R i j ==⋃=⋂=∅≠R判别R 下的误判情况讨论(|,)()d ,ji R P j i f j i =≠⎰R x x ,(1~)j k =代价记为一个损失矩阵()(|)k k c j i ⨯(约定(|)0,1~c i i i k ==)常取(|)1,c j i i j =≠.来自i G 判为其他总体的概率是(|,)j iP j i ≠∑R误判的概率*1(|,)ki i j i p p P j i =≠⎛⎫= ⎪⎝⎭∑∑R使其最小, 得最优划分.当(|)c j i 不全相等时,将来自i G 判为其他总体的平均损失率1(|,)(|)ki j l P j i c j i ==∑R误判的平均损失率111(|,)(|)kkk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R应使其最小的划分R .进一步的讨论1) 当(|)1,c j i i j =≠时,因1(|,)1kj P j i R ==∑, 故(|,)1(|,)j iP j i P i i ≠=-∑R R从而有()()*111(|,)1()d ik ki R i i p P i i f ===-=-∑∑⎰R x x11()d iki R i f ==-∑⎰x x当1{:()max ()},1~i i i j j j kp f p f i k ≤≤===R x x x 时,12(,,,)k R R R =R L 是使*p 最小的最优划分.又由Bayes 公式, 当出现样品x 时, 总体i G 的后验概率1~()(|)()i i i j jj kp f P G p f ==∑x x x故最优划分为1{:(|)max (|)}i i j j kR P G P G ≤≤==x x x , (1~i k =)当有多个时, 任选一个.2) 当(|),c j i i j ≠不全相等时,111(|,)(|)kkk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R11(|)()d jkk i i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11(|)()d jkki i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11()(|)()()d jkj i i ki j j h x p c j i f h ==⎛⎫ ⎪⎝⎭∑∑⎰R x x x @ 取划分为1{:()min ()},1~j j i i i kh p f j k ≤≤===R x x x可使L 达到最小. 若记1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x(当出现x 后,被判为来自j G 后验平均损失, 则有1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x若有多个, 则任判一个. (2) 多个正态总体的Bayes 判别1) 对1,(|)0,i jc j i i j ≠⎧=⎨=⎩的情况(i)当12k ====ΣΣΣΣL 时,设~(,)j p j G N μΣ(1~)j k =线性判别函数为()T j j j W b +x a x @,其中111,2ln j T T T j j jj j b p --+-a μΣμΣμ@@ 广义平方函数21()()()2ln T j j j j d p -=---x x μΣx μ,1~j k =后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x这时最优划分1{:()max ()}j j i i kR W W ≤≤==x x x1{:(|)max (|)}j i i kP G P G ≤≤==x x x (1~j k =)实用中, 用样本均值和样本协方差阵代替. (ii)1~kΣ不全相等时, 设~(,)j p j j G N μΣ(1~)j k =则有21()()()ln 2ln T j j j j j j d p -=--+-x x μΣx μΣ后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x ,(1~)j k = 这时最优划分1{:(|)max (|)}j j i i kR P G P G ≤≤==x x x (1~j k =)实用中, 用2ˆ()j d x ,ˆ(|)jP G x 代替.2) 一般损失情况 计算(|),1~i P G j k =x 及1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x最优划分为1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x例5.4 某学院招生时, 有两个参考指标1X : 平均学分指数; 2X 管理能力考试成绩;申请者分为3类: 1G 录取; 2G 不录取; 3G 待定.近期有85位记录.(部分资料)假定1) 各总体~正态分布;2) 先验概率按比例;3) 误判损失相同讨论在(i) 协方差阵相同; (ii) 协方差不全相同时;Bayes判别分析, 并给出误判率的回判法和交叉确认法估计值.若有一新申请者的资料13.12x=和2497x=, 在两种情况下各被判入哪类?解 (i) 调用proc discrim过程, 得(部分)和**ˆˆ7/850.0824,8/850.094r cpp ====关于新样本0(3.12,497)T x =的后验概率10(|)0.2401P G x =, 20(|)0.0004,P G x =30(|)0.7578P G x =,故应该待定.(ii) 协方差不全相等时, 有和**ˆˆ3/850.03534/850.0471r c p p ====关于新样本0(3.12,497)T x =的后验概率10(|)0.5983P G x =, 20(|)0.0032,P G x =30(|)0.3985P G x =,当属1G 类(录取). 总结前述内容均利用了所给定的全部p 个指标变量, 但并非指标变量越多, 判别效果就越好, 相反, 有时可能影响判别分析效果.因此,如回归分析一样,在判别分析中仍存在指标变量的选取问题,称为逐步判别法.限于本书特点,在此不再详述.有兴趣者可参见如[3]中第6章等.另外sA5系统的Proc stepdisc过程(参见[6])可用于逐步判别分析.。