当前位置:文档之家› 判别分析及聚类分析

判别分析及聚类分析

判别分析(Discriminant Analysis)一、概述:判别问题又称识别问题,或者归类问题。

判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。

根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。

所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。

训练样本的要求:类别明确,测量指标完整准确。

一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。

判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。

半定量指标界于二者之间,可根据不同情况分别采用以上方法。

类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。

如何来表征相同属性、相同的特征指标呢?同一类别的个体之间距离小,不同总体的样本之间距离大。

距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离:(Manhattan distance)设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为μ,协方差阵为∑的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为(,)X与总体(类别)A的距离D X Y=(,)为D X A=明考斯基距离(Minkowski distance):明科夫斯基距离欧几里德距离(欧氏距离)二、Fisher两类判别一、训练样本的测量值A类训练样本编号 1x 2x m x1 11A x 12A x 1A m x2 21A x22A x2A m xA n1A An x 2A An x A An m x 均数1A x2A xAm xB 类训练样本编号 1x 2x m x1 11B x 12B x 1B m x2 21B x22B x2B m xB n1B Bn x 2B Bn x B Bn m x 均数1B x2B xBm x二、建立判别函数(Discriminant Analysis Function)为:1122m m Y C X C X C X =+++其中:1C 、2C 和m C 为判别系数(Discriminant Coefficient ) 可解如下方程组得判别系数。

1111221112112222221122()()()()()()m m m m m m mm m m m w C w C w C x A x B w C w C w C x A x B w C w C w C x A x B +++=-+++=-+++=-各类的离差阵分别以()L A 、()L B 表示111212122212()()()()()()()()()()m m m m mm L A L A L A L A L A L A L A L A L A L A ⎛⎫⎪ ⎪= ⎪⎪⎝⎭111212122212()()()()()()()()()()m m m m mm L B L B L B L B L B L B L B L B L B L B ⎛⎫⎪ ⎪= ⎪⎪⎝⎭类内离差阵W 为()L A 、()L B 之和()()W L A L B =+111212122212m m m m mm w w w w w w W w w w ⎛⎫⎪ ⎪= ⎪ ⎪⎝⎭三、Y 值的判别界值将1()x A 、2()x A 、 、()m x A 代入判别函数,得到相应的()Y A , 将1()x B 、2()x B 、 、()m x B 代入判别函数,得到相应的()Y B ,两类的判别界值为:()()2c Y A Y B Y +=当两类的样本含量相差较多时应加权,用下式计算判别界值()()A B c A Bn Y A n Y B Y n n +=+将每个个体的1x 、2x 、、m x 代入判别函数计算Y ,根据判别界值c Y 判别归类。

四、对判别函数检验T 为训练样本中两类和在一起的离差阵(注意与W 的区别)111212122212m m m m mm t t t t t t T t t t ⎛⎫ ⎪ ⎪= ⎪⎪⎝⎭计算Wilks 统计量UW U T=11U N m F U m---=⋅, 1m ν=,21n m ν=--五、回代 观察判别函数的判别效果举例 设要建立一个判别函数来判别医院的工作情况,公认的A 类医院11所,B 类医院9所。

X 1 :床位使用率 X 2 :治愈率 X 3 :诊断指数判别指标如下两表:A 类医院编号 X 1 X 2 X 3 Y 1 98.82 85.49 93.18 7.9839 2 85.37 79.10 99.65 7.9879 3 86.64 80.64 96.94 7.9391 4 73.08 86.82 98.70 8.1008 5 78.73 80.44 97.61 7.8836 6 103.44 80.40 93.75 7.8807 7 91.99 80.77 93.93 7.8161 8 87.50 82.50 94.10 7.3665 9 81.82 88.45 97.90 8.1802 10 73.16 82.94 92.12 7.6592 11 86.19 83.55 93.30 7.8919 均数89.337382.827394.70737.8781B 类医院编号 X 1 X 2 X 3 Y 172.4878.1282.387.03002 58.81 86.20 73.46 6.76163 72.48 84.87 74.09 6.85054 90.56 82.07 77.15 7.0413 5 73.73 66.63 93.98 7.22446 72.79 87.59 77.15 7.05507 74.27 93.91 85.54 6.73468 93.62 85.89 79.80 7.3152 9 78.69 77.01 86.79 7.2522 均数76.381179.143381.14897.0331合计均数81.857 81.170 88.6061.计算各类中的变量值均数2.计算各类的离差阵及两类的离差阵之和921.956085.6700104.7177()89.7890 6.1099187.6898L A --⎛⎫ ⎪= ⎪ ⎪⎝⎭867.113745.535261.9823()602.2566390.0085360.0057L B ⎛⎫ ⎪=- ⎪ ⎪⎝⎭1789.069740.134842.7354()()692.0456383.8986547.6955W L A L B --⎛⎫ ⎪=+=- ⎪ ⎪⎝⎭3.11()()x A x B -=86.3376-76.3811=9.9562 22()()x A x B -=82.8273-79.1433=3.6840 33()()x A x B -=94.7073-81.1489=13.55844.111122133112112222332231132233333()()()()()()w C w C w C x A x B w C w C w C x A x B w C w C w C x A x B ++=+++=+++=+1231231231789.069740.134842.73549.956240.1348692.0456383.8986 3.684042.7354383.8986547.695513.5584C C C C C C C C C --=-+-=--+=解此方程组得1C =0.007440 2C =0.032412 3C =0.048055判别函数为1230.0074400.0324120.048055Y x x x =++5.求c Y()Y A =7.8781 ()Y B =7.0331()()2c Y A Y B Y +==7.4556()()A B c A Bn Y A n Y B Y n n +=+=7.49786.检验2279.7392141.4208625.4625759.2241136.65461457.6529T ⎛⎫ ⎪=- ⎪ ⎪⎝⎭W U T==4109787692130041753=0.19294411U N m F U m---=⋅=22.3085 13m ν==2116N m ν=--=W 、 T 为相应矩阵的行列式的值7.回代(internal validation )判别效果原分类 判别函数的判别归类 A B A10 1 BA 正确率= 90.9%B 正确率= 100%总正确率(符合率)= 91%A 误判率=B 误判率= 总误判率= 5%符合率的高低取决于所选判别指标的特异性以及训练样本中各个体分类的可靠性。

组内回代 组外回代 剔除回代Bayes 多类判别121212,,,.,,,.,,,()1,2,,;1,2,,;1,2,g m g kij k kij g A A A m x x x n n n X x k g i n j mx k i j ====设有个总体,记为提取了个特征变量,记为对各个总体分别做了次试验,得到的观测数据记为代表第个总体的第个样本的第个特征变量的观测值。

注意总体、样品的概念Bayes 多类判别是要建立g 个判别函数1011112121()()()()()m m Y A C A C A X C A X C A X =++++ 2021212222()()()()()m m Y A C A C A X C A X C A X =++++01122()()()()()g g g g m g m Y A C A C A X C A X C A X =++++将每个个体代入每个函数式求得1()Y A 、2()Y A ()g Y A ,对于具体某个个体,哪个Y 值最大,就将其判为哪类。

C j 为判别系数过程Bayes 多类判别分析的过程1.计算判别系数(1)计算各组每个各变量的均数 kj x 1,2,,,k G =1,2,,j m =(2)计算各组的离差阵()k L A 和类内离差阵W =12()()()G L A L A L A +++111212122212m m m m mm w w w ww w W w w w ⎛⎫⎪ ⎪= ⎪ ⎪⎝⎭(3)求W 的逆矩阵1W-A 1类的判别系数计算:1211122122211m m m mm m w w w w w w W w w w -⎛⎫⎪ ⎪=⎪ ⎪ ⎪⎝⎭121112212221111212211()()()()()()()m mm mm m m m m C A x A w w w C A x A ww w N G C A x A w w w ⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪ ⎪ ⎪ ⎪=- ⎪ ⎪⎪⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭011111()()()2mj j j C A C A x A ==-∑其余各类的判别系数以同样的方法求得,并可对每个个体的所属类判定求出后验概率(或称事后概率posterior probability ,与之对应的是先验概率或事前概率prior probability ),这与后面的逐步判别分析中的计算方法一样,这里不做介绍。

相关主题