多个总体距离判别法及其应用课程名:年级:专业:姓名:学号:目录一、摘要 (1)二、引言 (1)三、原理 (1)3.1定义 (1)3.2思想 (1)3.3判别分析过程 (1)四、具体应用 (3)4.1判别分析在医学上的应用 (3)4.2距离判别法在居民生活水平方面的应用 (9)4.3判别分析软件的使用 (12)五、参考文献 (14)六、附录 (15)一、 摘要近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。
本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss 软件一般判别法的具体操作。
关键词: 距离判别法 判别分析 一般判别分析二、 引言随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用, 本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss 一般判别分析的应用。
三、 原理3.1 定义距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。
多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。
3.2 思想计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。
3.3 判别分析过程对于k 个总体k 21G G G ⋯,,,假设其均值分别为:k 21u u u ,,,⋯,协方差阵分别为:∑)(i ,(其中i=1,2,…k ),待测样本为),,,(p 21x x x X ⋯= ,其中p 21x x x ,,,⋯为样本X 的p 个检测指标,假设X 的均值为)x ,x ,x (X p 21,⋯=,协方差为∑,判断X属于哪个总体。
3.3.1 步骤:从k 21G G G ⋯,,,k 个总体中,取n 个样本,分别记为k 21G G G ⋯,,总体样本,再结合上面p 个指标,这k 个样本可以表述如下:第j 个总体样本(j=1,2…k)(1)当待测样本与各总体样本的均值相等时,即∑)(1 = ∑)(2……=∑)(k =∑;则相应的判别函数为:)()](21[]G X D -)G ([21X W )()(1')()(j2j 2ij 'j i j i u u u u X X D -+-==∑-),(,)( (其中i,j=1,2…k,)G (X,D j 2表示X 与j G 的马氏距离);判断准则:如果对所有i ≠j 有0W ij >成立,则i G X ∈,若存在i 和j 使得0W ij =成立,则待判。
当各样本总体的均值i u 和协方差阵∑未知时,可以从i G 中抽取)(n)(2)(1X ,X i i i X ⋯,i=1,2…k;则i u 和∑)(i 的无偏估计∑^i ^u ,可以表示为:∑===n j i j i i X n X1)()(^1u (i=1,2…,k ) ∑∑=-=^1n 1k i i S k (其中n=1+2+……+n ,)')((S )()(1j )()(i i i n ni i n X X X X --=∑=) (2)当各样本总体样本的均值不相等时,相应的判别函数为:)u -(X ][V )'u -(X -)u -(X ][V 'u -X X W (i)-1(i)(j)(j)-1(j)(j)ji )()(= 判别准则:若对所有i ≠j 有0W ij >则i G X ∈,若存在i 和j 使得0W ij =成立,则待判。
四、 具体应用4.1 判别分析在医学上的应用为了研究某地区人口死亡状况,已按某种方法将15个已知样品分为三类(如下表所示),指标及原始数据见下表,试建立判别函数并判定另外4个待判样品分别属于哪类。
我们假设两样本的协方差相等;本题中变两个数p=6,三类总体各有5个样本,故n1=n2=n3=5; 利用Matlab 软件并结合Excel 表格进行下列计算(具体计算见附录) 4.1.1 计算各组的样本的均值为:1X =(37.94 11.90 1.50 12.25 100.06 67.46)'2X =(39.54 11.50 2.94 27.83 151.02 66.05 )' 3X =(38.50 10.12 0.68 10.33 93.95 67.42)' 4.1.2 计算样本协方差:∑=--=n1k )1(1)1()1(1)1(k1)'(*S X X X X )(='*)(S 1k )2(2)2()2(2)2(2∑=--=nkkX X X X )(=')(*)(Sk )3(2)3()3(2)3(3∑=--=nk kX X X X= 从而222.23 197.4522.06 204.82 216.83 -78.73 197.45 184.16 19.95 189.14 202.76 -72.48 22.06 19.95 2.31 20.64 22.12 -7.70 204.82 189.14 20.64 194.65 208.18 -74.58 216.83 202.76 22.12 208.18 223.65 -79.32 -78.73 -72.48-7.70-74.58 -79.32 29.09根据公式:∑∑=-=^11ki i S k n 计算得:∑=^从而可求得其逆为:1-^∑=4.1.3 求判别函数)(X W ij,解线性方程组∑-=^)()()(j i X X a,得=1i a1-^∑=从而可以求得)](21[)(X W )2()1(111112X X X a X X a +-=-=)(52.23983.328.069.369.042.1x 62.3654321+---+-=x x x x x)](21[)()(W )3()1(121213X X X a X X a X +-=-=56.9297.115.084.050.012.2x 28.2-654321-+++-+=x x x x x)](21[)(X W )1()2(212121X X X a X X a +-=-=)(52.392-83.328.0x 69.3x 69.0-x 42.1x 62.3-654321x x ++++=)](21[)(X W )3()2(222223X X X a X X a +-=-=)(=332.08-79.543.053.419.153.3x 90.5-654321x x x x x +++-+)](21[)()(W )1()3(313131X X X a X X a X +-=-=56.9297.1-15.0-84.0-50.012.2-x 28.2654321++=x x x x x)](21[)()(W )2()3(323232X X X a X X a X +-=-==332.0879.5-43.0-53.4-19.153.3-x 90.5654321++x x x x x 从而:)(X W ij ==+ 4.1.4 对已知样本的回判:将题目中表格中个数据代入上述方程组中可得:从上表中可知判对率为100%。
4.1.5 对待测样本进行判断,通过EXcel 表格计算的下表从表格中可以看出待判样本1属于第3组,待判样本2属于第1组,带判样本3属于第3.62 -1.42 0.69 -3.69 -0.28 -3.83-2.28 2.12-0.50 0.84 0.15 1.97 -3.62 1.42 -0.69 3.69 0.28 3.83 -5.90 3.53 -1.19 4.53 0.43 5.79 2.28 -2.12 0.50 -0.84 -0.15 -1.97 5.90 -3.53 1.19 -4.53 -0.43 -5.79 654321X X X X X X239.52-92.56 -239.52 -332.08 92.56 332.082组,带判样本4属于第3组。
4.2距离判别法在居民生活水平方面的应用数据来源及说明:本例的数据来源于国家统计局网站,选择了全国20省市进行分析,数据为我国2010年城镇生活的6项重要指标,包括食品,衣着,燃料,住房及生活用品和文化生活。
由于数据未进行分类,故先对其进行聚类分析,我们选择前21个省市利用spss 进行K-均值聚类分析,为后面计算方便,将其分成3类,结果如下:建立表格如下:本例中变两个数为p=6;第一类有9个样本,第二类有8个样本,第三类有4个样本,即n1=9,n2=8,n3=4;4.2.1 三类地区个变量的均值:1X =(107.75 21.16 8.64 12.49 16.82 3.80)'; 2X =(142.98 24.30 14.45 17.04 20.41 5.13)'; 3X =(141.66 33.19 13.30 38.12 35.90 4.07)'; 4.2.2 计算样本协差阵:=∑^=∑-^14.2.3 求判别函数:=ij W4.2.4对已知样本进行回判:根据判别准则,并计算可的下表从上表中可知回判率为100%;故可对带判样本进行判别分析。
4.2.5对待判样本进行判别归类,计算结果如下从表中可以看出新疆属于第一组,湖南和黑龙江属于第二组,江苏属于第三组。
4.3判别分析软件的使用从上面的两个例子中可发现,对于3个样本的距离判别分析计算量很大,如果对于更多的样本的情况,计算将非常复杂,下面我们以例二为例简单介绍使用spss 进行一般判别分析4.3.1将数据输入spss数据视图中。
4.3.2一般判别分析spss操作选择菜单分析→分类→判别,出现下图(1),本例中将类别选入分组变量中,并定义其变量范围为1到3(下图(2)),将食品,衣着等其他变量选入自变量中,再按需要选择其他统计量和分类等,本题中这些选项选择默认,在单击保存,并勾选预测组成员(下图(3)).(1)(2)(3)单击确认就可得到本题的结果。
4.3.3结果分析:我们可以从数据视图中看到分类的结果:(即表格中最后一列)Wilks的Lambda检验结果可以用于检验各个判别函数有无统计学上的显著意义,由于本例中两个sig均小于0.05,说明判别函数的作用都是显著的。
从结果中还可以得到标准化函数的系数。
如下表所示其余的结果在这里不再详述,有兴趣的读者可以参阅《spss统计分析与数据挖掘》(谢龙汉尚涛)。
五、参考文献[1] 王静龙,梁小筠定性数据统计分析北京:中国统计出版社,2008.7[2] 任雪松,于秀林多元统计分析北京:中国统计出版社,2010.12[3] 谢龙汉,尚涛spss统计分析与数据挖掘北京:电子工业出版社,2012.1[4] 袁志发多元统计分析北京:科学出版社,2009.7[5] 朱建平应用多元统计分析北京:科学出版社,2012.6六、附录6.1均值计算如下表:S的计算计算:6.2i6.3系数矩阵a以及常数b求解的matlab程序:clear,clcA1=[-3.782 -4.46 -0.38 -4.376 -4.868 1.84;-4.882 -5.56 -0.42 -5.476 -5.978 2.24;-5.682 -2.66 -0.46 -3.276 -2.758 1.34;2.228 1.55 -0.07 1.634 1.142 -1.26;12.118 11.13 1.33 11.494 12.462 -4.16]';S1=A1*A1';A2=[-6.296 -5.256 -1.758 -4.93 8.986 -0.65;-7.316 -7.276 -1.878 -7.13 -26.324 2.65;1.614 -1.416 -0.618 5.01 21.036 -0.2;13.504 14.244 1.122 7.04 1.006 -2.55;-1.506 -0.296 3.132 0.01 -4.704 0.75]';S2=A2*A2';A3=[-4.47 -4.708 -0.614 -5.132 -3.846 2.08;-6.39 -7.098 -0.594 -7.192 -8.796 3.38;5.62 5.002 0.396 4.818 9.174 -2.62;15.67 14.912 1.426 14.818 16.194 -3.72;-10.43 -8.108 -0.614 -7.312 -12.726 0.88]';S3=A3*A3';S=S1+S2+S3;X1=(1/12)*S; %协方差X=inv(X1) ; %协方差的逆X1=[37.942 11.9 1.5 12.246 100.058 67.46]'; %X1的均值; X2=[39.536 11.496 2.938 27.83 151.024 66.05]'; %X2的均值; X3=[38.5 10.118 0.684 10.332 93.946 67.42]'; %X3的均值;a12=X*(X1-X2);b1=a12'*(-0.5*(X1+X2));a13=X*(X1-X3);b2=a13'*(-0.5*(X1+X3));a21=X*(X2-X1);b3=a21'*(-0.5*(X2+X1));a23=X*(X2-X3);b4=a23'*(-0.5*(X2+X3));a31=X*(X3-X1);b5=a31'*(-0.5*(X3+X1));a32=X*(X3-X2);b6=a32'*(-0.5*(X3+X2));A=[a12';a13';a21';a23';a31';a32'] %系数矩阵Ab=[b1;b2;b3;b4;b5;b6] %常数矩阵bF=[50.22 6.66 1.08 22.54 170.6 65.2;34.64 7.33 1.11 7.78 95.16 69.3; 33.42 6.22 1.12 22.95 160.31 68.3; 44.02 15.36 1.07 16.45 105.3 64.2;]'; B=[b b b b];W=A*F+B。