距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析. 实验容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则; 一.几种距离公式:1. 欧氏距离2121])([),(jk ik pk j i x x d -=∑=x x2. 绝对距离∑=-=pk jk ik j i x x d 1),(x x3. Minkowski 距离mpk m jk ik j i x x d 11]||[),(∑=-=x x其中1≥m .Minkowski 距离又称m L 距离,2L 距离即欧氏距离,1L 距离即绝对距离. 4. Chebyshev 距离jk ik pk j i x x d -=≤≤1m ax ),(x xChebyshev 距离是Minkowski 距离当+∞→m 时的极限.以上距离与各变量的量纲有关.为消除量纲的影响,可对数据进行标准化,然后用标准化数据计算距离.标准化数据即p k n i s x x x k kik ik ,...,2,1;,...,2,1,*==-=其中∑∑==--==n i n i k ik k ik k x x n s x n x 1122)(11,1. 5. 方差加权距离21122])([),(∑=-=pk kjk ik j i sx x d x x易证,标准化数据*ik x 的欧氏距离既是方差加权距离. 6. 马氏距离211)]()),(j i T j i j i d x x S x [(x x x --=-其中S 是由样品n x x x ,...,,21算得的样本协方差矩阵:∑=---=ni T i i n 1))((11x x x x S , 其中.11∑==ni i n x x令nxn ij j i ij d D d d )(),,(==x x 形成n 个样品n x x x ,...,,21两两之间的距离矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=00021221112 n n n n d d d d d d D 其中ij d =ji d二.两个总体的距离判别准则1.距离判别准则21,G G 为两个p 维已知总体,均值向量21,μμ, 协方差矩阵21,ΣΣ,T p x x x ),,,(21 =x 为待判样品,距离判别准则为⎩⎨⎧>∈≤∈)()(,)()(,121221G x,G x,G x G x,G x,G x d d d d 若若 (5.1)说明:马氏距离思想——极大似然思想一般p 维总体,),(~),,(~2211ΣμΣμp p N G N G ,协方差矩阵同为Σ,概率密度为⎭⎬⎫⎩⎨⎧-∑--∑=-)()(21exp )2(11112121μx μx T p f π⎭⎬⎫⎩⎨⎧-∑--∑=-)()(21exp )2(12122122μx μx T p f π则 )()(21G x,G x,d d ≤⇔)()()()(212111μx μx μx μx -∑-≤-∑---T T )()(21x x f f ≥⇔距离判别准则转化为⎪⎪⎩⎪⎪⎨⎧<∈≥∈1)()(,1)()(,21221x x G x x x G x 1f f f f 若若 与似然比准则一致. 2.ΣΣΣ==21情形(1)线性判别函数样品x 到总体21,G G 的马氏平方距离之差)()(1222G x,G x,d d -)()()()(111212μx μx μx μx -∑---∑-=--T T)2()2(111111212121μΣμx Σμx Σx μΣμx Σμx Σx ------+--+-=T T T T T T]21[2]21[21111121212μΣμx ΣμμΣμx Σμ-----+--=T T T T )]()([212x x W W --=其中 ⎪⎩⎪⎨⎧+=+=----2122212222111111111121b ,)(21b ,)(μΣμμΣa x a x μΣμμΣa x a x T T T T b W b W =-,==-,= (5.2) )(),(21x x W W 称为x 的线性判别函数.距离判别准则化为线性判别准则⎩⎨⎧<∈≥∈)()(,)()(,21221x x G x x x G x 1W W W W 若若 (5.3) 另一方面)()(1222G x,G x,d d -111212121)(2μμμμx μμ---∑-∑+∑-=TT T 112111*********)(2μμμμμμμμx μμ-----∑-∑-∑+∑+∑-=TTTTT)()()(221121121μμμμx μμ+∑--∑-=--T T)()(2121μx μμ-∑-=-T )(2)(21x μx a W T=-=其中)(2121μμμ+=,)(211μμΣa +-=,而)()(1μx a x -=T W 为x 的线性判别函数.判别准则化为线性判别准则 ⎩⎨⎧<∈≥∈0)(,0)(,2x G x x G x 1W W 若若 (5.4))(),(),(21x x x W W W 皆为x 的线性判别函数,简单易求.(2)样品判别函数实际中21,μμ, 协方差矩阵Σ未知,设)1()1(2111,,,n x x x )(和)2()2(2212,,,n x x x )(来自总体21,G G 的训练样本,则21,μμ,Σ的估计为∑∑======211)2()1(221)1()1(111ˆ,1ˆn i i n i i n n xx μx x μ2)1()1(ˆ212111-+-+-==n n n n S S ΣS ——为Σ的联合估计 其中 T in i i n )()(11)1()1(1)1()1(111x x x x S ---=∑=T in i i n )()(11)2()2(1)2()2(222x x x x S ---=∑= 分别为21,G G 的样本协方差矩阵,由此得线性判别函数)(),(),(21x x x W W W 的估计⎪⎪⎪⎩⎪⎪⎪⎨⎧+=--=+=+=-----)(21)(ˆ),(ˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)2()1()2()1(1)2(1)2(2)2(12222)1(1)1(1)1(11111x x x x x S a x x a x x S x x S a x a x x S x x S a x a x ,=其中=-,=其中=-,=其中T T T T T W b W b W (5.5) 两个总体的距离判别准则为⎩⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,21221x x G x x x G x 1W W W W 若若 (5.6) 或 ⎩⎨⎧<∈≥∈0)(ˆ,0)(ˆ,2x G x x G x 1W W若若 (5.7)3.21ΣΣ≠的情形)()()(11121μx Σμx x 1--=-T d)()()(212222μx Σμx x --=-T d 为x 的二次函数,称为二次判别函数距离判别准则⎩⎨⎧>∈≤∈)()(,)()(,222122221x x G x x x G x 1d d d d 若若 (5.8)以)2(2)1(1ˆ,ˆx μx μ==,2211ˆ,ˆS ΣS Σ==估计21,μμ及21,ΣΣ可得样品判别函数: )()()(ˆ)1(11)1(21x x S x x x --=-T d )()()(ˆ)2(12)2(22x x S x x x --=-T d样品判别准则 ⎪⎩⎪⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,212222122x x G x x x G x 1d d d d 若若 2.书上5.33.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(、除外); (2)利用距离判别建立判别函数,判定、分别属于哪个发展类型?表3 2005经济指标样品地区X1 X2 X3 X4 X5 X6 X7序号1 北京26.91 4.5 31.14 1.88 6.39 17.96 98.992 上海28 11.7 43.6 1.99 8.57 27.57 99.23 天津32.9 13.9 60.19 2.2 10.77 21.27 101.984 河北30.38 10.4 64.01 2.31 5.96 11.28 98.675 山西37.48 9.4 67.82 1.71 6.82 7.93 97.856 43.44 9.8 64.32 2.08 7.94 16.34 98.237 辽宁28.76 7.5 59.33 2.15 2.78 14.19 99.868 吉林29.48 8.5 60.57 2.11 3.45 12.29 99.459 江24.34 11.3 59.67 2.29 4.89 15.97 99.4110 浙江24.85 13.4 57.41 2.92 5.28 24.62 99.7211 安徽34.54 11.2 62.83 2.18 6.15 11.77 98.8912 福建28.87 11.9 56.16 2.38 5.74 15.38 99.4913 江西27.21 9.7 69.38 2.01 4 8.86 99.4914 山东36.59 15.8 60.18 2.55 10.83 18.17 99.0615 河南31.9 10.2 65.62 2.06 5.34 8.83 98.6116 湖北33.27 9.2 57.34 1.69 9.05 13.68 99.6317 湖南37.13 12.7 67.23 2.07 4.24 12.71 99.5218 广西31.64 10.8 62.91 2.09 5.88 10.42 99.6919 海南35.44 11.7 54.23 1.97 10.95 14.26 101.320 重庆25.95 8.2 58.92 1.58 3.71 8.34 99.3821 四川36.29 9.1 64.34 1.56 7.31 11.26 101.2422 贵州36.45 9.7 66.39 1.52 5.77 9.52 99.0623 陕西41.01 15.9 61.88 1.7 18.95 12.28 98.7624 甘肃25.76 9.5 59.32 2.3 3.55 9.02 98.9625 青海38.77 12.2 68.56 1.38 22.44 17 97.926 宁夏33.62 5.6 60.94 1.46 3.37 9 99.3827 50.1 35.4 54.5 2.42 39.49 19.81 97.7128 云南44.76 20.1 47.44 1.5 13.41 22.54 100.1329 新疆45.21 23.9 50.58 3.15 27.1 24.83 99.931 广东26.51 13 53.21 2.39 6.7 24.34 98.712 西藏55.73 4.7 25.48 0.97 11.8 6.31 93.68 (1)代码:用谱系聚类中的最长距离法将29个省市分为三类data examp3;input province $ x1-x7;cards;26.91 4.5 31.14 1.88 6.39 17.96 98.9928 11.7 43.6 1.99 8.57 27.57 99.232.9 13.9 60.19 2.2 10.77 21.27 101.9830.38 10.4 64.01 2.31 5.96 11.28 98.6737.48 9.4 67.82 1.71 6.82 7.93 97.8543.44 9.8 64.32 2.08 7.94 16.34 98.2328.76 7.5 59.33 2.15 2.78 14.19 99.8629.48 8.5 60.57 2.11 3.45 12.29 99.4524.34 11.3 59.67 2.29 4.89 15.97 99.4124.85 13.4 57.41 2.92 5.28 24.62 99.7234.54 11.2 62.83 2.18 6.15 11.77 98.8928.87 11.9 56.16 2.38 5.74 15.38 99.4927.21 9.7 69.38 2.01 4 8.86 99.4936.59 15.8 60.18 2.55 10.83 18.17 99.0631.9 10.2 65.62 2.06 5.34 8.83 98.6133.27 9.2 57.34 1.69 9.05 13.68 99.6337.13 12.7 67.23 2.07 4.24 12.71 99.52广西 31.64 10.8 62.91 2.09 5.88 10.42 99.6935.44 11.7 54.23 1.97 10.95 14.26 101.325.95 8.2 58.92 1.58 3.71 8.34 99.3836.29 9.1 64.34 1.56 7.31 11.26 101.2436.45 9.7 66.39 1.52 5.77 9.52 99.0641.01 15.9 61.88 1.7 18.95 12.28 98.7625.76 9.5 59.32 2.3 3.55 9.02 98.9638.77 12.2 68.56 1.38 22.44 17 97.933.62 5.6 60.94 1.46 3.37 9 99.3850.1 35.4 54.5 2.42 39.49 19.81 97.7144.76 20.1 47.44 1.5 13.41 22.54 100.1345.21 23.9 50.58 3.15 27.1 24.83 99.93 run;proc cluster data=examp3 method= nonorm nosquare outtree=tree1; var x1-x7;id province;run;proc tree data=tree1 graphics horizontal out=c1 nclusters=3;id province;run;proc print data=c1;run;运行结果:分类结果谱系图:有上图可得,根据x1-x7变量将以上省份分为三类的结果为:,和为一类,这三个地区的工业增加率比较低,但其他比率却并不低,说明这一类地区前期工业很发达,但现在已经在向其他产业方向发展,属于早期工业发达地区,记为第三类;,和为一类,这类地区的工业增加率很高,总资产贡献率和全员劳动生产率也较高,可归属于正大力发展的工业地区,记为第二类;其他省份为一类,属于一般的工业地区,记为第一类。