实验十 距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析. 实验内容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则;p 维空间两点T p x x x ),,,(21 =x ,T p y y y ),,,(21 =y 1.欧氏距离 ∑=-=pi i iy xd 12)()(y x,2.明氏距离 mpi m i i y x d 11])([)(∑=-=y x,3.马氏距离 211)]()[()(y x Σy x y x,--=-T d 线性判别函数)(),(),(21x x x W W W 的估计⎪⎪⎪⎩⎪⎪⎪⎨⎧+=--=+=+=-----)(21)(ˆ),(ˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)2()1()2()1(1)2(1)2(2)2(12222)1(1)1(1)1(11111x x x x x S a x x a x x S x x S a x a x x S x x S a x a x ,==-,==-,=其中T T T T T W b W b W (5.5) 两个总体的距离判别准则⎩⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,21221x x G x x x G x 1W W W W 若若 (5.6) 或 ⎩⎨⎧<∈≥∈0)(ˆ,0)(ˆ,2x G x x G x 1W W若若2.书上5.3 (1)两总体之间的广义平方距离线性判别函数 ∧∧∧+=j T jj b W x a (x))常数项)(1)()(21j T j jb x S x --= 系数向量)(1j j xS a -∧=得到两总体的马氏平方距离为537.16),(ˆ212=G G d 反映了两总体的分离程度 线性判别函数为8765432117638.3038.3573.1924.73662.51623.07327.034858.50029.93)(ˆx x x x x x x x W ++-+-+++-=x 8765432124993.21473.69959.0806.51404.31685.02933.19719.45098.95)(ˆx x x x x x x x W ++-+--++-=x 以下结果是误判率的回带估计以下是交叉确认估计结果:用交叉确认法也将属于总体2G 的第17和19号样品误判为属于1G ,其余均回判正确,误判率的回代估计为:*2ˆ0.07427c p ==. 在此问距离判别分析中,西藏、上海、广东的判别结果如下:可以看到这三个省均以100%的判别概率分到了第二类,也即城镇居民消费指标比较高的类别中,从直观上感觉可能西藏的类别划分不是很准确。
以下再进一步进行Bayes 判别分析。
(2)(一)当总体的协方差相等时: 线性判别函数结果如下:112345678ˆ()121.49967.006 2.17890.3899 1.818 5.67040.04599.5775 1.9157W x x x x x x x x x =-++--++++212345678ˆ()177.68028.2695 3.0690.70190.1625 4.5807 1.054413.46520.9091W x x x x x x x x x =-++-+++++同样在回代估计中结果如下:交叉确认估计结果如下:交叉确认法误判率估计∧*p=2/27=0.074c三个待判样品的判别结果如下:也即同(1)都属于第二类。
(二)当总体的协方差不相等时:此时的交叉确认回判结果如下:也即21-27号省份都应该属于第一类但误判到第二类了,此时误判率估计∧*p=7/27=0.2592c在这种情况下三个样品的判别结果如下:也即在两总体协方差矩阵不相等的情况下所有省份都属于同一类,三个待判样品也判到了第一类。
显然这样的判别结果不是很合乎实际情况。
3.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?表3 2005经济指标样品地区X1 X2 X3 X4 X5 X6 X7序号1 北京26.91 4.5 31.14 1.88 6.39 17.96 98.992 上海28 11.7 43.6 1.99 8.57 27.57 99.23 天津32.9 13.9 60.19 2.2 10.77 21.27 101.984 河北30.38 10.4 64.01 2.31 5.96 11.28 98.675 山西37.48 9.4 67.82 1.71 6.82 7.93 97.856 内蒙古43.44 9.8 64.32 2.08 7.94 16.34 98.237 辽宁28.76 7.5 59.33 2.15 2.78 14.19 99.868 吉林29.48 8.5 60.57 2.11 3.45 12.29 99.459 江苏24.34 11.3 59.67 2.29 4.89 15.97 99.4110 浙江24.85 13.4 57.41 2.92 5.28 24.62 99.7211 安徽34.54 11.2 62.83 2.18 6.15 11.77 98.8912 福建28.87 11.9 56.16 2.38 5.74 15.38 99.4913 江西27.21 9.7 69.38 2.01 4 8.86 99.4914 山东36.59 15.8 60.18 2.55 10.83 18.17 99.0615 河南31.9 10.2 65.62 2.06 5.34 8.83 98.6116 湖北33.27 9.2 57.34 1.69 9.05 13.68 99.6317 湖南37.13 12.7 67.23 2.07 4.24 12.71 99.5218 广西31.64 10.8 62.91 2.09 5.88 10.42 99.6919 海南35.44 11.7 54.23 1.97 10.95 14.26 101.320 重庆25.95 8.2 58.92 1.58 3.71 8.34 99.3821 四川36.29 9.1 64.34 1.56 7.31 11.26 101.2422 贵州36.45 9.7 66.39 1.52 5.77 9.52 99.0623 陕西41.01 15.9 61.88 1.7 18.95 12.28 98.7624 甘肃25.76 9.5 59.32 2.3 3.55 9.02 98.9625 青海38.77 12.2 68.56 1.38 22.44 17 97.926 宁夏33.62 5.6 60.94 1.46 3.37 9 99.3827 黑龙江50.1 35.4 54.5 2.42 39.49 19.81 97.7128 云南44.76 20.1 47.44 1.5 13.41 22.54 100.1329 新疆45.21 23.9 50.58 3.15 27.1 24.83 99.931 西藏26.51 13 53.21 2.39 6.7 24.34 98.712 广东55.73 4.7 25.48 0.97 11.8 6.31 93.68(1)分类结果如下:从我国现在各省份的经济发展水平来看这样的分类结果还是比较理想的。
其中第一类的北京、上海经济发展较快,属于经济发达城市,黑龙江、云南、新疆这三个省份经济发展水平相对比较落后一点,属于第三类,是经济发展比较滞后的城市,其余24个省份经济水平差不多,属于第二类,是经济发展中城市。
(2)判定结果如下:可以看到:广东以100%的概率判定属于第一类经济比较发达的城市,西藏以72.41%的可能性判定在第二类经济发展中的城市。
4.波士顿房价问题为了了解波士顿地区的住房状况,Harrison收集了1978年波士顿大区每个调查行政区的506各观察值。
数据见Excel表波士顿住房,其中:X:人均犯罪率;1X:大块占地住宅区比例;2X:非零售商业占地比例(英亩);3X:查尔斯河虚拟变量(如果靠近河岸用1表示;否则用0表示);4X:氮氧化物浓度;5X:每户平均房间数;6X:1940年前建造的户主所有房比例;78X :与五个波士顿劳动力聚集区的加权距离; 9X :与辐射式公路接近指数; 10X :每1万美元的全值财产税;11X :学生/教师比例;12X :)63.0()63.0(10002<-B I B ,其中B 为非洲裔美国人比例;13X :低社会地位人口的比例(%); 14X :户主拥有住房价值的中位数(单位:千美元); (1) 对住房数据做聚类分析,将506个地区分为4类(将其中5、100、400号剔除),给出分类结果;你认为分几类合适,说出理由;(2) 利用距离判别,对住房状况做判别分析,并给出5、100、400号样品判别结果。