楚雄师范学院2012年数学建摸模拟论文题目应用回归分析姓名韩金伟系(院)数学系09级01班专业数学与应用数学2012 年8月22 日题目:应用回归分析摘要:随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可少的工具和手段。
应用回归分析是其中的一个重要分支,数据处理,数据检验,模型的建立和检验都是回归分析不可缺少的部分。
针对多组数据的多个变量样本,我们通常都会对它建立回归模型,在此建模过程中我们就要对给定的数据做合理化检验分析,找出数据的规律,再对数据进行分类建模。
当然,因为各变量之间或多或少都会存在强影响的变量,所以通常都要做剔除性检验和重新建模,最后建立出一个合理化的模型。
关键词:回归分析相关性自相关残差异常点正态性杠杆值一、问题重述(10.1 附录一)中给定了一些关于自变量654321,,,,,x x x x x x 与因变量y 的一些数据,请按所给的要求对给定的数据进行分析: 要求:1.检测强影响点,并求出杠杆值. 2.正态性检验. 3.相关性检验.4.自变量的多重共线性检测,若有多重共线性,试消除,再建模.5.残差的自相关性分析,模型的合理性分析.6.预测T X )225,7,13,50,82,81,470(0=时Y 的预测值.二、问题分析本题是要针对一组数据做合理化的线性分析,先后要求对数据做了异常值的检验和剔除,各变量的正态性检验,在从相关性的角度对各变量做相关性检验,得出数据是否适合做多元线性规划模型。
为了使建立的模型具有很好的拟合效果和实际意义,又要求对各变量做相关性检验的同时进而做多重共线性的诊断,从中发现自变量之间是否存在着多重共线性。
在有多重共线性的情况下,为了消除多重共线性的影响,我们又要做剔除不合理的变量再做回归模型。
当然在做好的模型中,我们又要剔除不能通过t 检验的变量,最后建立没有强多重共线性,没有异常点且通过了F 检验,t 检验的合理化模型,再对给定的数据做出预测。
三、模型假设假设y 为因变量,654321,,,,,x x x x x x 为自变量,y 因变量y ,X1 自变量x1,X2 自变量x2,X3 自变量x3,X4 自变量x4,X5 自变量x5,X6 自变量x6,i e 第i 个值的残差,i SER 第i 个值的学生化残差,)(i e 第i 个值的删除残差,)(i SRE 第i 个值的删除学生化残差,)(i ch 第i 个值的杠杆值,h c 平均杠杆值。
四、符号说明符号 意义 符号 意义id 序列号 i cook 第i 个值的库克距离 y 因变量y iMahar 第i 个值的马氏距离 X1 自变量x1 ik条件数 X2 自变量x2 X矩阵 X3 自变量x3 i β系数 X4 自变量x4 VIF 方差扩大因子 X5 自变量x5 DWDW 检验 X6自变量x6 i k 条件索引 i e第i 个值的残差FF 检验i SER第i 个值的学生化残差 tT 检验 )(i e第i 个值的删除残差 β平均数 )(i SRE 第i 个值的删除学生化残差 t ε 随机序列项 )(i ch第i 个值的杠杆值 S 样本偏度系数 h c平均杠杆值B样本峰度系数五、模型建立和求解1、问题一的求解1.1 检测数据中的强影响点1.1.1 对数据中的强影响点进行初略的箱图检从绘制的箱图来看数据存在着强影响点,初步可以看出强影响点分别在3x 的3号位和12号位,6x 的34号位。
为了进一步的检测出强影响点的位置和数据,减小强影响点对整体数据的影响,我们进一步对强影响点进行分析。
1.1.2 异常值分析为了更好的检测出异常值,我们分别用计算机计算出数据的普通残差i e ,学生化残差i SRE ,删除残差)(i e ,删除化学生化残差)(i SRE ,杠杆值ii ch ,库克距离)(i D ,见下表。
行id 普通残差ie学生化残差iSER删除残差)(ie删除学生化残差)(iSRE杠杆值iich库克距离icookMaHar距离iMahar18.865560.259810.009270.25610.089270.00124 3.48134 2-5.93733-0.18289-7.40626-0.180190.173340.00118 6.76013 3 2.674990.09436 4.376020.092930.363720.0008114.18495 425.371510.7401628.387170.734980.081230.0093 3.1681 5 6.598250.197257.752070.194350.123840.00097 4.82977 60.28040.00830.323250.008180.107530 4.19383 78.898680.2753311.199710.271440.180450.00287.0377 8-2.35542-0.0775-3.35246-0.076320.272410.0003610.62387 9-40.22151-1.19949-47.02746-1.207790.119720.03478 4.66919 10-0.56327-0.01819-0.77195-0.017910.245330.000029.56781 1111.046830.3203512.213210.315950.07050.00155 2.74957 1239.75055 1.2902255.05605 1.303830.2530.091579.86694 13-18.80111-0.56615-22.41318-0.560240.136160.0088 5.31018 14-0.09178-0.00285-0.11614-0.00280.1847107.20365 15-121.51298-3.92016-166.26646-5.28110.244170.808569.52252 16-11.86591-0.36065-14.41086-0.355850.15160.00399 5.91237 1746.77492 1.3912454.40184 1.412040.11520.04509 4.49265 18-17.50514-0.52083-20.37286-0.5150.115760.00635 4.51472 19 5.516740.15861 5.994850.156240.054750.00031 2.13536 2041.5721 1.1765543.77636 1.183680.025350.010490.98876 2126.445230.7680929.328840.763210.073320.00919 2.85948 2216.9460.5143220.522030.508510.149250.00797 5.82088 23-7.2257-0.217-8.56757-0.213840.131620.00125 5.13328 24-51.78403-1.51739-58.45459-1.549250.089120.04237 3.47549 2544.58808 1.2792948.25486 1.292210.050990.01923 1.98853 26 3.031760.09371 3.808070.092290.178860.00032 6.97558 27-33.32922-0.93683-34.61906-0.935040.012260.004850.47806 28-10.30989-0.32055-13.10228-0.316140.188120.003987.33676 29-10.61974-0.31957-12.64242-0.315180.134990.00278 5.26468 3010.37850.3000911.407760.295920.065220.00128 2.54373 3140.57435 1.1709144.42389 1.177760.061650.01858 2.40454 3218.002930.5198619.735870.514040.062810.00372 2.44946 3324.066170.7400729.919910.73490.170650.01903 6.65523 340.80778 1.300162751.19133 1.314420.97471822.2361938.01355 3520.165160.5873122.488160.581390.07830.00568 3.05365 36-27.726-0.82321-32.13335-0.81910.112160.01539 4.37417 37 4.907220.1436 5.524770.141460.086780.00037 3.38432 3856.71032 1.7063167.4956 1.759680.134790.0791 5.2569 39-44.43245-1.28994-49.23352-1.303540.072520.02569 2.82814 40-59.69256-1.72471-65.51344-1.780520.063850.04144 2.49016从上表中我们可以看到,绝对值最大的学生化残差为92006.315=SRE ,大于3,因而根据学生化残差诊断认为数据存在异常值。
绝对值最大的删除学生化残差为2811.5)15(=DRE ,同样在第15号位,因而根据学生化残差和删除学生化残差诊断认为第15个数据为异常值。
其中心化杠杆值24417.0=ii ch 位居第五,库克距离80856.0=i D 。
再根据删除残差19133.275134=e ,库克距离23619.82234=D ,马氏距离01355.3834=Mahar 都出现了相当大的不合理性,因此我们认为第34个数据为异常值。
1.2 求解杠杆值由中心化的帽子矩阵主对角线元素可得:n h ch ii ii /1-=因此,∑==ni iip ch1,中心化杠杆值ii ch 的平均值是npch n h c n i ii ==∑=11故:1)、第15号位的中心化杠杆值为24417.0=ii ch ,平均杠杆值为13333.0152===n p h c ; 2)、第34号位的中心化杠杆值为23619.82234=D ,平均杠杆值为0.0588342===n p h c ; 1.3 消除异常值在前面我们检测出了异常值在第15号位和34号位,具体如下表:id Y X1 X2 X3 X4 X5 X6 C00k 距离 Mahal 距离 1 443 49 79 76 8 15 205 0.00124 3.48134 2 290 27 70 31 6 6 129 0.00118 6.76013 3 676 115 92 130 0 9 339 0.00081 14.18495 4 536 92 62 92 5 8 247 0.0093 3.1681 5 481 67 42 94 16 3 202 0.00097 4.82977 6 296 31 54 34 14 11 119 0 4.19383 7 453 105 60 47 5 10 212 0.0028 7.0377 8 617 114 85 84 17 20 285 0.00036 10.62387 9 514 98 72 71 12 -1 242 0.03478 4.66919 10 400 15 59 99 15 11 174 0.00002 9.56781 11 473626281912070.001552.7495712 157 25 11 7 9 9 45 0.09157 9.8669413 440 45 65 84 19 13 195 0.0088 5.3101814 480 92 75 63 9 20 232 0 7.2036515 136 27 26 82 4 17 134 0.80856 9.5225216 530 111 52 93 11 13 256 0.00399 5.9123717 610 78 102 84 5 7 266 0.04509 4.4926518 617 106 87 82 18 7 276 0.00635 4.5147219 600 97 98 71 12 8 266 0.00031 2.1353620 480 67 65 62 13 12 196 0.01049 0.9887621 279 38 26 44 10 8 110 0.00919 2.8594822 446 56 32 99 16 8 188 0.00797 5.8208823 450 54 100 50 11 15 205 0.00125 5.1332824 335 53 55 60 8 0 170 0.04237 3.4754925 459 61 53 79 6 5 193 0.01923 1.9885326 630 60 108 104 17 8 273 0.00032 6.9755827 483 83 78 71 11 8 233 0.00485 0.4780628 617 74 125 66 16 4 265 0.00398 7.3367629 605 89 121 71 8 8 283 0.00278 5.2646830 388 64 30 81 10 10 176 0.00128 2.5437331 351 34 44 65 7 9 143 0.01858 2.4045432 366 71 34 56 8 9 162 0.00372 2.4494633 493 88 30 87 13 0 207 0.01903 6.6552334 648 112 105 123 5 12 34 822.23619 38.0135535 449 57 69 72 5 4 200 0.00568 3.0536536 340 61 35 55 13 0 152 0.01539 4.3741737 292 29 45 47 13 13 123 0.00037 3.3843238 688 82 105 81 20 9 268 0.0791 5.256939 408 80 55 61 11 1 197 0.02569 2.8281440 461 82 88 54 14 7 225 0.04144 2.49016为了使模型的数据不存在异常点,我们取它附近数据的平均值代替异常值,重新组合数据,组合后的数据在(10.2 附录二),(原始数据中没有小数,为了保持一致性和合理性,我们对所求平均值按四舍五入法取数)。