当前位置:文档之家› 数据分析方法课程设计报告

数据分析方法课程设计报告

《数据分析方法》课程实验报告1.实验内容(1)掌握回归分析的思想和计算步骤;(2)编写程序完成回归分析的计算,包括后续的显著性检验、残差分析、Box-Cox 变换等内容。

2.模型建立与求解(数据结构与算法描述)3.实验数据与实验结果解:根据所建立的模型在MATLAB中输入程序(程序见附录)得到以下结果:(1)回归方程为:说明该化妆品的消量和该城市人群收入情况关系不大,轻微影响,与使用该化妆品的人数有关。

的无偏估计:(2)方差分析表如下表:方差来源自由度平方和均方值回归() 2 5384526922 56795 2.28误差()12 56.883 4.703总和()14 53902从分析表中可以看出:值远大于的值。

所以回归关系显著。

复相关,所以回归效果显著。

解:根据所建立的模型,在MATLAB中输入程序(程序见附录)得到如下结果:(1)回归方程为:在MTLAB中计算学生化残差(见程序清单二),所得到的学生化残差r的值由残差可知得到的r的值在(-1,1)的概率为0.645,在(-1.5,1.5)的概率为0.871,在(-2,2)之间的概率为0.968.而服从正态分布的随机变量取值在(-1,1)之间的概率为0.68,在(-1.5,1.5)之间的概率为0.87,在(-2.2)之间的概率为0.95,所以相差较大,所以残差分析不合理,需要对数据变换。

取=0.6进行Box-Cox变换在MATLAB中输入程序(见程序代码清单二)取,所以得到r的值(r的值见附录二)其值在(-1,1)之间的个数大约为20/31=0.65,大致符合正态分布,所以重新拟合为:拟合函数为:通过F值,R值可以检验到,回归效果显著(3)某医院为了了解病人对医院工作的满意程度和病人的年龄,病情的严重程度和病人的忧虑程度之间的关系,随机调查了该医院的23位病人,得数据如下表:(1)拟合线性回归模型,通过残差分析与考察模型及有关误差分布正态性假定的合理性;(2)若(1)中模型合理,分别在,,准则下选择最优回归方程,各准则下的选择结果是否一致?(3)对,用逐步回归法选择最优回归方程,其结果和(2)中的数否一致?(4)对选择的最优回归方程作残差分析,与(1)中的相应结果比较,有何变化?习题2.6解:(1)回归参数的的最小二乘估计为:。

在MATLAB中输入程序(见程序代码清单二)可得:,,所以回归方程为:对数据做Box-Cox变换,(由于的取值在能力范围不好确定,所以经测试,取=0.6进行Box-Cox变换在MATLAB中输入程序(见程序代码清单二)取,所以得到r的值(r的值见附录二)其值在(-1,1)之间的个数大约为20/31=0.65,大致符合正态分布,所以重新拟合为:拟合函数为:通过F值,R值可以检验到,回归效果显著习题2.9解:根据所建立的模型,在MATLAB中输入程序,得到以下结果:(1)所得到的回归方程为:(2)所得到的学生化残差见附录,通过对残差的分析,很明显不符合正态分布所以(1)中所建立的模型不合理。

4.程序代码清单:习题2.4x=[1 274 24501 180 32541 375 38021 205 28381 86 23471 265 37821 98 30081 330 24501 195 21371 53 25601 430 40201 372 44271 236 26601 157 20881 370 2605];y=[162120223131671698119211655252232144103212];n=15;p=3b=inv(x'*x)*x'*yh=x*inv(x'*x)*x';sse=y'*(eye(n,n)-h)*yd2=1/(n-p)*y'*(eye(n,n)-h)*ysst=y'*(eye(n,n)-(1/n)*ones(n,n))*y ssr=y'*(h-1/n*ones(n,n))*ymsr=ssr/(p-1)mse=sse/(n-p)f=msr/mser2=1-sse/sst习题2.6x=[1 8.3 701 8.6 651 8.8 631 10.5 721 10.7 811 10.8 831 11.0 661 11.0 751 11.1 801 11.2 751 11.3 791 11.4 761 11.4 761 11.7 691 12.0 751 12.9 741 12.9 851 13.3 861 13.7 711 13.8 641 14.0 781 14.2 801 14.5 741 16.0 721 16.3 771 17.3 811 17.5 821 17.9 801 18.0 801 18.0 801 20.6 87 ];y=[10.310.310.216.418.819.715.618.222.619.924.221.021.421.319.122.233.827.425.724.934.531.736.338.342.655.455.758.351.551.077.0];n=31;p=3;b=inv(x'*x)*x'*y;h=x*inv(x'*x)*x';sst=y'*(eye(n,n)-(1/n)*ones(n,n))*y sse=y'*(eye(n,n)-h)*ymse=sse/(n-p)ssr=y'*(h-1/n*ones(n,n))*ymsr=ssr/(p-1)f=msr/mser2=1-sse/sstfor i=1:na=h(2*(i-1)+i)endt=sqrt((mse-mse*a))q=y-(-57.9877+4.7082*x(:,2:2)+0.3393*x(:,3:3)) r=q/t程序三x=[1 8.3 701 8.6 651 8.8 631 10.5 721 10.7 811 10.8 831 11.0 661 11.0 751 11.1 801 11.2 751 11.3 791 11.4 761 11.4 761 11.7 691 12.0 751 12.9 741 12.9 851 13.3 861 13.7 711 13.8 641 14.0 781 14.2 801 14.5 741 16.0 721 16.3 771 17.3 811 17.5 821 17.9 801 18.0 801 18.0 801 20.6 87 ];y=[10.310.310.216.418.819.715.618.222.619.924.221.021.421.319.122.233.827.425.724.934.531.736.338.342.655.455.758.351.551.077.0];n=31;p=3;m=0:0.01:1;y=(y.^m-1)/mb=inv(x'*x)*x'*yh=x*inv(x'*x)*x';sse=y'*(eye(n,n)-h)*ymse=sse/(n-p)f=msr/mser2=1-sse/sstfor i=1:na=h(2*(i-1)+i)endt=sqrt((mse-mse*a))q=y-(-57.9877+4.7082*x(:,2:2)+0.3393*x(:,3:3)) r=q/t习题2.9a=[ 1 50 51 2.3 481 36 46 2.3 571 40 48 2.2 661 41 44 1.8 701 28 43 1.8 891 49 54 2.9 361 42 50 2.2 461 45 48 2.4 541 52 62 2.9 261 29 50 2.1 771 29 48 2.4 891 43 53 2.4 671 38 55 2.2 471 34 51 2.3 511 53 54 2.2 571 36 49 2.0 661 33 56 2.5 791 29 46 1.9 881 33 49 2.1 601 55 51 2.4 491 29 52 2.3 771 44 58 2.9 521 43 50 2.3 60]y=a(:,5:5)x=a(:,1:4)n=23;p=4;b=inv(x'*x)*x'*yh=x*inv(x'*x)*x';sst=y'*(eye(n,n)-(1/n)*ones(n,n))*ysse=y'*(eye(n,n)-h)*ymse=sse/(n-p)ssr=y'*(h-1/n*ones(n,n))*ymsr=ssr/(p-1)f=msr/mser2=1-sse/sstfor i=1:na=h(2*(i-1)+i)endt=sqrt((mse-mse*a))q=y-(162.8575-1.2103*x(:,2:2)-0.6659*x(:,3:3)-8.613*x(:,4:4)) r=q/t附录:习题2.6学生化残差r=1.38571.45781.36560.1325-0.2725-0.3358-0.1514-0.26650.3002-0.07400.5535-0.1200-0.01840.2006-1.2333-1.43580.5614-1.6275-1.2451-0.96480.0273-1.09480.2312-0.8816-0.57931.13030.88131.2355-0.6102-0.73722.1526习题2.9学生化残差r =-0.0558-1.15630.24080.15300.4069-0.6459-1.3453-0.1718-0.74760.06091.35451.1860-1.3953-1.65331.2882-0.33501.45510.7065-1.19110.71660.35900.58530.22361.实验内容(1)掌握主成份分析与典型相关分析的思想和计算步骤;(2)编写程序完成主成份分析与典型相关性分析的计算;2.模型建立与求解(数据结构与算法描述)1.计算样本主成分的步骤:(1)计算样本协方差矩阵S和相关系数矩阵R:(2)计算S的特征值和相应的正交化特征向量:,(3)第K个样本的得分样本方差:(4)前M个样本主成分的累加贡献率:(5)选取m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可达到降低原始数据维数的目的,同时也不致损失原始数据太多信息。

2.计算样本典型变量相关系数的步骤:(1)计算样本的协方差矩阵:(2)计算A,B矩阵的特征值和正交化向量(3)第K个样本典型相关变量为:3.实验数据与实验结果习题4.5解:在MATLAB中输入程序(见附录)样本相关系数矩阵R为:1 0.3336 -0.0545 -0.0613 -0.2894 0.1988 0.3487 0.31870.3336 1 -0.0229 0.3989 -0.1563 0.7111 0.4136 0.835 -0.0545 -0.0229 1 0.5333 0.4968 0.0328 -0.1391 -0.2584 -0.0613 0.3989 0.5333 1 0.6984 0.4679 -0.1713 0.3128 -0.2894 -0.1563 0.4968 0.6984 1 0.2801 -0.2083 -0.0812 0.1988 0.7111 0.0328 0.4679 0.2801 1 0.4168 0.7016 0.3487 0.4136 -0.1391 -0.1713 -0.2083 0.4168 1 0.3989 0.3187 0.835 -0.2584 0.3128 -0.0812 0.7016 0.3989 1对应的特征值为:3.0963 2.3672 0.92 0.7059 0.4984 0.0515 0.1308 0.2299 所以各主成分的贡献率为:X1 0.387 X5 0.0623X2 0.2959 X6 0.0064X3 0.115 X7 0.0163X4 0.0882 X8 0.0287 前两个主成分的累加贡献率为:0.3870+0.2959=0.6859各省市按照第一主成分排序,结果如下:海南河南宁夏西藏广西广东陕西湖北辽宁江苏天津内蒙古山西北京四川福建甘肃上海黑龙江新疆青海河北吉林浙江湖南云南山东安徽贵州江西习题4.10解:在MATLAB中输入程序(程序见清单二):得到相关系数矩阵R:1 0.9362 0.49340.9362 1 0.76770.4934 0.7677 1对应的特征值为:0.41660.90914 程序清单:清单一a=[8.35 23.53 7.51 8.62 17.42 10 1.04 11.219.25 23.75 6.61 9.19 17.77 10.48 1.72 10.518.19 30.5 4.72 9.78 16.28 7.6 2.52 10.327.73 29.2 5.42 9.43 19.29 8.49 2.52 109.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.819.09 28.12 7.4 9.62 17.26 11.12 2.49 12.659.41 28.2 5.77 10.8 16.36 11.56 1.53 12.178.7 28.12 7.21 10.53 19.45 13.3 1.66 11.966.93 29.85 4.54 9.49 16.62 10.65 1.88 13.618.67 36.05 7.31 7.75 16.67 11.68 2.38 12.889.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25 7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.18 40.91 7.32 8.94 17.6 12.75 1.14 14.88.82 33.7 7.59 10.98 18.82 14.73 1.78 10.1 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.39 10.6 52.41 7.7 9.98 12.53 11.7 2.31 14.697.27 52.65 3.84 9.16 13.03 15.26 1.98 14.57 13.45 55.85 5.5 7.45 9.55 9.52 2.21 16.310.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57 7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.69 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87 7.78 48.44 8 20.51 22.12 15.73 1.15 16.617.94 39.65 20.97 20.82 22.52 12.41 1.75 7.98.28 64.34 8 22.22 20.06 15.12 0.72 22.8912.47 76.39 5.52 11.24 14.52 22 5.46 25.5];r=corrcoef(a);b=eig(r)for i=1:8e=b(i)/sum(b)end清单二:a=[60 69 62 97 69 9856 53 84 103 78 10780 69 76 66 99 13055 80 90 80 85 11462 75 68 116 130 9174 64 70 109 101 10364 71 66 77 102 13073 70 64 115 110 10968 67 75 76 85 11969 82 74 72 133 12760 67 61 130 134 12170 74 78 150 158 10066 74 78 150 131 14283 70 74 99 98 10568 66 90 119 85 10978 63 75 164 98 138103 77 77 160 117 12177 68 74 144 71 15366 77 68 77 82 8970 70 72 114 93 12275 65 71 77 70 10991 74 93 118 115 15066 75 73 170 147 12175 82 76 153 132 11574 71 66 143 105 10076 70 64 114 113 12974 90 86 73 106 11674 77 80 116 81 7767 71 69 63 87 7078 75 80 105 132 8064 66 71 83 94 13371 80 76 81 87 8663 75 73 120 89 5990 103 74 107 109 10160 76 61 99 111 9848 77 75 113 124 9766 93 97 136 112 12274 70 76 109 88 10560 74 71 72 90 7163 75 66 130 101 9066 80 86 130 117 14477 67 74 83 92 10770 67 100 150 142 14673 76 81 119 120 11978 90 77 122 155 14973 68 80 102 90 12272 83 68 104 69 9665 60 70 119 94 8952 70 76 92 94 100];b=a';r=corrcoef(b);r11=r(1:3,1:3);r21=r(4:6,1:3);r12=r21';r22=r(4:6,4:6);R=corrcoef(inv(r11)*r12*inv(r22)*r21) lamda=eig(R);p=sqrt(lamda)。

相关主题