当前位置:文档之家› 数据分析大作业讲解

数据分析大作业讲解

第一章数据描述分析(一)目的与要求:掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。

掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。

理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。

(二)重点与难点:掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。

区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。

掌握多元数据的数字特征及相关性的判断,并会应用程序结果。

1.1 某小学60名11岁学生的身高(单位:cm)数据如下:(1)计算均值、方差、标准差、变异系数、偏度、峰度;(2)计算中位数、下和上四分位数、四分位极差、三均值;(3)作出直方图;(4)作出茎叶图;α=);(5)进行正态W检验(0.05(6)进行经验分布函数的2χ检验。

126 149 143 141 127 123 137 132 135 134 146 142135 141 150 137 144 137 134 139 148 144 142 137147 138 140 132 149 131 139 142 138 145 147 137135 142 151 146 129 120 143 145 142 136 147 128142 132 138 139 147 128 139 146 139 131 138 1491.2 1949-1980年全国历年人口(单位:亿人)如下:(1)计算均值、方差、标准差、变异系数、偏度、峰度;(2)计算中位数、下、上四分位数、四分位极差、三均值;(3)作出直方图;(4)作出茎叶图;(5)找出异常值。

α=);(6)进行正态W检验(0.05(7)进行经验分布函数的2χ检验。

5.4167 5.5196 5.6300 5.7482 5.87966.02666.1465 6.2828 6.4653 6.5994 6.7207 6.62076.5859 6.7295 6.91727.0499 7.2538 7.45427.6368 7.8534 8.0671 8.2992 8.5229 8.71778.9211 9.0859 9.2420 9.3717 9.4974 9.62599.7542 9.8705 10.0072 10.1541 10.249510.3475 10.45321.3 1978年至1999年我国居民消费数据如表1.3所示(1)计算均值、方差、标准差、变异系数、偏度、峰度;(2)计算中位数、下、上四分位数、四分位极差、三均值;(3)作出直方图;(4)作出茎叶图;(5)找出异常值。

1978 184 138 4051979 207 158 4341980 236 178 4961981 262 199 5621982 284 221 5761983 311 246 6031984 354 283 6621985 437 347 8021986 485 376 9201987 550 417 10891988 693 508 14311989 762 553 15681990 803 571 16861991 896 621 19251992 1070 718 23561993 1331 855 30271994 1746 1118 38911995 2336 1434 48741996 2641 1768 54301997 2834 1876 57961998 2972 1895 62171999 3180 1973 66511.4 2002年11月以及1至11月全国各省、市、区财政预算收入数据如下:(1)计算均值、方差、标准差、变异系数、偏度、峰度;(2)计算中位数、下、上四分位数、四分位极差;(3)作出直方图;(4)作出经验分布函数图;(5)X1和X2的观测值的pearson相关系数与spearman相关系数。

北京35.22 499.80天津10.41 161.37河北17.22 273.29山西10.70 134.79内蒙古10.29 90.92辽宁18.66 348.99吉林 4.41 106.89黑龙江 6.24 196.44上海49.72 656.95江苏47.70 580.70浙江36.55 518.10安徽14.85 179.41福建19.46 250.16江西10.93 122.06山东40.26 552.74河南19.82 268.20湖北19.49 221.43湖南16.01 197.68广东99.32 1080.26广西14.77 160.60海南 3.96 39.51重庆10.49 111.76四川21.71 250.09贵州13.06 95.87云南20.34 183.62西藏0.77 6.08陜西11.38 133.50甘肃 3.66 64.86青海 1.21 18.30宁夏 2.31 23.81新疆 3.24 103.811.5 对某民族的21人测量其血液4种成分的含量,观测数据如下:求总体均值向量μ及总体协方差矩阵∑的估计。

18.8 28.1 5.1 35.117.4 25.6 4.9 33.916.0 27.4 5.0 32.219.3 29.5 1.7 29.117.4 27.4 4.5 35.615.3 25.3 3.6 32.216.7 25.8 4.4 33.017.4 26.7 4.4 33.016.2 25.7 2.3 33.916.7 26.7 6.4 35.018.2 28.0 3.2 29.716.7 26.7 2.1 34.918.1 26.7 4.3 31.516.7 26.0 3.0 32.718.1 30.2 7.0 34.920.2 30.5 4.8 34.420.2 29.5 5.5 36.221.5 31.5 5.8 36.518.8 30.6 5.4 35.421.6 27.8 5.4 34.121.3 29.5 5.8 35.81.7 一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:(1) 计算观测数据均值向量和中位数向量;(2) 计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。

9.0 12.0 3.08.5 15.0 3.013.0 19.0 3.010.0 7.0 4.07.0 13.0 2.515.5 28.5 5.022.5 20.0 4.55.5 8.5 3.025.0 35.0 6.515.0 19.0 4.012.5 20.0 3.017.0 19.5 5.016.0 17.5 6.020.0 20.0 7.512.0 17.0 4.022.0 20.0 6.017.0 28.0 5.516.0 18.0 3.021.0 27.5 6.013.0 14.0 4.021.0 13.0 9.021.0 6.0 3.513.5 6.5 3.55.0 7.5 3.516.0 20.0 5.514.5 14.5 4.010.0 23.0 6.011.0 13.0 6.010.5 12.0 3.515.0 15.5 3.09.0 12.5 5.023.0 24.0 6.514.0 21.0 6.516.0 11.0 3.016.5 17.0 4.016.0 15.0 3.012.0 15.5 3.59.0 4.0 2.012.0 6.0 5.05.0 14.0 3.017.0 15.0 4.516.0 11.0 3.017.5 18.0 3.011.5 15.0 3.04.0 3.0 2.017.5 15.0 4.59.5 11.5 2.526.0 38.0 4.015.0 13.0 4.519.0 12.0 3.0第二章 线性回归分析(一)目的与要求:掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。

(二)重点与难点:会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS 输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。

2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y (单位:箱)与该城市中适合使用该化妆品的人数X 1(单位:千人)以及他们人均月收入X 2(单位:元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:(1) 求回归系数012,,βββ的最小二乘估计和误差方差2σ的估计,写出回归方程并对回归系数作解释;(2) 求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方2R 的值并解释其意义;(3) 分别求1β和2β的置信度为95%的置信区间;(4) 对0.05α=,分别检验人数X 1及收入X 2对销量Y 的影响是否显著,利用与回归系数有关的一般假设方法检验X 1和X 2的交互作用(即X 1X 2)对Y 的影响是否显著;(5) 该公司欲在一个适宜使用该化妆品的人数X 01=200,人均月收入X 02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;(6) 求Y 的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ 图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性。

162 274 2450120 180 3254223 375 3802131 205 283867 86 2347169 265 378281 98 3008192 330 2450116 195 213755 53 2560252 430 4020232 372 4427144 236 2660103 157 2088212 370 26052.5 下面的数据是由特定模型产生的20组模拟数据(1) 首先拟合Y 关于X 的线性回归模型,结果如何?通过残差分析(尤其是残差图分析)并参考Y 与X 的散点图,选择你认为合理的回归函数形式,拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性,最后,将你所拟合的回归方程与真实模型(25(1),~(0,0.625)Y X N εε=+-+)比较,你是否给出了正确的模型形式。

相关主题