北京建筑大学理学院信息与计算科学专业实验报告课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期2016 . 3 .17 姓名班级学号指导教师成绩【实验目的】(1)熟悉数据的基本统计与非参数检验分析方法;(2)熟悉撰写数据分析报告的方法;(3)熟悉常用的数据分析软件SPSS。
【实验要求】根据各个题目的具体要求,完成实验报告【实验内容】根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历对家庭收入、现住面积是否有显著影响,撰写相应的分析报告。
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显著差异,撰写相应的分析报告。
根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家现住面积是否有显著影响,撰写相应的分析报告。
根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥是否有显著影响,撰写相应的分析报告。
【分析报告】1.表一家庭收入和现住面积的基本描述统计量家庭收入现住面积N 有效2993 2993缺失0 0均值17696.1567 62.7241均值的标准误279.64310 .47349中值15000.0000 60.0000众数10000.00 60.00标准差15298.80341 25.90383方差 2.341E8 671.008偏度 5.546 .910偏度的标准误.045 .045峰度55.425 3.078峰度的标准误.089 .089百分位数25 10000.0000 45.000050 15000.0000 60.000075 20000.0000 80.0000表一说明,家庭收入方面:被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;现住面积方面:被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米;现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。
图一:家庭收入直方图该图表明,家庭收入分布存在一定的右偏。
图二:现住面积直方图该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。
图三:学历与家庭收入直方图表二表明:首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的96.8%,2.6%,0.3%,0.1%,0.2%,收入在0~5w的占较大比例。
其次,对不同学历进行分析。
在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在5w~10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w~10w之间;在大学学历中92.9%的家庭收入在5万以下,5.7%的在5w~10w之间;在研究生及以上学历中85.3%的家庭收入在5万以下,8.8%的家庭收入在5w~10w,2.9%的家庭收入在10w~15w之间。
最后,对家庭收入进行分析。
在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。
由此可以得出,学历与家庭收入有一定的联系。
但是,样本中的各学历的样本量存在一定的悬殊。
这些结论从图中可以直观的展现出来。
表三:不同学历的家庭收入的一致性检验结果數值df 漸近顯著性(2端)皮爾森 (Pearson) 卡方102.257a12 .000 概似比81.387 12 .000本检验的原假设是:不同学历对家庭收入是否有显著影响。
如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显著影响。
这种无影响主要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例图四:不同学历与现住面积的直方图表四表明:首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;现住面积为0~60m2,60~120m2,120~180m2,180~240m2,240~300m2的样本量分别为1413,1478,99,2,1,各占样本的47.2%,49.4%,3.3%,0.1%,0.0%,现住面积在第一和第二种情况下居多。
其次,对不同学历进行分析。
在初中及以下学历中,58.8%的现住面积为60m2以下,38.1%的现住面积在60~120m2之间,3%的现住面积在120~180m2之间;在高中学历中,52.3%的现住面积为60m2以下,45.6%的现住面积在60~120m2之间,2%的现住面积在120~180m2之间;在大学学历中,30.5%的现住面积为60m2以下,64%的现住面积在60~120m2之间,5.5%的现住面积在120~180m2之间;在研究生及以上学历中,26.5%的现住面积为60m2以下,70.6%的现住面积在60~120m2之间,2.9%的现住面积在120~180m2之间。
最后,对家庭收入进行分析。
在现住面积为60m2以下及60~120m2的样本中,学历为高中的占大多数;在现住面积120~180m2的样本中,大学学历的占大多数。
由此可以得出,学历与家庭收入有一定的联系。
但是,样本中的各学历的样本量存在一定的悬殊。
这些结论从图四中可以直观的展现出来。
表四:不同学历的现住面积的一致性检验结果數值df 漸近顯著性(2端)皮爾森 (Pearson) 卡方174.891a12 .000概似比178.938 12 .000線性對線性關聯131.429 1 .000有效觀察值個數2993a. 9 資料格 (45.0%) 預期計數小於 5。
預期的計數下限為 .01。
本检验的原假设是:不同学历对现住面积是否有显著影响。
如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为现住面积与家庭收入是否无显著影响。
这种无影响主要体现在现住面积小的比例在低学历中低于总体比例,而现住面积大的在比例在低学历中高于总体比例。
3.由表五可知,2993个家庭的家庭收入的平均值为17696元,标准差为15298.8元,均值标准误差为279.64。
由表六可知,,第二列t统计量的观测值为27.521;第三列的自由度为2992;第四列的t统计量的观测值的双尾概率P-值为0;第六列和第七列是总体均值与原假设值差的95%的置信区间(7147.84,8244.47),由此计算出总体均值的95%的置信区间为(8147.84,9244.47)元。
该问题应采用双尾检验,因此比较a/2与p/2,也就是比较a与p。
如果a取0.05,由于p小于0.05,因此拒绝假设,认为家庭收入的平均值与10000元有显著的差异。
95%的置信区间告诉我们有95%的把握人为家庭收入的均值在8147.84~9244.47元之间,10000元没有包含在置信区间内,也证实了上述推断。
4.表八是已婚和未婚家庭现住面积的均值检验结果。
第一步,该检验的F统计量为0.410,对应的概率为0.522.如果显著水平a为0.05,由于概率P值大于0.05,可以认为两总体的方差无显著差异。
第二步,由于两样本方差无显著差异,因此应看第三行t检验的结果。
其中,t统计量的观测值为2.439,对应的双尾概率P 值为0.015.如果显著性水平a为0.05,由于概率P小于0.05,可以认为两总体样本有显著差异,即已婚与未婚家庭的家庭收入的平均值有显著差异。
5.表九表明,喝茶前和喝茶后样本的平均值有较大的差异。
喝茶后的平均体重低于喝茶前的平均体重。
表十表明,在显著性水平为0.05时,肥胖志愿者服用减肥茶前后的体重有明显的线性变化,喝茶前和核查后体重的线性相关程度较强表十一,第二列是喝茶前后体重的平均差异,相差了14.8公斤;第三列是差值样本的标准差;第四列是差值样本均值抽样分布的标准差;第五列是差值95%的置信区间的下限和上限;第七列是t检验统计量的观测值;第八列示t分布的自由度;第九咧是t检验统计量观测值对应的双尾概率P值,接近零。
如果显著性水平a为0.05,由于概率P值小于显著性水平,应拒绝原假设,即认为总体上体重差的平均值与0无显著不同,意味着喝茶前和喝茶后的体重平均值无显著差异,可以认为该减肥茶无显著的减肥效果。