统计分析综合实验考题一.样本数据特征分析:要求收集国家统计局2011年与2000年全国人口普查相关数据,进行二者的比较,然后写出有说明解释的数据统计分析报告,文字通顺,对统计结果的说明分析重点突出,几条要求如下:1.报告必须包含所收集的原始数据表,至少包括总人口,流动人口,城乡、性别、年龄、民族构成,教育程度,家庭户人口八大指标;2.报告中必须有针对某些指标的条形图,饼图,直方图以及累计频率条形图,(茎叶图可选作)3.采用适当方式分别检验二次调查得到的人口年龄比例以及教育程度这两个指标是否有显著不同,写明检验过程及结论。
二.一元线性回归分析:回归模型:自由建立,如将某地人均食品消费支出与人均收入作为因变量与解释变量,或某地家用汽车消费量与人均收入作为因变量与解释变量等均可。
统计分析报告必须写明:实际问题的背景,所采用的模型与数据来源,至少有20个原始的样本数据,回归方差分析表以及回归系数及显著性检验表(5%),回归系数的95%置信区间,散点图,分析结论,应用价值等均不可缺少。
特别提醒:按时交打印稿并且附此试题!统计分析综合实验答题一、样本数据特征分析2000年全国人口普查与2011年全国人口普查相关数据分析报告2011年第六次全国人口普查数据显示,总人口数为1339724852,比2000年的第五次人口普查的1242612226人次,总人口数增加97112626人,增长7.82%,平均年增长率为0.78%。
(二)家庭户人口2000年人口普查家庭户人口数共有1178271219人,有家庭户340491197,平均每个家庭3.46人。
2011年增长到1244608395人,平均每个家庭户的人口为3.10人,比2000年减少0.36人。
(三)流动人口2011年人口普查数据中,居住地与户口登记地所在的乡镇街道不一致且离开户口登记地半年以上的人口为261386075人,同2000年第五次全国人口普查相比,居住地与户口登记地所在的乡镇街道不一致且离开户口登记地半年以上的人口增加116995327人,增长81.03%。
(四)城乡构成2000年农村居民人口数为783841243人,占63.08%;城镇居民则有458770983人,占36.92%。
2011年人口普查显示居住在城镇的人口为665575306人,占49.68%;居住在乡村的人口为674149546人,占50.32%。
通过下面的条形图可以清楚的看到2000年—2011年十年间,农村居民减少而城镇居民增加,通过进一步计算可以得知城镇人口比重上升12.76个百分点。
城乡人口复式条形图 城乡人口堆积面积图(五)性别构成2000年第五次人口普查男性人口为640275969人占51.53%;女性人口为602336257人,占48.47%。
2011年第六次人口普查显示男性人口为686852572人,占51.27%;女性人口为652872280人,占48.73%。
通过下面的饼图可以放大百分比上些微的变化(两个年份左边较小的部分均为女性人口数),总人口性别比(以女性为100,男性对女性的比例)由2000年第五次全国人口普查的106.31下降为105.20。
根据上面给出的原始数据表,两次普查的年龄构成大致如下。
2000年人口普查:0-14岁人口为284527594人,占22.90%;15-59岁人口为828106762人,占66.64%;60岁及以上人口为 129977870人,占10.46%。
20011年人口普查:0-14岁人口为222459737人,占16.60%;15-59岁人口为939616410人,占70.14%;60岁及以上人口为177648705人,占13.26%。
为了进一步分析各年龄段,根据联合国卫生组织的新划分标准将年龄进一步细分,用直方图进行分析。
原始数据整理如下:两次人口普查年龄数据 单位(人)年龄段2000年 2011年 少儿(0~14岁) 284527594 221322621 青年(15~44岁) 632911142 668233610 中年(45~59岁)195195620265660198男女人口数饼图通过直方图的分布可以得出,两次统计结果显示了相似的正态分布。
青年人口数量占有绝对较高的比例。
具体看到各个年龄段的人口变化(为了方便陈述,以数值代指各年龄段),年龄段1有较明显的人口数量减少,年龄段2、3、4、5在其原有基础上缓慢增长,年龄段3取代年龄段1变为人口数第二的年龄段。
由于年龄段6人口数始终较少,在处理数据过程中其特征无法被放大,2000年年龄段6的频数为0.242,2011年增长到0.496,其增长比例是最为显著的,说明随着社会经济的发展高龄老年人数量逐渐增多。
(七)民族构成2000年普查,汉族人口为1137386112人,占91.53%;少数民族人口为105226114人,占8.47%。
2011年普查,汉族人口为1225932641人,占91.51%;各少数民族人口为113792211人,占8.49%。
(八)教育程度2000年人口普查时,具有大学(大专及以上)文化程度的人口为44020145人;具有高中(含中专)文化程度的人口为138283459人;具有初中文化程度的人口为422386607人;具有小学文化程度的人口为441613351人,文盲人口(15岁及以上不识字的人)为85069667人。
2011年,具有大学(大专及以上)文化程度的人口为119636790人;具有高中(含中专)文化程度的人口为187985979人;具有初中文化程度的人口为519656445人;具有小学文化程度的人口为358764003人,文盲人口(15岁及以上不识字的人)为54656573人。
以累计频率条形图对教育程度进行进一步分析,类似于年龄构成的数据处理方法,以500万为单位对各个文化段的人口数进行调整,得出具体的个体值,再利用SPSS软件分别作出两次普查教育程度的累计频率条形图。
第五次普查教育程度数据累计频率条形图从上图可以看到大学(大专及以上)文化程度的人口占比特别低。
累计高中以上文化程度为20%不到,累计初中以上文化程度为50%左右,累计小学以上文化程度为90%左右。
通过简单的相减可以得出结论,占比最大的文化段应该在小学文化程度。
另外注意到小学文化程度过后的文盲,占比约有10%。
第六次普查教育程度数据累计频率条形图单从两次普查三个年龄段的数据来看,表1和表2给出了各自的的均值、标准差、均值标准误差以及两次数据的相关系数,可以看出前后两次统计并没有发生显著的变化。
表3配对样本t检验结果,包括配对变量差值的均值、标准差、均值标准误差以及差值的95%置信度下的区间估计,给出了t统计量和p值。
结果显示p=0.588>0.05,所以,第五次人口普查和第六次人口普查在上述三个年龄段得到的人口数据没有显著不同。
表1:两次人口普查三个年龄段(0—14岁,15—59岁,60岁及以上)的描述统计量Paired Samples StatisticsMean N Std. Deviation Std. Error Mean Pair 1 第五次人口普查 4.14E8 3 3.667E8 2.117E8 第六次人口普查 4.47E8 3 4.276E8 2.469E8 表2:两次人口普查三个年龄段(0—14岁,15—59岁,60岁及以上)数据的相关系数Paired Samples CorrelationsN Correlation Sig.Pair 1 第五次人口普查&第六次人口普查3 .987 .102表3:配对样本T检验结果Paired Samples TestPaired Differencest dfSig. (2-tailed)MeanStd.DeviationStd. ErrorMean95% Confidence Interval of theDifferenceLower UpperPair 1 第五次人口普查-第六次人口普查-3.237E7 8.779E7 5.069E7 -2.505E8 1.857E8 -.639 2 .588(十)对两次普查人口教育程度这一指标是否有显著不同的检验。
这一指标下人口数分为五个:大学(大专及以上)文化程度人口数;高中(含中专)文化程度人口数;初中文化程度人口数;小学文化程度人口数;文盲(15岁及以上不识字)人口数。
单从两次普查五个分段的教育程度数据来看,表4和表5给出了各自的的均值、标准差、均值标准误差以及两次数据的相关系数,可以看出前后两次统计并没有发生显著的变化。
表6配对样本t检验结果,包括配对变量差值的均值、标准差、均值标准误差以及差值的95%置信度下的区间估计,给出了t统计量和p值。
结果显示p=0.451>0.05,所以,第五次人口普查和第六次人口普查在教育程度得到的人口数据没有显著不同。
表4:两次人口普查教育程度的描述统计量Paired Samples StatisticsMean N Std. Deviation Std. Error MeanPair 1 第五次人口普查 2.62E8 4 2.007E8 1.003E8第六次人口普查 2.97E8 4 1.796E8 8.978E7表5:两次人口普查教育程度数据的相关系数Paired Samples CorrelationsN Correlation Sig.4 .915 .085Pair 1 第五次人口普查&第六次人口普查表6:二、一元线性回归分析——江苏省南通市1993年—2006年农村人均收入与人均食品支出之间的关系(一)实际问题背景影响居民消费的因素很多,包括社会的、历史的、经济的、预期收入等多方面因素,但最主要的是经济方面的因素。
在市场经济条件下,收入是决定居民消费的最主要原因。
而食品支出作为消费中最为基础的生存型消费,具有较高的研究价值。
另一方面,消费、投资、净出口是拉动经济增长的“三驾马车”,近年来,国民经济持续快速发展,但居民消费对经济增长贡献却在逐步走低,居民消费的增长低于经济的增长,而其中农村居民的消费又更弱于经济的快速发展。
提升农村居民的消费水平,对于增加居民消费对经济增长的贡献份额,提高经济运行质量具有重要的现实意义。
本次分析以江苏省南通市农村居民十五年的人均收入和人均食品支出为样本,进行线性回归分析,研究两个变量之间的关系。
进而了解该地区农村经济和消费情况,提出合理建议。
(二)数据来源从江苏省统计局网站上取得1993年—2006年各年江苏省南通市农村的人均收入和人均食品支出的数据,以及中国统计局网站上得到的各年居民消费价格指数(CPI)。
为了剔除价格因素对人均消费和人均收入的影响,需要对原始数据进行调整。