《数据模型与决策》案例1关于“失业问题研究”的案例报告2010级5班第1组提交日期:2011年4月23日目录Ⅰ. 组员 (1)Ⅱ. 讨论记录 (1)Ⅲ. 案例介绍与背景分析 (2)一、案例全文 (2)二、案例背景分析 (3)Ⅳ. 问题求解及分析 (4)一、求失业人员年龄均值的区间估计的原理方法和计算过程 (4)二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失业时间(14.6周)及结论 (6)三、失业人员年龄与失业时间长短之间关系的分析 (8)Ⅲ. 案例介绍与背景分析一、案例全文美国人口统计署每个月公布一次失业方面的统计数据,容包括失业人数和失业时间等。
1998年11月,据美国人口统计署报告,美国失业人员失业时间的均值为14.6周。
费城市市长要求对费城地区的失业状况进行一次调查研究。
选取50名费城的失业居民组成一个样本,记录他们的年龄以及失业时间(以周为单位)。
下面是1998年11月收集的部分数据。
全部数据可供我们使用,它们被保存在书本附带的光盘中,文件名为给BLS。
管理报告1、利用描述统计量对数据进行汇总。
2、求费城失业人员年龄均值的95%置信区间估计。
3、进行假设检验确定费城失业人员失业时间是否高于全国失业人员失业时间的均值14.6周。
取显著性水平为0.01.你得到什么结论?4、失业人员年龄与失业时间长短有关系吗?为什么?二、案例背景分析作为失业统计的主要容之一,对失业人员年龄与失业时间进行调查分析,可以为地方行政首长的施政提供重要决策依据。
失业时间概念的引入在一定程度上克服了只统计人数失业率指标的局限性,通过过滤掉因为换工作或其他临时性原因造成的暂时脱离工作的状态,来降低对统计数据的影响。
实践证明失业人员的失业时间是比失业人员数量更有意义的统计指标。
在一般性分析中,人口结构的老龄化是导致失业人数增加的一个结构性原因。
对失业人员的年龄分析,特别是通过数据统计手段揭示失业人员年龄与失业时间的在联系,是施政者正确判断当前失业形势重要依据。
通过分析得出判断,认定是经济原因主导还是年龄结构原因主导尤为重要,决策者往往以此为依据做出政策调整。
本案例就是以费城市为例,尝试进行失业人员失业时间的统计分析,以及用统计学方法检验“失业时间与失业年龄有着密切关系”这一假设。
Ⅳ. 问题分析及求解一、求失业人员年龄均值的区间估计的原理方法和计算过程根据案例提供的费城市失业统计资料,可以看到这次数据分析采用了一个容量为50的样本数据,容包括失业人员的年龄和失业时间等两项数据。
需要根据这些样本数据估计出失业人口平均年龄的区间估计。
由于我们并没有关于总体标准差的一个好的估计,在这种情形下就必须利用同一样本来估计总体的均值和标准差。
在此之前,先分析费城失业人口年龄调查的抽样分布:利用描述统计量做一些必要的数据汇总。
可以利用excel 2007的数据分析工具进行描述统计工作:勾选“汇总统计”和“平均数置信度”选框,其中置信度根据案例要求,填入95%。
Execl自动进行数据汇总,结果如表一所示。
其中样本的失业年龄平均值()、和失业年龄的样本标准差(s)可以用来估计失业年龄总体的平均值和95%置信水平下的边际误差(ME)。
我们发现,其实数据汇总时已将边际误差(ME)算出,就是表一中“置信度”一项的数值。
以下将用统计方法计算、验证这一数值。
分析样本数据,峰值59的z-分数=表一样本数据汇总失业年龄失业时间(周)平均36.6 平均15.54标准误差 1.689342 标准误差 1.403846029中位数34 中位数13.5众数27 众数7标准差11.94545 标准差9.926690469方差142.6939 方差98.53918367峰度-1.14515 峰度0.053711356偏度0.357283 偏度0.9107658区域39 区域38最小值20 最小值 1最大值59 最大值39求和1830 求和777观测数50 观测数50置信度(95.0%) 3.39486置信度(95.0%)2.821134164同样利用Excel分析出失业人员样本的年龄构成分布如上图所示。
虽然不能假设总体年龄的分布服从正态分布,但是从表一中可知样本偏度=0.36,同时样本容量50已经足够大且样本数据不存在异常值,因此可以利用t分布来进行总体均值的近似区间估计。
当利用样本标准差s代替总体标准差进行总体均值区间估计时,公式为:式中s为样本标准差;1-是置信系数;是自由度为n-1时t分布的上侧面积为的值。
其中,就是总体均值估计的边际误差,则是总体均值的点估计值。
总体均值的95%置信区间也可以表示成(,)。
用软件可以计算出,如下图。
根据案例条件:;自由度df=50-1=49得到则边际误差ME计算结果与Excel相同,费城失业人口年龄总体均值的95%置信区间为。
还可以直接用minitab软件计算。
将均值36.6、标准差11.9455、样本容量为50、置信水平95%等参数输入minitab进行备择为不等于的单样本t计算,结果如下:二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失业时间(14.6周)及结论我们需要检验总体费城失业人口的失业时间是否高于14.6周,但我们并不知道总体失业时间的标准差。
在这种情形下,必须利用样本同时估计和,即对总体进行假设检验时,利用样本均值估计,用样本标准差s估计。
如同我们在对总体均值进行区间估计时一样,仍然基于t分布进行假设检验。
统计实践表明,在样本容量大于等于50的情形下,假设检验统计量服从自由度为n-1的t分布,这样的近似精确度能够满足使用要求。
总体均值假设检验的检验统计量公式为:我们要进行一个假设检验,决定拒绝H将导致得出费城失业人口的失业时间的总体均值比14.6大的结论。
因此,需采用Ha:的上侧检验。
原假设备择假设检验中采用0.01的显著性水平根据数据汇总的结果:查下页的t分布表,得到在自由度为49的情形下,上侧面积为0.01时,t=2.405。
我们观察到,t值越大,上侧面积越小。
上侧面积的几何含意是支持原假设的概率“P-值”,P-值越小对原假设的支持度就越小,当P-值小于显著性水平,我们就得出拒绝原假设的结论,也就是说本次检验的拒绝域是。
因为检验统计量,落在拒绝域外,所以不能得出拒绝原假设的结论,认为费城失业人口的失业时间不大于全美失业人口的平均失业时间14.6周。
我们同样可以用minitab软件进行假设检验,把有关参数输入软件后,minitab的计算结果如下。
结果: Bls.mtw单样本 T: Weeksmu = 14.6 与 > 14.6 的检验平均值变量 N 平均值标准差标准误 99% 下限 T PWeeks 50 15.54 9.93 1.40 12.16 0.67 0.253不难看到minitab同样算出t=0.67,而且精确给出P-值为0.253。
因为P-值大于显著性水平0.01,就是说支持原假设的概率大于给定的显著性水平,同样得出了不能拒绝原假设的结论。
而且minitab还算出,样本数据显示在0.01的显著性水平下原假设成立的假设均值下限是12.16,高于这个数值的假设均值都不会导致原假设被拒绝。
三、失业人员年龄与失业时间长短之间关系的分析通过考察样本数据中的“失业年龄”和“失业时间”这两个变量的独立性,我们可以检验出失业人员的失业时间和年龄有没有关系。
为了得到独立性检验的数据,可以将样本数据中的年龄和失业时间,分段统计频数构造出列联表。
在失业人员的年龄和失业时间不相干(独立)的假设下,如果能够确定各分段的期望频数,就可以利用分布来确定观察频数和期望频数之间是否存在显著差异。
这个独立性检验的假设为:首先利用excel软件处理样本数据,构造列联表。
观察表一的汇总数据,发现失业人口年龄的极值为20和59,现尝试将数据划分为20~29,30~39,40~49,50~59四个区段;失业时间的极值为1和39,尝试将数据划分为1~9,10~19,20~29,30~39四个区段,于是得到表二所示列联表。
表二样本数据分段方案年龄失业时间(周)1-10 11-20 21-30 31-40 合计20-29 10 8 1830-39 5 5 1 1140-49 2 5 3 2 1250-59 3 1 5 9合计17 21 5 7 50 独立性假设下,列联表中的期望频数公式:检验要求所有类别的期望频数都大于或等于5。
观察到如表二分类方式有的类别的期望频数小于5,所以将每个失业人口每失业一周记一次频数,得到新的列联表,表三。
如果独立性假设为真,我们运用期望频数公式计算出期望频数,并将列联表中位于第i行和第j列的数值表示为,据此得到表四。
在表四中,我们看到每个类别的期望频数均大于5。
表三 费城失业人口年龄与失业时间样本数据(观察频数)表四 费城失业人口年龄与失业时间期望频数接下来用检验期望频数与观察频数的拟合优度。
如果原假设成立,期望频数应能与观察频数拟合,反之则拒绝原假设。
独立性检验统计量公式:(其中为观察频数,为期望频数)经计算,的自由度为列联表中求和项:Weeks失业总周数 年龄 1-10 11-20 21-30 31-40 合计 20-29 60 112 172 30-39 34 71 23 128 40-49 10 83 73 71 237 50-59 43 22 175 240 合计104309118246777年龄 失业总周数1-10 11-20 21-30 31-40 合计 20-29 23.02 68.40 26.12 54.46 172 30-39 17.13 50.90 19.44 40.53 128 40-49 31.72 94.25 35.99 75.03 237 50-59 32.12 95.44 36.45 75.98 240 合计104309118246777查分布表,自由度为9,对应上侧面积为0.01的值为21.666。
显然,越大,上侧面积越小;所以在0.01的显著性水平下,本次独立性检验的拒绝域是。
计算出来的检验统计量,得出结论拒绝原假设,认为在费城的失业人口中年龄与失业时间不独立,两者存在相关性。
我们也可以用minitab软件进行两个变量的独立性检验:按表三构造的列联表数据填入minitab,计算结果如下页显示,P-值=0.0000,同样得出了拒绝原假设,两个变量不独立的结论。
Minitab软件截图卡方检验: C1, C2, C3, C4在观测计数下方给出的是期望计数在期望计数下方给出的是卡方贡献C1 C2 C3 C4 合计1 60 112 0 0 17223.02 68.40 26.12 54.4659.395 27.789 26.121 54.4562 34 71 23 0 12817.13 50.90 19.44 40.5316.606 7.934 0.652 40.5253 10 83 73 71 23731.72 94.25 35.99 75.0314.874 1.343 38.052 0.2174 0 43 22 175 24032.12 95.44 36.45 75.9832.124 28.817 5.727 129.027合计 104 309 118 246 777卡方 = 483.659, DF = 9, P 值 = 0.000根据上述分析结果得出判断,失业人员年龄与失业时间长短之间是存在关系的。