当前位置:文档之家› 假设检验与方差分析

假设检验与方差分析

实验四 假设检验实验目的:通过此实验熟练掌握如何利用假设检验工具根据不同条件选择相应检验工具进行检验,有助于学习者理解假设检验的过程及结果实验要求:能够运用Excel 对总体均值进行假设检验,学会针对实际背景提出原假设和备择假设来检验实际问题,并根据检验结果作出符合统计学原理和实际情况的判断和结论,加深对统计学方法的广泛应用背景的理解假设检验与区间估计两者之间存在密切的关系,二者用的是同一个样本、同一个统计量、同一种分布,所以也可以用区间估计进行假设检验,两者结论是一致的。

在Excel 中进行假设检验,除可按区间估计过程用公式和逆函数计算外,还备有专用的假设检验工具,包括Z —检验工具、T —检验工具和F —检验工具。

使用这些工具,可以直接根据样本数据进行计算,一次给出检验统计量、单尾和双尾临界值以及小于或等于临界值的概率等所需要的数值。

实验四主要介绍假设检验工具的使用。

一、假设检验的一般过程假设检验主要是根据计算出的检验统计量与相应临界值比较,作出拒绝或接受原假设的决定。

根据全国汽车经销商协会报道,旧车的平均销售价格是10192美元。

堪萨斯城某旧车经销处的一名经理检查了近期在该经销处销售的100辆旧车。

结果样本平均价格是9300美元,样本标准差是4500美元。

在0.05的显著性水平下,检验H 0:10192≥μ H 1:10192<μ。

问:假设检验的结论是什么?这名经理接下来可能会采取什么行动?本例由于样本容量比较大,其均值近似服从正态分布,总体方差未知,需要用样本标准差来代替,选择T 统计量进行检验。

T 统计量的计算公式如下:)1(~10--=-n t ns x t n μ单击任一空单元格,输入“=(9300-10192)/(4500/SQRT(100))”,回车确认,得出t 统计量为-1.982。

单击另一空单元格,输入“=TINV(0.025,99)”,回车确认,得出t 分布的右临界值为2.276。

因为276.2982.1<-,所以不拒绝原假设,认为此旧车经销处旧汽车平均销售价格不小于10192美元。

那么接下来这名经理会采取什么相应行动?(请读者思考)。

本例主要介绍了假设检验的一般过程,利用Excel 的公式和函数求出相应的统计量值和临界值,最后作出结论。

二、假设检验工具的使用接下来介绍如何使用Excel 的假设检验工具。

使用这一工具应该注意二点:第一,由于现实世界和生活中大量的数据服从正态分布,Excel 的假设检验工具是按正态总体设计的(以下各例未特殊说明,认为其服从或近似服从正态分布);第二,Excel 的假设检验工具主要用于检验两总体之间有无显著差异。

具体来讲,Z —检验工具是对方差或标准差已知的两总体均值进行差异性检验;T —检验工具是对方差和标准差未知的两总体均值进行差异性检验,其中包括等方差假设检验、异方差假设检验和成对双样本检验;F —检验工具是对总体的标准差进行检验。

(一)Z —检验工具的使用国际航空运输协会对商务旅行者进行调查以确定大西洋两岸过关机场的等级分数。

假定:要求50名商务旅行者组成的随机样本给迈阿密机场打分,另50名商务旅行者组成的随机样本给洛杉机机场打分,最高等级为10分。

两个样本数据如下:迈阿密机场得分数据:6 4 6 87 7 6 3 38 10 4 8 7 8 7 59 5 8 4 3 8 5 5 4 4 4 8 4 5 6 2 5 9 9 8 4 8995978310896洛杉机机场得分数据:10 9 6 7 8 7 9 8 10 7 6 5 7 3 5 6 8 7 10 8 4 7 8 6 9 9 5 3 1 8 9 6 8 5 4 6 10 983279531035108假定两总体的等级标准差已知(这里用样本标准差代替总体标准差),分别为2.16和2.37。

问:在5%的显著性水平下,迈阿密机场和洛杉机机场的平均等级有无差异?将数据分别输入到Excel表中(A2:A51;B2:B51),在“工具”菜单中选择“数据分析”选项,从其“分析工具”列表中选择“Z—检验:双样本平均差检验”,回车进入该工具对话框,如图4-1所示。

图4-1 Z—检验工具对话框◆在“变量1和变量2”的区域框中,分别输入“A1:A51”和“B1:B51”(数据区域)。

◆“假设平均差(P)框”中,输入“0”。

◆“变量1的方差和变量2的方差”框中,分别输入“4.68”和“5.63”(总体方差)。

◆单击“标志(L)”复选框(因为数据区域有列标题);“ (A)”框中要求输入显著性水,本例按默认设置0.05即可。

◆本例选择“输出区域”设置框,在其中输入“C1”。

完成以上操作后,回车确认,在指定的区域给出计算结果,见表4-1。

表4-1 Z—检验计算结果结果解释与分析: 1、“平均”为样本均值;“已知协方差”指总体方差;“观察值”为样本个数。

2、表中给出的Z 统计量为:2221212121)()(n n x x z σσμμ+---=3、将Z 统计量与临界值相比,本例采用双尾比较96.184.0<-,所以只能不拒绝原假设,认为两机场等级评分没有差异。

当然,也可以将显著性水平与P 值比较,如果P 值大于显著性水平则不拒绝原假设。

(二)T —检验工具的使用1、假定两总体的方差相同大学人员安排委员会公布了大学毕业生首次任职薪水数据下表列出了会计专业和财政专业样本每年薪水数据:(单位:千美元)会计 财政 28.8 26.3 25.3 23.6 26.2 25.0 27.9 23.0 27.0 27.9 26.2 24.5 28.1 29.0 24.7 27.4 25.2 23.5 29.2 26.9 29.726.229.3 24.0采用0.05的显著性水平,检验会计专业和财政专业毕业生首次任职平均年薪是否存在差异?将数据分别输入到Excel表中(A2:A13;B1:B13),在“工具”菜单中选择“数据分析”选项,从其“分析工具”列表中选择“t—检验:双样本等方差假设”,回车进入该工具对话框,如图4-2所示。

图4-2 “t—检验:双样本等方差假设”对话框将各子对话框进行相应设置后(具体可参照Z—检验),回车确认,在指定的区域给出计算结果,见表4-2。

表4-2 “t—检验:双样本等方差假设”结果结果解释与分析:(1)合并方差是两样本方差的加权平均数,其计算公式为:2)1()1(212222112-+-+-=n n s n s n S p(2)df 为“自由度”。

本例t 检验统计量的自由度为12+12-2=22。

(3)t Stat 是t 检验统计量,其计算公式为:21212111)()(n n s x x t p+---=μμ(4)将t 统计量与临界值比较,本例采用双尾检验,2.23>2.07(0.04<0.05),所以拒绝原假设,认为会计专业和财政专业毕业生首次任职的平均年薪存在显著差异。

2、假定两总体的方差不相同现有两种新旧软件包,为了评价新软件包的优点,随机抽取了24个系统分析人员作为样本。

其中,12个分析人员用旧软件包来开发指定信息系统,另外12个人用新软件包来开发,得到其开发使用时间(数据如下表)。

在5%的显著性水平下,问:新软件包是否可以缩短完成项目的平均时间。

旧软件包新软件包299 315 360 200 276 214 310 263 340 334 388 344 277 282 365 307 281 290 315 288 378 318 310301这是一个两总体均值的假设检验问题,用1μ表示“使用旧软件包开发指定系统所需的平均时间”,2μ表示“使用新软件包开发指定系统所需的平均时间”。

则此问题转变为:H 0:021≤-μμ H 1:021>-μμ假设两总体的方差不相同,则应从“分析工具”列表中选择“t —检验:双样本异方差假设”,回车进入该工具对话框,如图4-3所示。

图4-3“t —检验:双样本异方差假设”对话框将各子对话框进行相应设置后,回车确认,在指定的区域将给出计算结果,如表4-3所示。

结果解释与分析:(1)自由度df 计算公式为:df=()()⎪⎪⎭⎫ ⎝⎛-+-⎪⎪⎭⎫ ⎝⎛+1/1//2222212121222121n n s n n s n s n s 表4-3 “t —检验:双样本异方差假设”结果(2)t 统计量的公式计算为:t=2221212121)()(n s n s x x +---μμ(3)将t 统计量与临界值相比,本例为单尾检验2.16>1.72(0.02<0.05),所以拒绝原假设,认为新软件包开发指定系统的时间要少于旧软件包。

3、基于成对数据的t 检验在使用T—检验工具的介绍中,上面两个例子其样本都是独立样本。

然而在可能情况下采用相关样本,可以进一步提高效率。

当然其检验方式也有所不同。

每月读书俱乐部成员进行了一项调查以确信是否其成员用于看电视的时间比读书时间多(《辛辛那提问询报》,1991年11月21日)。

假定:从这次调查对象中抽取了一个小样本,得到了每周收看电视小时数和每周读书小时数的数据,数据如下表。

应答者看电视读书 d1106421416-2316884181085151056148671014-481214-2947-310880111651112510-5138351419109151165*d列为应答者看电视与读书的时间差问:在0.05的显著性水平下,能否得出每月读书俱乐部成员每周用于收看电视比用于读书的时间平均来说要多的结论?对于成对数据的检验,“分析工具”列表中也提供了相应检验工具,选择“t—检验:成对二样本均值分析”,打开其对话框,如图4-4所示。

将各子对话框进行相应设置后,回车确认,在指定的区域将给出计算结果,如表4-4所示。

图4-4 “t —检验:成对二样本均值分析”对话框结果解释与分析:(1)此分析方法的原理实际上是对d 列数据进行t 检验,问题转化为: H 0:0≤d μ H 1:0>d μ(2)df 自由度=15-1=14,t Stat 为检验统计量,其计算公式为: t=ns d n 10-- 其中d ,21-n s 分别为n d d d ,,,21 的样本均值和样本方差。

(3)泊松相关系数应为“皮尔逊相关系数”,反映两组数据线性相关程度。

(4)将t Stat 统计量与临界值相比,本例为单尾检验 2.23>1.76(0.02<0.05),所以拒绝原假设,认为每月读书俱乐部成员每周用于收看电视比用于读书的时间平均来说要多。

表4-4 “t —检验:成对二样本均值分析”结果(三)F—检验工具在上例中,假设两个总体,即旧软件包和新软件包开发指定系统所需时间的方差不同,接下来,在0.05的显著性水平下检验这一结论是否正确,需要用到F—检验工具。

相关主题