统计学第6章 方差分析法
7.1.1 方差分析中的几个基本概念
因变量:我们实际测量的、作为结果的变量, 例如失业持续时间。因变量也称试验指标,其 不同的取值常称为观察值或试验数据。 自变量:作为原因的、把观测结果分成几个组 以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素(factor)。 因素的不同表现,即每个自变量的不同取值称 为因素的水平。
1 1, 2 5 1 5, 2 5
1 10, 2 10
F
3 4
F 分布曲线
F分布与拒绝域
如果均值相等, F=MSA/MSE1
样本1
2 x1, s1
样本2
2 x2 , s2
样本3
2 x3 , s3
样本4
2 x4 , s4
H 0 : 1 2 3 4 ??
各个总体的均值相等吗?
f(X)
1 2 3 4
f(X)
X
3 1 2 4
X
失业保险案例:实验结果……
110 100 90 80 70 1 2 3 4
第6章
方差分析
Analysis of Variance (ANOVA )
学习目标
掌握方差分析中的基本概念; 掌握方差分析的基本思想和原理; 掌握单因素方差分析的方法及应用; 初步了解多重比较方法的应用;
学习内容
第一节 方差分析简介 常用术语 基本假定
第二节 单因素方差分析 分析模型 基本思想 分析步骤 多重比较
MSA SSA k 1F=组内方差源自MSE SSE nk k
如果因素A的不同水平对结果没有影响,那么在组间方差中 只包含有随机误差,两个方差的比值会接近1 如果不同水平对结果有影响,组间方差就会大于组内方差, 组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之间存在显 著差异,或者说因素A对结果有显著影响。
7.2.1 单因素方差分析模型
单因素方差分析的数据结构
试验数据变异原因(误差来源)分析
同一试验条件下的数据变异-----随机因素影响 不同试验条件下,试验数据变异-----随机因素 和可能存在的系统性因素即试验因素共同影响
实验数据误差类型
随机误差
因素的同一水平(总体)下,样本各观察值之间的差异 比如,同一奖金水平下不同不同人的失业时间是不同的 这种差异可以看成是随机因素影响的结果,称为随机误
差
系统误差
因素的不同水平(不同总体)下,各观察值之间的差异 比如,不同奖金水平之间的失业时间之间的差异 这种差异可能是由于抽样的随机性所造成的,也可能是 由于奖金本身所造成的,后者所形成的误差是由系统性 因素造成的,称为系统误差
方差分析的实质与分析目的
方差分析的实质:观测值变异原因的数量分析。 方差分析的目的:系统中是否存在显著性影响 因素
不同奖金水平失业者的再就业时间(天)
无奖金 92
低奖金 86
中奖金 96
高奖金 78
100
85 88 89 90
108
93 88 89 75
92
90 77 79 71
75
76 87 73 83
94
80 78
78
72 79
82
75 81
82
68 72
要研究的问题
总体1,μ1 (奖金=1) 总体2,μ2 (奖金=2) 总体3,μ3 (奖金=3) 总体4,μ4 (奖金=4)
7.1 方差分析简介
7.1.1 方差分析中的基本概念 7.1.2 方差分析中的基本假设与检验
失业保险案例:为什么要进行方差分析?
为了减小失业保险支出、促进 就业,政府试图为失业者提供再 就业奖励:如果失业者可以在限 定的时间内重新就业,他将可以 获得一定数额的奖金。政策会有 效吗?
试验数据
方差分析可以用来比较多个均值
方差分析(Analysis of variance,ANOVA)的主要目 的是通过对方差的比较来同时检验多个均值之间差异 的显著性。 可以看作t检验的扩展,只比较两个均值时与t检验等 价。 20世纪20年代由英国统计学家费喧(R. A. Fisher)最 早提出的,开始应用于生物和农业田间试验,以后在 许多学科中得到了广泛应用。
7.1.1 :固定效应模型
若因素 A 的每一个水平(处理)均做试验, 相当于对该因素进行了全面调查。此种情形下, A1 , A2 ,, Ak 方差分析目的在于:对 比较寻优, 即确定因素 的显著影响水平,且该显著影 A A1 , A2 ,中有效,在 , Ak 响水平仅在 A1 , A2 ,, Ak 外无效,一句话,试验数据不能 对因素做推断,这属于固定效应模型方差分析 范畴。
ANOVA (analysis of variance)
由于方差分析法是通过比较有关方差的大小而 得到结论的,所以在统计中,常常把运用方差 分析法的活动称为方差分析。 方差分析的内容很广泛,既涉及到实验设计的 模式,又关乎数据分析模型中因素效应的性质。 本章在完全随机试验设计下,讨论固定效应模 型方差分析的基本原理与方法,重点介绍单因 素方差分析及两因素方差分析的内容。
组间离差平方和
SSA n ( xi x)
i 1 k 2
组内离差平方和
SSE ( xij xi )2
i 1 j 1 k n
组间方差
组内方差
SSA MSA k 1
受因素A和随机 因素的影响
SSE MSE nk k
只受随机 因素的影响
F比值
组间方差
(1)正态性的检验
各组数据的直方图 Q-Q图, K-S检验*
奖金水平 1
4
2
3
4
Frequency
3 2 1 0
60 70 80 90 100 110 60 70 80 90 100 110 60 70 80 90 100 110 60 70 80 90 100 110
失业时间
失业时间
失业时间
固定效应模型:因素的所有水平都是由实验者 审慎安排而不是随机选择的。
7.1.1 :随机效应模型
若只对因素 A 的部分水平(处理)做试验,相 当于对 A 进行了抽样调查,此种情形下,方差 分析目的在于:对因素 A 的总体变量所服从的 2 N , A 进行差异性检验和参数估计,即样 分布 本推断总体,这属于随机效应模型方差分析范畴。 随机效应模型:因素的水平是从多个可能的水平 中随机选择的。 固定效应和随机效应模型在假设的设臵和参数估 计上有所差异,本章研究的都是固定效应模型。
F比的分布
1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0 1 2
f( F)
1 2 1 / 2 2 / 2 21 1 1 2 F 2 f (F ) 1 2 1 2 ( 1 F 2 ) 2 2 2
(3) 其它说明
方差分析对前两个假设条件是稳健的,允许一 定程度的偏离。
独立性的假设条件一般可以通过对数据搜集过 程的控制来保证。 如果确实严重偏离了前两个假设条件,则需要 先对数据进行数学变换,也可以使用非参数的 方法来比较各组的均值。
7.2. 单因素方差分析
7.2.1 单因素方差分析模型 7.2.2 方差分析的基本原理 7.2.3 单因素方差分析的步骤 7.2.4 方差分析中的多重比较
7.2.1 单因素方差分析模型(1)
单因素方差分析: 模型中有一个自变量(因素)和一 个因变量。 在失业保险实验中,假设张三在高奖金组,则 张三的失业时间 =高奖金组的平均失业时间 + 随机因素带来的影响 =总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响
X ij i ij i ij
失业时间
(2)等方差性的检验
经验方法:计算各组数据的标准差,如果最大值 与最小值的比例小于2:1,则可认为是同方差的。 本例中,最大值和最小值的比例等于1.83<2。 Levene检验 *
奖金水 平 1 2 3 4 均值 88.44 85.33 82.56 77.11 N 9 9 9 9 标准差 6.82 11.02 8.38 6.01
差
总变差(离差平方和)分解的图示
组间变异
组内变异
总变异
总变差
SST ( xij x)2
i 1 j 1
k
n
组间离差平方和
SSA n ( xi x)
i 1 k 2
组内离差平方和
SSE ( xij xi )2
i 1 j 1 k n
因素A及随机因素导致 的变差
7.2.1 单因素方差分析模型(2)
ì x = m+ a + e i = 1,2, , k ; j = 1,2, , n (可加性假定) ï ij ï i ij ï ï k ï ï a = 0 约束条件 ( ) íå i ï i= 1 ï ï ï e 相互独立,且均服从N 0,s 2 ï ij ( ) (独立性、正态性、方差齐性假定) ï î
7.1.1 方差分析中的几个基本概念
方差分析主要用来研究一个定量因变量与一个 或多个定性自变量的关系
只有一个自变量的方差分析称为单因素方差分 析。 研究多个因素对因变量的影响的方差分析称为 多因素方差分析,其中最简单的情况是双因素 方差分析。