第3章 方差分析
20
3.2.2 :方差分析的基本思想
组间方差
SSA MSA r 1
F=
SSE 组内方差 MSE nr
如果因素A的不同水平对结果没有影响,那么在组间 方差中只包含有随机误差,两个方差的比值会接近1 如果不同水平对结果有影响,组间方差就会大于组 内方差,组间方差与组内方差的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之 间存在显著差异,或者说因素A对结果有显著影响。
第3章 方差分析
Analysis of Variance (ANOVA)
3.1 方差分析简介 3.2 单因素方差分析 3.3 双因素方差分析
3.1 方差分析中的基本概念 和假设
2
失业保险案例:为什么要进行方差 分析?
为了减小失业保险支出、促进 就业,政府试图为失业者提供再 就业奖励:如果失业者可以在限 定的时间内重新就业,他将可以 获得一定数额的奖金。政策会有 效吗?
因素A导致的变差
随机因素导致的变差
SST=SSA+SSE
18
3.2.2 :组间方差和组内方差
各离差平方和的大小与观察值的多少有关,为了 消除观察值多少对离差平方和大小的影响,需要 将其平均,这就是均方。 计算方法是用离差平方和除以相应的自由度 三个平方和的自由度分别是 SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r
27
几种饲料的方差检验(ANOVA)结果
猪重 Sum of Squares Between Groups 20538.698 df 3 Mean Square 6846.233 F 157.467 Sig. .000
Within Groups
Total
652.159
21190.858
15
18
43.477
随机效应模型:因素的水平是从多个可能 的水平中随机选择的。 固定效应和随机效应模型在假设的设置和 参数估计上有所差异,本章研究的都是固 定效应模型。
11
3.1.2:方差分析中的基本假设
(1)在各个总体中因变量都服从正态分布; (2)在各个总体中因变量的方差都相等; (3)各个观测值之间是相互独立的。
28
第4步 多重比较分析:通过上面的步骤,只能判 断4种饲料喂猪效果是否有显著差异。如果想进一 步了解究竟是哪种饲料与其他组有显著性的均值差 别(即哪种饲料更好)等细节问题,就需要在多个 样本均值间进行两两比较。由于第3步检验出来方 差具有齐性,故选择一种方差相等的方法,这里选 LSD方法;显著性水平默认取0.05;
8
3.1.1 方差分析中的几个基本概念
因变量:我们实际测量的、作为结果的变 量,例如失业持续时间。 自变量:作为原因的、把观测结果分成几 个组以进行比较的变量例如奖金水平。 在方差分析中,自变量也被称为因素 (factor)。 因素的不同表现,即每个自变量的不同取 值称为因素的水平。
9
饲料A 133.8 125.3 饲料B 151.2 149.0 饲料C 193.4 185.3 饲料D 225.8 224.6
143.1
128.9 135.7
162.7
143.8 153.5
182.8
188.5 198.6
220.4
212.3
25
第1步 分析:由于考虑的是一个控制变量(饲料) 对一个观测变量(猪体重)的影响,而且是4种饲 料,所以不适宜用独立样本T检验(仅适用两组数 据),应采用单因素方差分析。 第2步 数据的组织:数据分成两列,一列是猪的 体重,变量名为“weight”,另一变量是饲料品种 (变量值分别为1,2,3,4),变量名为“fodder”,输 入数据并保存。 第3步 方差相等的齐性检验:由于方差分析的前 提是各个水平下(这里是不同的饲料folder影响下 的体重weight)的总体服从方差相等的正态分布, 且各组方差具有齐性。其中正态分布的要求并不是 很严格,但对于方差相等的要求是比较严格的,因 此必须对方差相等的前提进行检验。
29
第5步
运行主要结果及分析:
多重比较(Multiple Comparisons)结果
猪重 LSD (I) 饲料品种 1 (J) 饲料品种 2 3 4 1 3 4 1 2 4 1 2 3 Mean Difference (I-J) -18.68000* -56.36000* -87.41500* 18.68000* -37.68000* -68.73500* 56.36000* 37.68000* -31.05500* 87.41500* 68.73500* 31.05500* Std. Error 4.17024 4.17024 4.42321 4.17024 4.17024 4.42321 4.17024 4.17024 4.42321 4.42321 4.42321 4.42321 Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 95% Confidence Interval Lower Bound Upper Bound -27.5687 -9.7913 -65.2487 -47.4713 -96.8428 -77.9872 9.7913 27.5687 -46.5687 -28.7913 -78.1628 -59.3072 47.4713 65.2487 28.7913 46.5687 -40.4828 -21.6272 77.9872 96.8428 59.3072 78.1628 21.6272 40.4828
X ij i ij i ij
17
3.2.2 :总变差(离差平方和)的分解
总变差
SST ( xi x )2
i 1 n
组间离差平方和
SSA m( xi x )
i 1 r 2
组内离差平方和
SSE ( xij xi )2
i 1 j 1 r m
26
不同饲料的方差齐性检验结果 Test of Homogeneity of Variances 猪重
Levene Statistic
.024
df1
3
df2
15
Sig.
.995
方差齐性检验的H0假设是:方差相等。从上表可看出相伴根据 Sig.=0.995> (0.05)说明应该接受H0假设(即方差相等)。故 下面就用方差相等的检验方法。
21
3.2.3 :方差分析的步骤
1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设:
零假设:各总体的均值之间没有显著差异,即
H0 : 1 2 r
备择假设:至少有两个均值不相等,即
H1 : 1, 2 ,, r不全相等
22
3.2.3 :方差分析的步骤
f(X)
X
3 1 2 4
5
X
失业保险案例:实验结果……
110 100 90 80 70 1 2 3 4
失 业 时 间
奖金水平
1=无奖金 2=低奖金 3=中奖金 4=高奖金。根 据实验结果,可以认为各总体的平均失业 时间相同吗?
6
研究方法:两样本的t检验?
用t检验比较两个均值: 每次只能比较两个均值,要解决上述问题 需要进行6次t检验……
15
3.2. 单因素方差分析
3.2.1 单因素方差分析模型 3.2.2 方差分析的基本原理 3.2.3 单因素方差分析的步骤
16
3.2.1 单因素方差分析模型
单因素方差分析: 模型中有一个自变量 (因素)和一个因变量。 在失业保险实验中假设张三在高奖金组,则 张三的失业时间 =高奖金组的平均失业时间 +随机因素带来的影响 =总平均失业时间 +高奖金组平均值与总平均值之差 + 随机因素带来的影响
12
(1)正态性的检验
各组数据的直方图 峰度系数、偏度系数 Q-Q图, K-S检验*
13
(2)等方差性的检验
经验方法:计算各组数据的标准差,如果最大值 与最小值的比例小于2:1,则可认为是同方差的。 最大值和最小值的比例等于1.83<2 Levene检验 * 奖金水 平 1 2 3 4
3.1.1 基本概念
方差分析主要用来研究一个定量因变量与 一个或多个定性自变量的关系 只有一个自变量的方差分析称为单因素方 差分析。
研究多个因素对因变量的影响的方差分析 称为多因素方差分析,其中最简单的情况 是双因素方差分析。
10
固定效应与随机效应模型
固定效应模型:因素的所有水平都是由实 验者审慎安排而不是随机选择的。
在整体检验中犯第一类错误的概率显著增 加: 如果在每次t检验中犯第一类错误的概率 等于5%,则在整体检验中等于1-(10.05)6=0.2649
7
方差分析可以用来比较多个均值
方差分析(Analysis of variance,ANOVA) 的主要目的是通过对方差的比较来检验多 个均值之间差异的显著性。 可以看作t检验的扩展,只比较两个均值时 与t检验等价。 20世纪20年代由英国统计学家R. A. Fisher 最早提出的,开始应用于生物和农业田间 试验,以后在许多学科中得到了广泛应用。
上表是几种饲料方差分析的结果,组间(Between Groups)平方和 (Sum of Squares)为20538.698,自由度(df)为3,均方为6846.233; 组内(Within Groups)平方和为652.159,自由度为15,均方为43.477; F统计量为157.467。由于组间比较的相伴概率Sig.(p值)=0.000<0.05, 故应拒绝H0假设(四种饲料喂猪效果无显著差异),说明四种饲料对养猪 的效果有显著性差异。