当前位置:
文档之家› 《统计学:思想、方法与应用》第7章 方差分析
《统计学:思想、方法与应用》第7章 方差分析
怎样解决下面的问题?
来自不同地区的大学生每个月的平均生活 费支出是否不同呢?
家电的品牌对它们的销售量是否有显著影 响呢?
不同的路段和不同的时段对行车时间有影 响吗?
超市的位置和它的销售额有关系吗? 不同的小麦品种产量有差异吗?
6 -1
第7章 方差分析
7.1 单因素方差分析 7.2 方差分析回顾 7.3 双因素方差分析
用平方和除以相应的自由度 均方也称方差(variance)
组 间 均 方 也 称 组 间 方 差 (between-groups variance),反映各因子间误差的大小
MSA=SSA÷自由度(因子个数-1)
组内均方也称组内方差(within-groups variance) , 反映随机误差的大小
• 仅从散点图上观察还不能提供充分的证据证明化肥 品牌与小麦产量之间有显著差异
这种差异也可能是由于抽样的随机性所造成的
• 需要有更准确的方法来检验这种差异是否显著,也 就是进行方差分析
所以叫方差分析,因为虽然我们感兴趣的是均值,但在 判断均值之间是否有差异时则需要借助于方差
这个名字也表示:它是通过对数据误差来源的分析判断 不同总体的均值是否相等。因此,进行方差分析时,需 要考察数据误差的来源
(单因素方差分析)
第 1 步 : 选 择 【Analyze】 【Compare Means】 【One-Way-ANOVA】进入主对话框
第2步:在主对话框中将因变量(产量)选入【Dependent List】,将自变量(品牌)选入【Factor)】
第3步 (需要多重比较时)点击【Post-Hoc】从中选择一 种方法,如LSD; (需要均值图时)在【Options】下选中 【Means plot】 , ( 需 要 相 关 统 计 量 时 ) 选 择 【Descriptive】 , 点 击 【Continue】 回 到 主 对 话 框 。 点 击【OK】
检验。 如果显著性水平设为0.05,那么正确判断的概率
为0.95。因为我们分别进行3次独立的检验,任 何一次检验都不做错误判断的概率为:P(都正 确)=0.953=0.8574 因此,至少一次错误的概率为10.8574=0.1426。总之,如果我们用t分布分别 做3次独立的检验,至少有一样本错误发生的概率 从0.05上升到了0.1426。
来源 化肥 残差
平方和 比例 86800 0.802 21400 0.198
自由度 均方 F-比
p-值
2
43400
42.6
0.00000 004
21
1019
总计 108200 1.000
23
该表说明我们要拒绝零假设,各化肥 品6 -牌20 导致的小麦产量之间有显著不同.
用Excel进行方差分析
(Excel检验步骤)
▪ 第1步:选择“工具 ”下拉菜单
▪ 第2步:选择“数据分析 ”选项
▪ 第3步:在分析工具中选择“单因素方差分析 ” ,
然
▪
后选择“确定 ”
▪ 第4步:当对话框出现时
▪
在“输入区域 ”方框内键入数据单元格区域
▪
在方框内键入0.05(可根据需要确定)
▪
在“输出选项 ”中选择输出区域
6 - 21
用SPSS进行方差分析
作出这种判断最终被归结为检验这三个品牌的产量的均 值是否相等 若它们的均值相等,则意味着“品牌”对产量是没 有影响的;若均值不全相等,则意味
可以用假设检验吗? 两两比较三种品牌的产量均值是否存在差异。 用t分布比较3组总体均值,需要进行3次不同的t
6 - 27
7.3 双因素方差分析
在小麦产量的例子中,我们将总效应分为两类:化肥变量 的效应和残差变量的效应。
换句话说,我们只考虑了效应的两个来源,即来自化肥变 量和随机误差。
但是影响小麦产量的因素除了所用化肥的品牌,可能还有 土壤、天气等等因素的影响。
考虑其他因素的好处是降低残差的效应,即降低F统计量 的分母,F值会变大,使我们拒绝均值相等的零假设,或 者说我们可以解释更多的效应,从而减少误差。
685
540
样本容量
8
8
8
6 - 18总均值
605
单因素方差分析表
(基本结构)
误差来源
平方和 自由度 均方 (SS) (df) (MS)
F值
P值
F 临界值
组间
MSA
(因素影响) SSA
k-1 MSA MSE
组内 (误差)
SSE n-k MSE
总和
6 - 19
SST n-1
单因素方差分析
由SPSS可以得到方差分析表:
1
2
dimension3
3
2
dimension2
1
dimension3
3
3
1
dimension3
2
*. 均值差的显著性水平为 0.05。
多重比较
均值差 (I-J) -95.000* 50.000* 95.000* 145.000* -50.000*
-145.000* -95.000* 50.000* 95.000* 145.000* -50.000*
系统误差
3. 总误差(total)
▪ 全部观测数据的误差大小
6 - 11
方差分析的基本原理
(误差分解)
• 误差平方和的分解及其关系
总误差 = 随机误差 + 处理误差
总平方和
组内平方和
组间平方和
=
+
(SST)
(SSE)
(SSA)
6 - 12
误差度量
(均方—MS)
用均方(mean square)表示误差大小,以消除观测数 据的多少对平方和的影响
方差分析是基于计算因变量在按照自变量的各类的均值之间 的差异程度和每一类中观测值的差异程度。
F检验及其p-值告诉我们因变量在各类中的均值是否有显著差 异。通常当p-值小于0.05时就可以拒绝零假设了
有时我们会看到p值下面的数值显示*和**。在脚注中会解释 一个星号表示它的p值小于0.05,而两个星号则表示p-值小于 0.01
多重比较问题: H0 : i j H1 : i j
选择拒绝域 xi x j LSD,
6 - 24
LSD t 2
MSE
1 ni
1 nj
多重比较方法
SPSS提供了各种不同的多重比较方法,包括最小 显著差异LSD法、Bonferroni法、Tukey法、 Scheff法,如下图所示。
6 - 25
由SPSS可以得到多重比较结果
做了以下三对比较:
因变量:小麦产量
品牌A~品牌B、品牌A~
(I) 化肥品牌 (J) 化肥品牌
品牌C和品牌B~品牌C。 LSD
1
2
dimension3
3
每一对比较都有相应的 p-值。
2
dimension2
3
1
dimension3
3
1
dimension3
2
Tamhane
95% 置信区间
下限
上限
-128.19 -61.81
16.81 83.19
61.81 128.19
111.81 178.19
-83.19 -16.81
-178.19 -111.81
-145.67 -44.33
19.28 80.72
44.33 145.67
94.33 195.67
-80.72 -19.28
-195.67 -94.33
6 - 26
7.2 方差分析回顾
在研究分类型自变量和数量型因变量之间关联。在这里,我 们在此研究的是化肥品牌和小麦产量两个变量。其它还有诸 如职业与收入的关系、不同教育方法与学生的学习水平的关 系等例子。
应用方差分析需要的假设条件有:(1)各总体是正态分布。 (2)各总体的有相同的标准差。(3)样本互相独立。当 满足上述条件时,可以用F分布作为检验统计量的分布。
3. 计算检验统计量
因子均方 F 残差均方 ~ F(k 1, n k)
4. 计算P值,作出决策
6 - 17
品牌
观测值
A
B
C
1
570
660
540
2
560
760
580
3
610
670
530
4
580
710
550
5
590
630
520
6
580
730
560
7
630
640
510
8
600
680
530
样本均值
590
如果品牌与产量之间没有关系,那么它们的产量应该 差不多相同,在散点图上所呈现的模式也就应该很接 近
6 -8
方差分析的基本原理
为了更容易的找出各化肥品牌的小麦平均产量的不同,我 们对每个化肥品牌做一个箱线图。
750
700
650
小麦产量
600
550
500
6 -9
品牌A
品牌B 化肥
品牌C
方差分析的基本思想和原理
因子 A
品牌 B
C
水
1
570
660
540
平
2
560
760
580
3
610
670
530
4
580
710
550
5
590
630
520
6
580
730
560
7
630
6-4 8
600
640