统计学第5章 方差分析
若是不完全相等,我们就会想知道究竟是哪 一个或哪几个均值与其他均值不等,但方差分析 却无法回答这个问题。
此时必须采用另外一种方法——多重比较法
二、多重比较法的概念
多重比较法——是指通过多个总体均值之间 的配对比较,来进一步检验到底哪些均值之间存 在差异。
多重比较法包含种类繁多,如最小显著差异 法、q检验法等。这里我们重点介绍由R.Fisher提 出的最小显著差异法。
2、构造检验统计量F
因为
水平间方差 F 水平内方差
所以,构造检验统计量F的过程,实际上就 是计算水平间方差和水平内方差的过程。
◆计算F统计量的具体步骤
1)计算各水平均值和总均值; 2)计算误差平方和。包括总误差平方和SST、误 差项平方和SSE和水平项误差平方和SSA; 3)确定SST、SSE和SSA的自由度; 4)计算两个方差——水平间方差MSA和水平内方 差MSE; 5)计算检验统计量F。
◆单因素方差分析——即只有一个因素的方 差分析。如玩具颜色对产品销售量的影响。
◆多因素方差分析——即有多个因素的方差 分析。如农作物品种、施肥方法、气候、土壤等 因素对农作物产量的影响。
多因素方差分析中又以双因素方差分析最为 常见。
5.2 方差分析的原理
一、差异的来源
从方差分析的目的来看,是要检验各个水平 的均值是否相等,而实现这个目的的手段是通过 方差的比较。
1)计算各水平均值和总均值 水平均值的计算公式
xi
x
i 1
ni
ij
ni
全部数据的总均值为
x
x
i 1 j 1kຫໍສະໝຸດ niijn
n x
i 1 i
k
i
n
玩具的颜色 观测值 1 2 3 4 5 6 水平均值 总均值 红色 14 10 11 9 11 11 蓝色 8 14 6 7 10 9 9 8.867 黄色 8 6 5 5
SSA 水平间方差MSA k 1 SSE 水平内方差MSE nk
55.733 水平间方差MSA 27.867 2 60 水平内方差MSE 5 12
5)计算检验统计量F
水平间方差MSA SSA k 1 F ~ F k 1,n k 水平内方差MSE SSE n k
若想要知道如何通过方差的比较来检验各个 水平的均值是否相等,首先就要弄清楚两个差异 的来源以及这两个差异的区别。
销售量 红色 1 2 3 4 5 6 14 10 11 9 13
玩具的颜色 蓝色 8 14 6 7 10 9 黄色 8 6 5 2
观察值之间存在着差异,差异的产生来自于 两个方面, ◆一是由因素中的不同水平造成的,例如玩 具的不同颜色带来不同的销售量,称为系统误差; ◆二是由于抽选样本的随机性产生的差异, 例如相同颜色的玩具在不同超市的销售量也不相 同,称为随机误差。
通常,两个方面产生的差异可以用两个方差 来计量, ◆水平间的方差,既包括系统误差,也包括 随机误差; ◆水平内的方差,仅包括随机误差。 即,水平内方差=随机误差 水平间方差=系统误差+随机误差
二、两个方差的比较
◆若不同的水平对结果没有影响,即系统误 差为0,则水平间方差≈水平内方差=随机误差。 即水平间方差÷水平内方差≈1 ◆若不同的水平对结果有影响,即系统误差 不为0,则水平间方差肯定大于水平内方差。 即水平间方差÷水平内方差>1
第五章 方差分析
5.1 引论
产生和发展
方差分析是由英国统计学家费歇尔在1918 年的著作《试验之设计》中首先提出来的,它 最初主要应用于农业方面的试验设计和试验结 果的分析。
后来逐渐推广,现已广泛应用于工业、农 业、生物、医学等领域,成为最常用的一种统 计推断方法。
表面上,方差分析能够解决多个均值是否相 等的检验问题,这点类似于假设检验。但和假设 检验相比,方差分析不仅可以提高检验的效率, 同时由于进行分析时,它是将所有的样本数据结 合在一起,因而增加了分析的可靠性。 本质上,方差分析和回归分析都是研究两个 或多个变量之间关系的统计方法,但两者又有本 质的区别。
6
2)计算误差平方和 ◆总离差平方和SST——是指全部数据与总均 值的离差平方和,它反映全部数据的离散状况。
SST
i 1 j 1 k ni
xij x
2
SST (14 8.867) 2 ... (5 8.867) 2 115.733
误差项平方和SSE——是指水平内部观察值的 离散状况,它反映样本数据与水平均值之间的差 异。
式中:n1是组间方差的自由度; n2是组内方差的自由度。
五、方差分析的步骤
1、提出假设; 2、构造检验统计量F; 3、对于给定的显著性水平,查F分布表得出 F临界值; 4、作出是否拒绝原假设的决策; 5、列出方差分析表。
5.3 单因素方差分析
【例】某生产企业研制出一种新的玩具,玩具的 颜色共有三种,现随机从几家超市收集了前一期 该玩具的销售量,其结果如下表,问玩具的颜色 是否对销售量有显著的影响?
【例】某生产企业研制出一种新的玩具,玩具的 颜色共有三种,现随机从几家超市收集了前一期 该玩具的销售量,其结果如下表,问玩具的颜色 是否对销售量有显著的影响?
销售量 红色 玩具的颜色 蓝色 黄色
1 2 3 4 5 6
14 10 11 9 13
8 14 6 7 10 9
8 6 5 2
1、提出假设
检验1— H 0:1 2,H1:1 2 检验2— H 0:1 3,H1:1 3 检验3— H 0:2 3,H1:2 3
水平项误差平方和SSA——所反映的是各水平 之间的差异,即各水平均值与总均值的误差平方 和。
SSA
i 1 j 1 k ni
x i x
2
ni ( xi x ) 2
i 1
k
SSA 5 (11 8.867) 2 6 (9 8.867) 2 4 (6 8.867) 2 55.733
一、概念
方差分析——是检验多个总体均值是否相等 的一种统计方法。 方差分析表面上是在检验多个总体均值是否 相等,但本质上它是在检验分类型自变量对数值 型因变量是否有显著影响的一种统计方法。
在方差分析中,涉及两个变量:一个是 分类型变量,一个是数值型变量。 当研究分类型自变量对数值型因变量的影响 时,所用的方法就是方差分析。 【例如】在农业生产中,若要研究种子品种 或施肥方法对农作物产量是否有影响时,属于方 差分析的范畴;若研究湿度或温度对农作物产量 是否有影响,就不属于方差分析。
SST、SSE和SSA及三者自由度之间的关系
三个误差平方和:SST SSE SSA 三者自由度:n 1 (n k ) (k 1)
三个误差平方和: 115.733 60 55.733 三者自由度: 14 12 2
4)计算方差——水平间方差MSA和水平内方差MSE
三、最小显著差异法的检验步骤
1、提出原假设 H 0:i j,H1:i j 2、计算检验统计量
x x
i
j
1 1 3、计算LSD LSD t / 2 (n k ) MSE ( ) ni n j
4、根据显著性水平α做出决策
若 xi x j LSD,则拒绝原假设; 若 xi x j LSD,则不拒绝原假设。
方差来源 水平间 水平内 总差异 平方和 SS 55.733 60 115.733 自由度 df 2 12 14 均方 MS 27.867 5 F值 5.573 P值 F临界值 3.89
5.4 方差分析中的多重比较
一、引言
方差分析虽然可以解决多个总体均值是否相 等的问题,但检验结果仅仅能够表明进行检验的 这几个均值是完全相等,还是不完全相等。
销售量 红色 玩具的颜色 蓝色 黄色
1 2 3 4 5 6
14 10 11 9 13
8 14 6 7 10 9
8 6 5 2
这是一个方差分析问题。即对三种颜色玩具 的销售量的均值是否相等进行检验。 因为玩具是出自同一厂家,除了颜色,其他 条件都相同。 此时令µ 1、 µ 2、µ 3分别为红、蓝、黄三种颜 色产品销售量的均值。 若µ 1=µ 2=µ 3,则表明三者来自同一总体,包 装颜色对产品销售量没有影响。 若µ 1≠µ 2≠µ 3,则说明三者来自不同的总体, 表明包装颜色对产品销售量有影响。
SSE
i 1 j 1 k ni
xij x i
2
SSE红色 (14 11) 2 ... (11 11) 2 14
2 SSE蓝色 (8 9) ... (9 9) 2 40
SSE黄色 (8 6) 2 ... (5 6) 2 6
销售量 红色 玩具的颜色 蓝色 黄色
1 2 3 4 5 6
14 10 11 9 13
8 14 6 7 10 9
8 6 5 2
1、提出假设
H 0:1 2 3 H1:1、 2、3不全相等
如果拒绝原假设,则意味着自变量对因变量 有显著影响。如果不拒绝原假设,则不能认为自 变量对因变量有显著影响。 需要指出的是:拒绝原假设时,仅仅只能表 明至少有两个总体的均值不等,并不意味着所有 总体的均值都不相等。
3)确定SST、SSE和SSA的自由度
总离差平方和SST的自由度为n 1 水平项误差平方和SSA的自由度为k 1 误差项平方和SSE的自由度为n k
总离差平方和SST的自由度为15 1 14 水平项误差平方和SSA的自由度为3 1 2 误差项平方和SSE的自由度为15 3 12
5、列出方差分析表
实际上,方差分析表是前面所有计算结果的 总结,如果是利用统计软件运算,则该表为计算 机的最终输出结果。