当前位置:文档之家› 单因素方差分析教材

单因素方差分析教材

方差体现的是一组数据的离散度
方差分析的基本思想和原理
(两类误差)
1. 随机误差
▪ 因素的同一水平(总体)下,样本各观察值之间的差异 ▪ 比如,同一行业下不同企业被投诉次数是不同的 ▪ 这种差异可以看成是随机因素的影响,称为随机误差
2. 系统误差 ▪ 因素的不同水平(不同总体)下,各观察值之间的差异
方差意义
方差也是比较数据的一个非常有用的工具, 比较两组数据大小一般用平均数,但是有的时候 平均数不能非常准确的表示数据。 例: 有现在有六只鸡,每三只一组,每组鸡的 重量为:
第一组: 2.5,3,3.5 第二组: 1,3,5 两组鸡重量的平均数是一样的,但是这两组鸡却 有明显的差别,这是平均数就不能体现二者的差 别,所以我们引入了方差的概念。
▪ 比如,零售业被投诉次数的方差
▪ 组内方差只包含随机误差
结合计算实例
2. 组间方差(between groups):MSA
▪ 因素的不同水平(不同总体)下各样本之间的方差
▪ 比如,四个行业被投诉次数之间的方差
▪ 组间方差既包括随机误差,也包括系统误差
方差分析的基本思想和原理
(F检验:方差的比较)
【例】为了对几个行业的服务质量进行评价,消费者协会在 四个行业分别抽取了不同的企业作为样本。最近一年中消费 者对总共23家企业投诉的次数如下表
观测值
零售业
消费者对四个行业的投诉次数
行业
旅游业
航空公司
家电制造业
1
57
68
31
44
2
66
39
49
51
3
49
29
21
65
4
40
45
34
77
5
34
56
40
58
6
53
51
7
44
什么是方差分析?
(例题分析)
1. 分析四个行业之间的服务质量是否有显著差异,也就 是要判断“行业”对“投诉次数”是否有显著影响
2. 作出这种判断最终被归结为检验这四个行业被投诉次 数的均值是否相等
3. 如果它们的均值相等,就意味着“行业”对投诉次数 是没有影响的,即它们之间的服务质量没有显著差异; 如果均值不全相等,则意味着“行业”对投诉次数是 有影响的,它们之间的服务质量有显著差异
被投诉次数
40
20
0
0
零1售业 旅2游业 航3空公司 家4 电制造 5
不同行业被投诉次数的散点图
行业
方差分析的基本思想和原理
1. 仅从散点图上观察还不能提供充分的证据证明不同行业被 投诉的次数之间有显著差异 – 这种差异也可能是由于抽样的随机性所造成的
2. 需要有更准确的方法来检验这种差异是否显著,也就是进 行方差分析 – 之所以叫方差分析,因为虽然我们感兴趣的是均值, 但在判断均值之间是否有差异时则需要借助于方差 – 它是通过对数据误差来源的分析判断不同总体的均 值是否相等(不仅是数量层面的相等)。因此,进 行方差分析时,需要考察数据误差的来源。
一正态总体
f(X)
X
1 2 3 4
方差分析中基本假定
若备择假设成立,即H1: mi (i=1,2,3,4)不全相等
– 至少有一个总体的均值是不同的 – 四个样本分别来自均值不同的四个正态总体
f(X)
X
3 1 2 4
问题的一般提法
1. 设因素有k个水平,每个水平的均值分别用1、2、、 k 表示
方差分析中的有关术语
1. 试验 这里只涉及一个因素,因此称为单因素四水平的试验
2. 总体 ★因素的每一个水平可以看作是一个总体 ★比如零售业、旅游业、航空公司、家电制造业可以看 作是四个总体
3. 样本数据
被投诉次数可以看作是从这四个总体中抽取的样本数据
方差分析的基本思想和原理
(图形分析)
80
60
如:不同行业之间的被投诉次数之间的差异
▪ 这种差异可能是由于ห้องสมุดไป่ตู้样的随机性所造成的,也可能
是由于行业本身所造成的,后者所形成的误差是由系
统性因素造成的,称为系统误差
方差分析的基本思想和原理
(两类方差)
1. 组内方差(within groups):MSE
▪ 因素的同一水平(同一个总体)下样本数据的方差
方差分析中的有关术语
1. 因素或因子(factor):所要检验的对象 要分析行业对投诉次数是否有影响,行业是要检验的 因素或因子
2. 水平或处理(treatment):因子的不同表现
零售业、旅游业、航空公司、家电制造业就是因子的 水平
3. 观察值:在每个因素水平下得到的样本值
每个行业被投诉的次数就是观察值
1.若不同不同行业对投诉次数没有影响,则组间误差中 只包含随机误差,没有系统误差。
F = MSA / MSE 1
2.若不同行业对投诉次数有影响,在组间误差中除了包 含随机误差外,还会包含有系统误差。
F = MSA / MSE >1
3.当这个比值大到某种程度(临界值Fa)时,就可以说 不同水平之间存在着显著差异,也就是自变量对因 变量有影响
方差分析的基本假定
1. 每个总体都应服从正态分布
▪ 对于因素的每一个水平,其观察值是来自服从正态
分布总体的简单随机样本
▪ 比如,每个行业被投诉的次数必需服从正态分布
2. 各个总体的方差必须相同 》》需进行方差齐性检验
▪ 各组观察数据是从具有相同方差的总体中抽取的 ▪ 比如,四个行业被投诉次数的方差都相等
单因素方差分析培训
培训时间:2012年5月 培训部门:生产运营部
什么是方差?
方差是各个数据与平均数之差的平方和的平 均数,即:
s=[(x1-x)2 +(x2-x)2 +...+(xn-x)2 】/ n
其中,x——样本的平均数,
n——样本的数量,
xn——个体; s——方差。
方差反映 的是数据 的离散度
什么是方差分析(ANOVA)?
1. 检验多个总体均值是否相等
▪ 通过分析观察数据的误差判断各总体均值是否相等
2. 是从观测变量的方差入手,研究诸多控制变量中哪些变 量是对观测变量有显著影响的变量. – 一个或多个分类尺度的自变量
• 2个或多个 (k 个) 处理水平或分类
什么是方差分析?
(例题分析)
3. 观察值是独立的
▪ 比如,每个行业被投诉的次数与其他行业被投诉的
次数独立
正态分布特点
F(X)
68.26%
95.45%
-3б -2б -б μ б 2б 3б
X
99.73%
正态分布图
方差分析中基本假定
如果原假设成立,即H0: m1 = m2 = m3 = m4
– 四个行业被投诉次数的均值都相等 – 意味着每个样本都来自均值为、方差为2的同
相关主题