统计学-第七章 方差分析
Excel的应用
1.列出数据结构表; 2.工具-数据分析-单因素方差分 析-确定; 3.填写对话框;确定。
三、关系强度的测量
拒绝原假设表明因素(自变量)与观测值之间有关
系
自变量与因变量的关系强度如何测定?
变量间关系的强度用组间平方和 (SSA) 占总平方
和(SST)的比例大小记为R2来反映,即
分析步骤
1.提出假设 需要针对行因素和列因素分别提出假设 行因素 • H0:u1=u2=u3=,……,=un • 行因素对因变量没有显著影响 • H1:u1、u2、u3、……un不全相等 行因素对因变量有显著影响
列因素 • H0:u1=u2=u3=,……,=un • 列因素对因变量没有显著影响 • H1:u1、u2、u3、……un不全相等 列因素对因变量有显著影响
方差分析的有关术语
1.因素或因子 所要检验的对象称为因素或因子。 上例中,要分析品牌对销售额是否有影响,“品牌” 是所要检验的对象——因素或因子。 2.水平或处理 因素的不同表现称为水平或处理。
品牌A 、品牌B 、品牌 C 、品牌D 是“品牌”这一因素的具 体表现,称为水平或处理。本例有四个水平。
不同品牌空调的销售额数据
品牌 观测值 1 2 3 4 5 6 平均 品牌A 365 340 350 343 323 400 353.5 品牌B 345 330 363 368 340 349.2 品牌C 358 300 323 353 300 326.8 品牌D 288 290 280 270 280 281.6
1 2 3 4 5 6 平均
品牌A
365 340 350 343 323 400 353.5
品牌B
345 330 363 368 340 349.2
品牌C
358 300 323 353 300 326.8
• • • •
要分析品牌对空调的销售额是否有显著差异,可以判断4 种品牌销售额的均值是否相等。 若它们的均值相等,就意味着不同品牌空调销售额无差 异,即“品牌”对“销售额”没有显著影响; 若均值不全相等,则意味着“品牌”对“销售额”有显 著影响。 但是这还不能提供充分的证据,因为平均销售额是根据 随机样本的数值计算的,均值的差异可能是由于抽样随 机性造成的。因此,需要有更准确的方法来检验这种差 异是否是显著,就需要进行方差分析。
MSA MST
• 行因素的检验统计量 :
i 1 j 1
k
ni
2
三个平方和的关系
SST =SSA+SSE
即
总平方和=组间平方和+组内误差平方和
方差MS
各误差平方和的大小与观察值的多少有关,为 消除观察值多少对误差平方和大小的影响,需 要将其平均,这就是均方,也称为方差 计算方法是用误差平方和除以相应的自由度 三个平方和对应的自由度分别是
双因素方差分析:
涉及两个分类型自变量对数值型因变量的影响
【例7-1】某市场调查公司为了研究品牌对空调销售额的影 响,对四个品牌空调的销售情况进行了调查,结果如下表。 试分析品牌对空调的销售额是否有显著影响。
不同品牌空调的销售额数据
品牌
万元 品牌D
288 290 280 270 280 281.6
观测值
2.构造并计算检验统计量
• • • • SSR:行因素误差平方和 SSC:列因素误差平方和 SSE:随机因素误差平方和 SST:总因素误差平方和 SST=SSR+SSC+SSE
计算方差
平方和 自由度 方差
行因素
列因素 随机因素 总和
SSR
-1)
MSE
R2 SSA(组间平方和) SST (总平方和)
它反映了自变量对因变量的影响效应占总影响
效应的比例。如例7-2的计算结果为:
SSA 16914 .45 R 70 .70 % SST 23922 .95
2
表明品牌(自变量)对销售额(因变量)的影
响效应占总效应的70.70%,而残差效应则占 29.30%。
三、方差分析的基本假定
1.观测值是来自于服从正态分布总体的随 机样本 2.各总体的方差相同。 3.各总体相互独立。
四、方差分析的基本步骤
• 第一步:提出假设 • 第二步:构造检验统计量F • 第三步:查表得Fα,进行统计决策(右侧 检验)
• 若F>F,则拒绝原假设 • 若F<F,则不能拒绝原假设
• 因素之间产生交互作用,两个因素的组合产 生了新的效应 。 如某个地区对某种品牌的 空调具有特殊偏好
• 二、无交互作用的双因素方差分析
数据结构
列因素B( j ) B1 行 因 素 A (i) A1 A2 … Ak x11 x21 … xk1 B2 x12 x22 … xk2 … … … … … Br x1r x2r … xkr
349.2 326.8 281.6
方差
705.9
253.7 777.7 62.8
6
5 5 5
误差平方和、方差、检验统计量
差异源 组间 组内 SS 16899.7 7906.3 df 3 17 MS 5633.233 465.0765 F 12.11249 P-value 0.000174 F crit 3.196777
显著的,所检验的因素对观察值有显著影响 若F<F ,则不拒绝H0 ,不能认为所检验的因 素对观察值有显著影响
F分布与拒绝域
如果均值相等, F=MSA/MSE1
不拒绝H0 0
拒绝H0
F
F(k-1,n-k) F 分布
例题分析
【例7-2】根据下表调查数据,试分析品牌对空调的销售额 是否有显著影响(显著性水平α=0.05)。
差
两个误差的比值
1. 若品牌对空调销售额没有影响,则组间误差中
2. 若品牌对空调销售额有影响,在组间误差中除 3. 当这个比值大到某种程度时,就可以说不同水
平之间存在着显著差异,也就是自变量对因变 量有影响。 了包含随机误差外,还会包含有系统误差,这 时它们之间的比值就会大于1; 只包含随机误差,没有系统误差。这时,组间 误差与组内误差的比值就会接近1;
不同品牌空调的销售额数据
品牌
万元 品牌D
288 290 280 270 280 281.6
观测值
1 2 3 4 5 6 平均
品牌A
365 340 350 343 323 400 353.5
品牌B
345 330 363 368 340 349.2
品牌C
358 300 323 353 300 326.8
• 也可以用R2的平方根R测量自变量和因 变量之间的关系强度,其值介于0和1之 间,其绝对值越接近于1,说明关系强度 越高。 • 根据上面的结果,可以计算出品牌与销 售额之间的关系强度为0.84,这表明品 牌(自变量)与销售额)(因变量)关 系强度较高。
• 第三节 双因素方差分析
一、双因素方差分析及其类型
• 方差分析中涉及两个分类型自变量时, 称为双因素方差分析。
• 例如,在分析空调销售额的影响因素时, 除了品牌因素之外,还需考虑地区、价 格、质量等因素。
方差分析
单因素方差分析 双因素方差分析
无交互作用
有交互作用
• 1.无交互作用的双因素分析(无重复双 因素分析)
• 因素间的影响是相互独立的
• 2.有交互作用的双因素分析(可重复双 因素方差分析)
自变量对因变量有显著影响
注意:备择假设并不意味着所有的均值都不相等
2.构造并计算检验统计量
• 均值:各水平的均值、全部观察值的均值 • 组内误差平方和:SSE ( xij xi )2
i 1 j 1
K
k
ni
• 组间误差平方和:SSA ni
I 1
x x
i
• 总误差平方和: SST xij x
万元
1.提出假设:
• 原假设H0: μ1=μ2=μ3=μ4
• 品牌对空调销售额没有显著影响 • 品牌对空调销售额有显著影响
• 备择假设H1: μ1、μ2、μ3、μ4不完全相等
2.计算检验统计量
各水平的均值与方差 观测数
品牌A
品牌B 品牌C 品牌D
求和
2121
1746 1634 1408
平均
353.5
SST 的自由度为n-1,n为全部观察值的个数
SSA的自由度为k-1,k为因素水平(总体)的个数 SSE 的自由度为n-k
平方和
组内(误差项) 组间(水平) 总 SSE SSA SST
自由度
n-K K-1 n-1
方差
MSE MSA MST
将MSA和MSE进行对比,即得到检验统计量
MSA F ~ F (k 1, n k ) MSE
3.观测值 每个水平下的样本数据称为观测值。
本例不品牌的销售额就是观测值 。
4.总体 因素的每一个水平可以看做是一个总体。
如品牌A、品牌B等。
5.样本数据 调查得到的数据可以看做从总体中抽取的样本 数据。
本例各品牌的销售额即为样本数据。
• 二、方差分析的基本思想和原理
【例7-1】某市场调查公司为了研究品牌对空调销售额的影 响,对四个品牌空调的销售情况进行了调查,结果如下表。 试分析品牌对空调的销售额是否有显著影响。
从上表中可以看出,各品牌的平均销售 额不同,但这还不能提供充分的证据证 明品牌对销售额有显著的影响,因为这 种差异也可能是由于抽样的随机性所造 成的。 在判断均值之间是否有差异时需借助于 反映变异程度的指标 —— 方差,所以叫 方差分析。
这个名字也表示:它是通过对数据误差来源的 分析,来判断不同总体的均值是否相等。因此, 进行方差分析时,需要考察数据误差的来源。