当前位置:文档之家› 第七章 方差分析.

第七章 方差分析.

第七章方差分析方差分析(analysis of variance)是检验多个总体均值是否相等的统计方法。

目的:通过检验多个总体的均值是否相等来判断定类变量对定距变量是否有显著影响。

第一节方差分析引述一、方差分析的基本思想和原理例1:想了解四个行业的服务质量如何,得到以下数据:消费者对四个行业的投诉次数自变量行业是分类变量,因变量被投诉次数是定距变量。

想知道行业对被投诉次数的影响,就要分析不同行业的被投诉次数之间是否有显著差异,即检验四个行业被投诉次数的总体均值是否相等(注意不是样本均值)。

如果相等,行业对投诉次数无影响;如果均值不全相等,有影响。

为什么不用均值检验的方法?均值检验一次只研究两个样本,要检验4个总体均值是否相等,需要6次检验(1-2,1-3,1-4,2-3,2-4,3-4)。

每次检验犯第一类错误的概率是α,作多次检验会增加犯错概率和降低置信水平。

而方差分析同时将所有样本信息结合在一起,增加了分析的可靠性,降低了犯错的概率,避免拒绝真实的原假设。

如何用样本均值检验总体均值即判断行业对投诉次数是否有影响?各行业被投诉次数的样本均值不相等,是否可说明不同行业被投诉次数有明显差异?不一定,也许各行业总体均值无差异,仅仅因为抽样的随机性造成了彼此之间的差异/随机误差。

(来自同一个总体的各个样本之间因为随机性而造成的均值差异和来自不同总体的样本之间的均值差异在散点图上是有差异的。

)所以,方差分析就是对于差异来源进行分析(来源于随机误差还是不同总体间的真实差异),从而判断不同总体均值是否相等。

在例1中,在同一行业(同一总体)下,样本的各观测值不同,其差异可看作抽样的随机性造成的,称之为随机误差。

在不同行业(不同总体)下,各观测值也是不同的,这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身的不同而造成的系统误差。

衡量同一行业下样本数据的误差,称为组内误差;衡量不同行业下样本之间的误差,称为组间误差。

组内误差只包括随机误差,组间误差既包括随机误差也包括系统误差。

如果行业对投诉次数没有影响,组间误差里就只包含随机误差而没有系统误差。

这时,组间误差与组内误差的比值应接近1;反之,如果行业对投诉次数有影响,组间误差中除随机误差外还有系统误差,组间误差与组内误差之比就应该大于1。

当这个比值达到某种程度时,就可以说不同行业的投诉次数之间有显著差异,即行业对投诉次数有显著影响。

二、方差分析的基本假定1、自变量每一个取值对应的分布都应服从正态分布,以例1为例,每个行业的投诉次数都应服从正态分布。

2、自变量每一个取值对应的分布都应有相等的方差,即自变量的各组数据是从具有相同方差的正态总体中抽取的。

注意,仅要求总体方差相等,而非样本方差。

通常自变量各组数据的样本方差中最大值不超过最小值的二三倍,就可以视为等总体方差。

3、观测值是独立的。

每个被抽中企业被投诉次数与其它企业被投诉次数的次数是独立的。

三、问题的提法设自变量共有m类,每类的总体均值分别用μm表示,要检验m类总体均值是否相等,需要提出以下假设:H 0:μ1=μ2=….=μm,自变量对因变量没有显著影响H 1:至少有一个以上的类别均值不等或μ1、μ2….μm不全相等。

第二节一元方差分析分析一个分类型自变量对数值型因变量的影响时使用一元方差分析/单因素方差分析。

一、数据结构设自变量A共分m类,A1,A2,..,Am。

现从A1类中随机抽取n1个,A2类中随机抽取n2个,……,从Am类中随机抽取nm个(n1, n2,…nm可以不等),根据各个观测值可得到如下统计表:二、分析步骤 1、提出假设2、构造检验统计量(1)计算各样本均值11niijj iyi yn ==∑(2)计算全部观测值的总均值11111m ni mij i i j i y y n yi n n =====∑∑∑(3)计算误差平方和①总误差平方和TSS :全部观测值与总均值的误差平方和,反映了全部观测量的离散状况,TSS=211()mniij i j y y ==-∑∑;根据例1计算:TSS=(57-47.9)2+…..+(58-47.9)2≈4164.6 ②组内误差平方和RSS RSS=211()mniij i j y yi ==-∑∑根据例1:零售业组内误差平方和=(57-47.9)2+(66-47.9)2+….+(44-49)2=700,同理,旅游业924,民航业434,制造业650,RSS=700+924+434+650=2708 ③组间误差平方和BSSBSS=211()m ni i j yi y ==-∑∑=21()mi i n yi y =-∑(注意要乘以n i )根据例1计算:BSS=7(49-47.9)2+6(48-47.9)2+5(35-47.9)2+5(59-47.9)2=1456.6三个误差平方和的关系:TSS= RSS+BSS总结:BSS 是对随机误差和系统误差大小的度量,可以反映自变量对因变量的影响;RSS 是对随机误差大小的度量,反映了除自变量对因变量的影响外,其他因素对因变量的总影响,也称残差变量;TSS 是对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响。

如果原假设成立μ1=μ2=….=μm ,则表明没有系统误差,BSS 除以其自由度后的均方与RSS 除以其自由度后的均方(即方差)就不会有太大差异(为何要除以自由度?因为误差平方和大小与观测值多少有关);如果组间均方明显大于组内均方,说明自变量各水平之间的差异不仅有随机误差,还有系统误差。

所以,判断自变量对因变量的影响就是要比较组内均方与组间均方之间的差异大小。

(4)计算统计量TSS 的自由度为(n-1),n 表示全部观测值数量 BSS 的自由度为 (m-1),m 表示自变量的类别 RSS (n-m),(n-1)-(m-1)BSS 的均方BSS =BSS/ (m-1);RSS 的均方RSS = RSS/(n-m),检验统计量F=BSS /RSS ~F (m-1,n-m )(要比较的是组间均方和组内均方的差异) 当原假设为真时,二者比值服从第一自由度为m-1,第二自由度为n-m 的F 分布。

根据例1计算:F= /(1)/()BSS m RSS n m --=1456.6/(41)2708/(234)--≈3.4073、统计决策计算出F 值后,将其与给定的显著性水平α的临界值相比较,从而做出对原假设的决策。

在对F 值进行检验时的原假设是BSS /RSS =1,备选假设是BSS /RSS >1。

根据给定的显著性水平,在F 分布表上查找与第一自由度m-1,第二自由度n-m 相对应的临界值F α(m-1,n-m)。

如果F >F α,则拒绝原假设,表明自变量对因变量有显著影响;如果F <F α,则不能拒绝原假设,没有数据表明自变量不同水平的总体均值有显著差异,所以不能认为自变量对因变量有显著影响。

根据例1计算出F=3.407,假定α=0.05,查F 分布表得到F 0.05(3,19)=3.13。

由于F=3.407>3.13,所以拒绝原假设,表明行业对被投诉次数有显著影响。

4、方差分析表三、关系强度的测量——相关比率方差分析表明,组间平方和与残差平方和的比例反映了自变量行业与因变量被投诉次数的关系,当组间平方和比残差平方和大,且达到一定程度时,就意味着自变量和因变量的关系显著,大的越多,关系越强。

如何判断自变量与因变量的关系强度?可用组间平方和(BSS )及残差平方和(RSS )占总平方和(TSS )的比例大小来反映。

其中,E 2=BSS/TSS ,算术平方根E 可用来表示两个变量之间的关系强度。

可用消减误差比例原理PRE=(E 1-E 2)/E 1来解释。

E 1是不知道因变量与自变量有关时预测y 所犯的错误,这时使用样本总平均值来预测y ,错误大小为TSS=211()mniij i j y y ==-∑∑。

E 2为知道因变量与自变量有关后,预测y 时犯的错误,这时使用自变量各组均值来预测的,错误大小为RSS=211()m niij i j y yi ==-∑∑。

E 1-E 2反映了知道自变量与y 相关后减小的预测错误。

所以E 2=(TSS-RSS)/TSS=BSS/TSS 。

根据例1计算:E 2=BSS/TSS=1456.6/4164.6=0.351277=35.1277%;E=0.592686 解释:行业可以解释被投诉次数差异的35.1277%,其他因素所解释的比例占64.8723%;行业与被投诉次数之间有较强相关关系。

第二节 二元方差分析一、二元方差分析的类型分析两个定类自变量对定距变量的影响时,需要用二元方差分析。

例2:有四个品牌的彩电在五个地区销售,为分析品牌和地区对销售量是否有影响,对每个品牌在各个地区的销售量取得以下数据,分析品牌和地区对销售量是否有显著影响?(α=0.05)在二元方差分析中,如果两个因素对因变量的影响是独立的,称为无交互作用的二元方差分析;如果两个因素对因变量的影响除了各自的单独影响之外,两个因素相互之间的关系还会对因变量产生新的影响,就称为有交互作用的二元方差分析,或可重复的二元方差分析。

二、无交互作用的二元方差分析/无重复情况下的二元方差分析 1、数据结构获取数据时,将一个因素安排在行,另一个因素安排在列。

设行因素有a 个类别,列因素有b 个类别,行因素和列因素的每一个类别都可搭配成一组,观测它们对因变量的影响,共抽取ab 个观察数据,如下表:方差分析的基本假定:每一个观测值都可看作由行因素的a 个类别和列因素的b 个类别所组合成的ab 个总体中抽取的容量为1的独立随机样本。

这ab 个总体中的每一个总体都服从正态分布,且有相同的方差。

i y ∙是行因素的第i 个类别下各观测值的平均值,j y ∙是列因素的第j 个类别下个观测值的平均值;y 是全部ab 个样本数据的总平均值。

2、分析步骤 (1)提出假设行因素的假设:H 0:μ1=μ2=….=μa , 行因素对因变量没有显著影响 H 1:μi (i=1,2,…,a)不全相等 行因素对因变量有显著影响列因素的假设:H 0:μ1=μ2=….=μb , 列因素对因变量没有显著影响 H 1:μj (j=1,2,…,b)不全相等 列因素对因变量有显著影响 (2)构造检验统计量分别确定检验行因素和列因素的统计量。

TSS=211()abij i j y y ==-∑∑=211()a bi i j yy ∙==-∑∑+211()a b j i j y y ∙==-∑∑+211()a bij i ji j y y y y ∙∙==--+∑∑ 分解后的第一项是行因素所产生的误差平方和,记为BSS A ,反映了行变量对因变量的影响;第二项是列因素所产生的误差平方和,记为BSS B ,反映了列变量对因变量的影响;第三项是除去行因素和列因素之外的剩余因素影响产生的误差平方和,即随机误差平方和,记作RSS ,反映了随机因素对因变量的影响。

相关主题