第八章 方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.(2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题.(3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§8.1 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.8.1.1 问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法.例8.1.18.1.2 单因子方差分析的统计模型在例8.1.1中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A ,,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定(1)每一总体均为正态总体,记为2i i N(,)μσ,i 1,2,,r =;(2)各总体方差相同,即222212r σσσσ====(3)每一总体中抽取的样本相互独立,即诸数据ij y 都相互独立 在这三个基本假定下,要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等 (8.1.1)如果0H 成立,因子A 的r 个水平均值相同,称因子A 的r 个水平间没有显著差异,简称因子A 不显著;反之,若0H 不成立,因子A 的r 个水平均值不全相同,称因子A 的r 个水平间有显著差异,简称因子A 显著.在每一水平下各作m 次独立重复试验,若记第i 个水平下第j 次重复的实验结果为ij y ,得到r m ⨯个实验结果:ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ, (8.1.2)该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立,且都服从 (8.1.3) 称诸i μ的平均1=111=(++)=rr i i rr μμμμ∑为总均值,第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应,简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型(8.1.3)可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 假设(8.1.1)可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.8.1.3 平方和分解一 实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平 试验数据 和 平均1A 11y 12y 1m y 1T 1y 2A 21y 22y 2m y 2T 2yr A r1y r2y rm y r T yr合计 T y 二 组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ,记=1i =1i =1=1111=,==m r r mi i j i i j j jm r n εεεεε∑∑∑∑,ij y -i y 称为组内偏差,-i y y 称为组间偏差.三 偏差平方和及其自由度 在统计学中,把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和,简称平方和.由于=1(-)=0kii y y ∑,说明在Q 中独立的偏差只有-1k 个,称为该平方和的自由度,记为f ,=-1.Q f k四 总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. (8.1.3)仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为e S ,211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ (8.1.4)由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子A 的偏差平方和,记为A S ,21(),=-1.rA A ii S m yy f r ==-∑ (8.1.5)定理8.1.1 在上述符号下,总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和,其自由度也有相应分解公式:S =,=+.T A e T A e S S f f f + (8.1.6)称为总平方和分解式.8.1.4 检验方法为了度量一组数据的离散程度,称/Q MS Q f =为均方和.由均方和的概念,得到/A A A MS S f =,/e e e MS S f =,用/A e F MS MS =作为检验的统计量,为给出检验拒绝域,需要如下定理:定理8.1.2 在单因子方差分析模型及前述符号下,有(1)22~-),es n r χσ(从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA ii E S r maσ∑,若0H 成立,则有22~(1)AS r χσ-(3)A S 与e S 相互独立. 由定理8.1.2知/(,)A eA e F MS MS F f f = ,从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格,称为方差分析表来源 平方和 自由度 均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->,则可以认为因子A 显著,即诸正态均值间有显著差异; 若1<(,)A e F F f f α-,则说明因子A 不显著,即保留原假设0H . 常用偏差平方和的计算公式:2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑ e T AS S S =-例8.1.28.1.5 参数估计在检验结果为显著时,可进一步求出总均值μ,各主效应i a 和误差方差2σ的估计. 一 点估计总均值μ的估计为ˆy μ=; 各水平均值i μ的估计ˆ,1,2,,i i y i r μ==; 主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二 置信区间由定理8.1.2知 222~N(,/m),~),ei i e s y μσχσ(f 且两者独立,(),e y f(由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()/i e y t f ασ-±例8.1.3单因子试验的数据分析可以知道如下三个结果 因子A 是否显著 试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计(此项在因子A 不显著时无需进行)8.1.6 重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ,并且第r 个水平i A 下重复进行i m 次试验,可得如下数据:因子水平 重复数 试验数据 和 平均1A 1m 11y 12y 11m y 1T 1y 2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y r T ry合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A 的平方和A S 的计算公式略有不同:记1ri i n m ==∑,则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前,需要注意下面两点:(1)总均值11ri i i m n μμ==∑;(2)主效应约束条件为10ri ii m a==∑类似于8.1.8 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑,=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例8.1.4 略§8.2 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,能用R 软件来进行多重比较,会解决简单的实际问题。
教学重点:重复数相等与不相等场合的方法. 教学难点:重复数相等与不相等场合的方法.教学内容:本节内容包括效应差的置信区间,多重比较问题,重复数相等场合的T 法,重复数不等场合的S 法.8.2.1 效应差的置信区间如果方差分析的结果因子A 显著,则认为因子A 的r 个水平的效应不全相同,但就指定的一对水平i A 和j A ,可通过求-i j μμ的区间估计来进行比较,方法如下:由于 211-~(-,(+))i j i j i jy y N m m μμσ⋅⋅,又由定理8.1.2知22~()e e S f χσ,且两者独立,故(-)-(-)()e y y t f μμ,由此给出-i j μμ的置信水平为1-α的置信区间为^^1-1-22[-(),-()i j e i j e y y t f y y t f αα⋅⋅⋅⋅, (8.2.1)2^=e eS f σ是2σ的无偏估计. 例8.2.1略注 (8.2.1)给出的置信区间与第六章中两样本的t 区间基本一致,区别在于这里2σ的估计使用了全部样本而不仅仅是i A ,j A 两个水平下的观测值.8.2.2 多重比较问题对每一组(,)i j (8.2.1)给出的区间置信水平都是1-α,但对于多个这样的区间,要求其同时成立,其联合置信水平就不再是1-α.例如,设1,,k E E 是k 个随机事件,且有(E )=1-,=1,,i P i k α,则其同时发生的概率=1(E )=1-k n i i P α,即它们同时发生的概率可能比1-α小很多,为了解决这个问题,常采用多重比较法.在方差分析中,如果经过 检验拒绝原假设,表明因子A 是显著的,即r 个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间确有差异, 哪些水平均值间无显著差异.在(>2)r r 个水平均值中同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著水平α同时检验如下(-1)/2r r 个假设:0:=,1<ij i j H i j r μμ≤≤. (8.2.2)关于假设(8.2.2)的拒绝域应有如下形式: 1<={-}i j ij i j rW y y c ⋅⋅≤≤≥诸临界值应在(8.2.2)成立时由(W)=P α确定.下面介绍重复数相等和不等时临界值确定的方法.8.2.3重复数相等场合的T 法在重复数相等时,由对称性可要求诸ij c 相等,记为c,记2^=eeS f σ,则由条件可得^-~()i ie y tf μσ⋅,于是当(8.2.2)成立时, 1===r μμμ,故有^^^(-)(-)(W)=P(max -min )j i i i ijy y cPμμσσσ⋅⋅≥,这里^^(-)(-)q(r,f )=max -min j i i i e ijy y μμσσ⋅⋅一般称为t 化极差统计量, q(r,f )e 的分布可由随机模拟方法得到, q(r,f )e 的1-α分位数1-q (r,f)α可查表.重复数相同时的多重比较步骤如下:对给定的显著性水平α,差多重比较的分位数1-q (r,f)α表,计算^1-c=q (r,f)ασ,比较诸-i j y y ⋅⋅与c 的大小,若-i j y y c ⋅⋅≥则认为水平i A ,j A ,有显著差异,反之则认为i A ,j A ,间明显差别.这一方法称为T 法.例8.2.2 略8.2.4重复数不等场合的S 法在重复数不等时,仍沿用上面的记号,有(-)-(-)()e y y t f μμ,在假设(8.2.2)成立时, 1===r μμμ,于是有-~()ij e y y t t f或2(-))ij e y y F f要求=ij c 于是有2^1<(W)=P(max F ()i j r ij cP σ≤≤≥由(W)=P α推出2^1-()=(-1)(-1,)e c r F r f ασ,即ij c 例8.2.3 略§8.3 方差齐性检验教学目的:熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题。