当前位置:文档之家› 方差分析与回归分析

方差分析与回归分析

方差分析与回归分析 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】第八章 方差分析与回归分析§1 单因素试验的方差分析试验指标:研究对象的某种特征。

例 各人的收入。

因素:与试验指标相关的条件。

例 各人的学历,专业,工作经历等与工资有关的特征。

因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。

问题:各因素水平对试验指标有无显着的差异 单因素试验方差分析模型 假设1)影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A ;2)每个水平i A 下,试验指标是一个总体i X 。

各个总体的抽样过程是独立的。

3)2~(,)i i i X N μσ,且22i j σσ=。

问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσ进行参数估计。

注1)接受假设即认为:各个水平之间没有显着差异,反之则有显着差异。

2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。

检验方法数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,11ri i i n n μμ==∑。

不难验证,10ri k δ==∑。

各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理) T A E S S S =+。

即222111111()()()iiin n n rrrij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑,或直接证明。

注:利用11()()0in r ij i i i j X X X X ==--=∑∑即可证明。

定理2(统计特性)2()E ES n r σ=-,221(1)rA i ii ES r n σδ==-+∑,221(1)rT i i i ES n n σδ==-+∑。

证 2222221111()(())i in n r r E iji ii i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑定理31)22/~()E S n r σχ-,且E S 与A S 独立;2)如果假设0H 成立,那么,22/~(1)T S n σχ-;且如果假设i n m =,1i r ≤≤,则还有,22/~(1)A S r σχ-。

证 1)由于不同水平的样本间的独立性,E S 较易处理。

对固定的i , 2~(,)ij i i X N μσ,1,,i j n =,且独立,所以由第五章定理2的结论,22211()~(1)iin n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑, 利用2χ可加性,即得2221/~()()rE i i S n r n r σχχ=-=-∑,且i X 与E S 独立。

注意到11ri i i X n X n ==∑,因此X 也与E S 独立,从而A S 也与E S 独立。

注 这里只需方差假设相同,不需要假设均值相同。

2)~(0,1)ij iX N μσ-,且独立,同样利用第五章定理2,22,,1()~(1)ij ii j i i ji j X X n n μμχσσ'''''----∑∑。

但在假设成立时,222,,,11()()ij ii j i ij i ji j i jX X X X n μμσσσ'''''---=-∑∑∑,即得结论。

且X 与T S 独立。

同时,2221()()/~(1)ri A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭∑。

注 此处结论证明利用了i n 都相等,即利用:1,11r k ij k i jX X r n ==∑∑。

但上述结论在组样本容量不同时,直接利用正交变换仍可类似证明。

从统计角度看,如果假设0H 成立,那么2111E A ES ES n r r σ==--,而在假设不成立时,21111111r A E i iE i ES ES n ES r n r r n r δ==+>----∑,即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。

那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。

定理 置信度为α时,假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。

参数估计问题如果各因素有显着差异,即对某些水平i j μμ≠,那么就需要估计这些参数的值和2σ。

1.最大似然估计总体2~(,)i i XN μσ22()2i x μσ--,所以最大似然函数为22()221,(,,,)ij i x r i jL μσμμσ--=,一般,我们把i μ分成两部分:i i μμδ=+,其中1i ir μμ=∑。

所以i δ即表示了各水平的差异,有0i i in δ=∑。

由此最大似然函数可表示为,22()221,(,,,,)ij ixri jLμδσμδδσ---=。

对数最大似然函数:22212,()ln(,,,,)ln(2)22ij iri jxnLμδμδδσπσσ--=--∑,约束条件:i iinδ=∑。

求其最大值点得:212,()ln(,,,,)202ij iri jxLμδμδδσμσ--∂==∂∑,即:,ij i ii j ix n nμδ--=∑∑;或,0nx nμ-=。

21211()[ln(,,,,)]202irij ir i i ii j nixL k n knμδμδδσδδσ=≤≤--∂+=+=∂∑∑,(k是拉格朗日乘子)即20i i i i i in x n n k nμδσ---=;或,20i ix kμδσ---=;221224,1ln(,,,,)()022r ij ii jnL xμδδσμδσσσ∂=-+--=∂∑,即22,1()ij ii jxnσμδ=--∑,或,2222,1{22}ij i i i i ii j i ix nx n x n nnσμδμδ=--++∑∑∑,整理结果得:ˆxμ=,2ˆˆˆi ix kδμσ=--。

由此利用ˆ0i iinδ=∑,解得2ˆˆk xσμ=-。

因此i ix xδ=-。

所以2222,1ˆˆˆ{2}ij i i i i ii j i ix nx n x nnσδδ=--+∑∑∑,同时,2ˆˆˆˆ2()2i i i i i i i i i i ii i i in n x n x x n xδδδδ-=--∑∑∑∑22ˆ()i i i i i i i ii i in x n x x x n x nxδ=-=--=-+∑∑∑,因此222,1ˆ{}Eij i ii j iSx n xn nσ=-=∑∑。

2.区间估计第i 个水平的均值:2~(,/)i i i X N n μσ~(0,1)X N ;且22/~()E S n r σχ-与其独立,所以~()t n r -。

即可得到置信区间:/2/2(((i i X t n r X t n r αα--+-。

但,必须注意,对整个问题而言,置信水平不再是1α-。

记事件/2/2{(((i i i i E X t n r X t n r ααμ=∈--+-。

则()1i P E α=-。

但()1()1i i iiP E P E r α=-≥-。

§2 一元线性回归设有两个总体(,)X Y ,它们之间不是独立的,而是具有某种依赖关系,即对它们抽样,得到的是一对样本和观测值:11(,),,(,)n n X Y X Y ,11(,),,(,)n n x y x y 。

例 父子的身高;某种动物体重和体积,等等。

现在关心的问题是:从观测的结果,能否找出它们之间的联系即()()Y f X X ε=+,其中ε是随机变量。

从实际问题出发,也可认为X 是非随机的确定自变量,本来两者之间应该有确定的函数关系,但由于某种干扰,这种关系产生了某种不确定性。

如何合理地确定其关系()f x一元线性回归模型 假设1)01Y x ββε=++; 2)2~(0,)N εσ。

每次抽样,01i i i Y x ββε=++,其中2~(0,)i N εσ,且相互间是独立。

等价的观点:201~(,)i i Y N x ββσ+。

问题 由样本观测数据11(,),,(,)n n x y x y ,如何合理估计参数01,ββ方法1) 确定性观点:最小二乘法01201,1min ()ni i i y x ββββ=--∑,使观测得到的ε的样本平方和偏差最小。

解 记11n i i y y n ==∑,11ni i x x n ==∑,11()()n nxy i i i i i i l x x y y x y nxy ===--=-∑∑,22211()n n xx i ii i l x x x nx ===-=-∑∑,22211()n nyy i i i i l y y y ny ===-=-∑∑。

求偏导得011011()0()0ni i i n i i i i y x y x x ββββ==⎧--=⎪⎪⎨⎪--=⎪⎩∑∑,解方程组得,01201110nn i i i i i ny n n x x y nx x ββββ==--=⎧⎪⎨--=⎪⎩∑∑, 即22111()0nni i i i i x y nxy x nx β==---=∑∑,因此解为:01ˆˆxy xx xy xx l y xl l l ββ⎧=-⎪⎪⎨⎪=⎪⎩。

相关主题