当前位置：文档之家› 方差分析与回归分析

方差分析与回归分析

方差分析与回归分析 Company number：【WTUT-WT88Y-W8BBGB-BWYTT-19998】第八章方差分析与回归分析§1 单因素试验的方差分析试验指标：研究对象的某种特征。

例各人的收入。

因素：与试验指标相关的条件。

例各人的学历，专业，工作经历等与工资有关的特征。

因素水平：因素所在的状态例学历是因素，而高中，大学，研究生等，就是学历因素水平；数学，物理等就是专业的水平。

问题：各因素水平对试验指标有无显着的差异单因素试验方差分析模型假设1）影响试验指标的因素只有一个，为A ，其水平有r 个：1,,r A A ；2）每个水平i A 下，试验指标是一个总体i X 。

各个总体的抽样过程是独立的。

3）2~(,)i i i X N μσ，且22i j σσ=。

问题：分析水平对指标的影响是否相同1）对每个总体抽样得到样本{,1}ij i X j n ≤≤，由其检验假设：原假设0:i j H μμ=，,i j ∀；备选假设：1:i j H μμ≠，,i j ∃； 2）如果拒绝原假设，则对未知参数21,,,r μμσ进行参数估计。

注1）接受假设即认为：各个水平之间没有显着差异，反之则有显着差异。

2）在水平只有两个时，问题就是双正态总体的均值假设检验问题和参数估计问题。

检验方法数据结构式：ij i ij i ij X μεμδε=+=++，偏差2~(0,)ij N εσ是相互独立的，11ri i i n n μμ==∑。

不难验证，10ri k δ==∑。

各类样本均值水平i A 的样本均值：11in i ijj iX Xn ==∑；水平总样本均值：11111i n r rij i i i j i X X n X n n =====∑∑∑，1ri i n n ==∑；偏差平方和与效应组间偏差平方和：22211()rrA i i i i i i S n X X n X nX ===-=-∑∑；（衡量由不同水平产生的差异）组内偏差平方和：2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑；（衡量由随机因素在同一水平上产生的差异）总偏差平方和：222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑；（综合衡量因素，水平之间，随机因素的差异）定理1（总偏差平方和分解定理） T A E S S S =+。

即222111111()()()iiin n n rrrij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑，或直接证明。

注：利用11()()0in r ij i i i j X X X X ==--=∑∑即可证明。

定理2（统计特性）2()E ES n r σ=-，221(1)rA i ii ES r n σδ==-+∑，221(1)rT i i i ES n n σδ==-+∑。

证 2222221111()(())i in n r r E iji ii i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑定理31）22/~()E S n r σχ-，且E S 与A S 独立；2）如果假设0H 成立，那么，22/~(1)T S n σχ-；且如果假设i n m =，1i r ≤≤，则还有，22/~(1)A S r σχ-。

证 1）由于不同水平的样本间的独立性，E S 较易处理。

对固定的i ， 2~(,)ij i i X N μσ，1,,i j n =，且独立，所以由第五章定理2的结论，22211()~(1)iin n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑，利用2χ可加性，即得2221/~()()rE i i S n r n r σχχ=-=-∑，且i X 与E S 独立。

注意到11ri i i X n X n ==∑，因此X 也与E S 独立，从而A S 也与E S 独立。

注这里只需方差假设相同，不需要假设均值相同。

2）~(0,1)ij iX N μσ-，且独立，同样利用第五章定理2，22,,1()~(1)ij ii j i i ji j X X n n μμχσσ'''''----∑∑。

但在假设成立时，222,,,11()()ij ii j i ij i ji j i jX X X X n μμσσσ'''''---=-∑∑∑，即得结论。

且X 与T S 独立。

同时，2221()()/~(1)ri A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭∑。

注此处结论证明利用了i n 都相等，即利用：1,11r k ij k i jX X r n ==∑∑。

但上述结论在组样本容量不同时，直接利用正交变换仍可类似证明。

从统计角度看，如果假设0H 成立，那么2111E A ES ES n r r σ==--，而在假设不成立时，21111111r A E i iE i ES ES n ES r n r r n r δ==+>----∑，即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。

那么，大到何值可以采信为推翻假设的反例，就回到前面的假设检验问题了。

定理置信度为α时，假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。

参数估计问题如果各因素有显着差异，即对某些水平i j μμ≠，那么就需要估计这些参数的值和2σ。

1．最大似然估计总体2~(,)i i XN μσ22()2i x μσ--，所以最大似然函数为22()221,(,,,)ij i x r i jL μσμμσ--=，一般，我们把i μ分成两部分：i i μμδ=+，其中1i ir μμ=∑。

所以i δ即表示了各水平的差异，有0i i in δ=∑。

由此最大似然函数可表示为，22()221,(,,,,)ij ixri jLμδσμδδσ---=。

对数最大似然函数：22212,()ln(,,,,)ln(2)22ij iri jxnLμδμδδσπσσ--=--∑，约束条件：i iinδ=∑。

求其最大值点得：212,()ln(,,,,)202ij iri jxLμδμδδσμσ--∂==∂∑，即：,ij i ii j ix n nμδ--=∑∑；或，0nx nμ-=。

21211()[ln(,,,,)]202irij ir i i ii j nixL k n knμδμδδσδδσ=≤≤--∂+=+=∂∑∑，（k是拉格朗日乘子）即20i i i i i in x n n k nμδσ---=；或，20i ix kμδσ---=；221224,1ln(,,,,)()022r ij ii jnL xμδδσμδσσσ∂=-+--=∂∑，即22,1()ij ii jxnσμδ=--∑，或，2222,1{22}ij i i i i ii j i ix nx n x n nnσμδμδ=--++∑∑∑，整理结果得：ˆxμ=，2ˆˆˆi ix kδμσ=--。

由此利用ˆ0i iinδ=∑，解得2ˆˆk xσμ=-。

因此i ix xδ=-。

所以2222,1ˆˆˆ{2}ij i i i i ii j i ix nx n x nnσδδ=--+∑∑∑，同时，2ˆˆˆˆ2()2i i i i i i i i i i ii i i in n x n x x n xδδδδ-=--∑∑∑∑22ˆ()i i i i i i i ii i in x n x x x n x nxδ=-=--=-+∑∑∑，因此222,1ˆ{}Eij i ii j iSx n xn nσ=-=∑∑。

2．区间估计第i 个水平的均值：2~(,/)i i i X N n μσ~(0,1)X N ；且22/~()E S n r σχ-与其独立，所以~()t n r -。

即可得到置信区间：/2/2(((i i X t n r X t n r αα--+-。

但，必须注意，对整个问题而言，置信水平不再是1α-。

记事件/2/2{(((i i i i E X t n r X t n r ααμ=∈--+-。

则()1i P E α=-。

但()1()1i i iiP E P E r α=-≥-。

§2 一元线性回归设有两个总体(,)X Y ，它们之间不是独立的，而是具有某种依赖关系，即对它们抽样，得到的是一对样本和观测值：11(,),,(,)n n X Y X Y ，11(,),,(,)n n x y x y 。

例父子的身高；某种动物体重和体积，等等。

现在关心的问题是：从观测的结果，能否找出它们之间的联系即()()Y f X X ε=+，其中ε是随机变量。

从实际问题出发，也可认为X 是非随机的确定自变量，本来两者之间应该有确定的函数关系，但由于某种干扰，这种关系产生了某种不确定性。

如何合理地确定其关系()f x一元线性回归模型假设1）01Y x ββε=++； 2）2~(0,)N εσ。

每次抽样，01i i i Y x ββε=++，其中2~(0,)i N εσ，且相互间是独立。

等价的观点：201~(,)i i Y N x ββσ+。

问题由样本观测数据11(,),,(,)n n x y x y ，如何合理估计参数01,ββ方法1）确定性观点：最小二乘法01201,1min ()ni i i y x ββββ=--∑，使观测得到的ε的样本平方和偏差最小。

解记11n i i y y n ==∑，11ni i x x n ==∑，11()()n nxy i i i i i i l x x y y x y nxy ===--=-∑∑，22211()n n xx i ii i l x x x nx ===-=-∑∑，22211()n nyy i i i i l y y y ny ===-=-∑∑。

求偏导得011011()0()0ni i i n i i i i y x y x x ββββ==⎧--=⎪⎪⎨⎪--=⎪⎩∑∑，解方程组得，01201110nn i i i i i ny n n x x y nx x ββββ==--=⎧⎪⎨--=⎪⎩∑∑，即22111()0nni i i i i x y nxy x nx β==---=∑∑，因此解为：01ˆˆxy xx xy xx l y xl l l ββ⎧=-⎪⎪⎨⎪=⎪⎩。

e商务文档

方差分析与回归分析

相关文档推荐：