当前位置:文档之家› 高中数学:第八章 方差分析与回归分析

高中数学:第八章 方差分析与回归分析

高中数学:第八章 方差分析与回归分析§1 单因素试验的方差分析试验指标:研究对象的某种特征。

例 各人的收入。

因素:与试验指标相关的条件。

例 各人的学历,专业,工作经历等与工资有关的特征。

因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。

问题:各因素水平对试验指标有无显著的差异?单因素试验方差分析模型 假设1) 影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。

各个总体的抽样过程是独立的。

3)2~(,)i i i X N μσ,且22i j σσ=。

问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。

注1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。

2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。

检验方法数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,11ri i i n n μμ==∑。

不难验证,10ri k δ==∑。

各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑g ;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理)T A E S S S =+。

即222111111()()()iiin n n rrrij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑g g ,或直接证明。

注:利用11()()0in r ij i i i j X X X X ==--=∑∑即可证明。

定理2(统计特性)2()E ES n r σ=-,221(1)rA i ii ES r n σδ==-+∑,221(1)rT i i i ES n n σδ==-+∑。

证 2222221111()(())i in n r r E iji i i i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑g221(1)()ri i n n r σσ==-=-∑22211()r rA i i i i i i ES n E X X n EX nEX ===-=-∑∑g g22221()()ri ii in n n nσσμμ==+-+∑221(1)ri i i r n σδ==-+∑定理31)22/~()E S n r σχ-,且E S 与A S 独立;2)如果假设0H 成立,那么,22/~(1)T S n σχ-;且如果假设i n m =,1i r ≤≤,则还有,22/~(1)A S r σχ-。

证 1)由于不同水平的样本间的独立性,E S 较易处理。

对固定的i ,2~(,)ij i i X N μσ,1,,i j n =L ,且独立,所以由第五章定理2的结论,22211()~(1)iin n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑g g , 利用2χ可加性,即得2221/~()()rE i i S n r n r σχχ=-=-∑,且i X g 与E S 独立。

注意到11ri i i X n X n ==∑g ,因此X 也与E S 独立,从而A S 也与E S 独立。

注 这里只需方差假设相同,不需要假设均值相同。

2)~(0,1)ij iX N μσ-,且独立,同样利用第五章定理2,22,,1()~(1)ij ii j i i j i j X X n n μμχσσ'''''----∑∑。

但在假设成立时,222,,,11()()ij ii j i ij i ji j i jX X X X n μμσσσ'''''---=-∑∑∑,即得结论。

且X 与T S 独立。

同时,2221()()/~(1)ri A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭∑g 。

注 此处结论证明利用了i n 都相等,即利用:1,11r k ij k i jX X r n ==∑∑g 。

但上述结论在组样本容量不同时,直接利用正交变换仍可类似证明。

从统计角度看,如果假设0H 成立,那么2111E A ES ES n r r σ==--,而在假设不成立时,21111111r A E i i E i ES ES n ES r n r r n r δ==+>----∑,即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。

那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。

定理 置信度为α时,假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。

参数估计问题如果各因素有显著差异,即对某些水平i j μμ≠,那么就需要估计这些参数的值和2σ。

1.最大似然估计总体2~(,)i i X N μσ22()2i x μσ--,所以最大似然函数为22()221,(,,,)ij i x r i jL μσμμσ--=L ,一般,我们把i μ分成两部分:i i μμδ=+,其中1i ir μμ=∑。

所以i δ即表示了各水平的差异,有0i i in δ=∑。

由此最大似然函数可表示为,22()221,(,,,,)ij i x r i jL μδσμδδσ---=L 。

对数最大似然函数:22212,()ln (,,,,)ln(2)22ij i r i jx n L μδμδδσπσσ--=--∑L ,约束条件:0i iin δ=∑。

求其最大值点得:212,()ln (,,,,)202ij i r i jx L μδμδδσμσ--∂==∂∑L , 即:,0ij i i i jix n n μδ--=∑∑;或,0nx n μ-=。

21211()[ln (,,,,)]202ir ij i r i i i i j n i x L k n kn μδμδδσδδσ=≤≤--∂+=+=∂∑∑L , (k 是拉格朗日乘子)即20i i i i i i n x n n k n μδσ---=g ;或,20i i x k μδσ---=g ;221224,1ln (,,,,)()022r iji i jn L xμδδσμδσσσ∂=-+--=∂∑L ,即22,1()ij i i j x n σμδ=--∑,或,2222,1{22}ij i i i i i i j i ix nx n x n n n σμδμδ=--++∑∑∑, 整理结果得:ˆx μ=,2ˆˆˆi i x k δμσ=--g。

由此利用ˆ0i i in δ=∑,解得2ˆˆk x σμ=-。

因此i i x x δ=-g 。

所以2222,1ˆˆˆ{2}ij i i i i i i jiix nx n x n nσδδ=--+∑∑∑g, 同时,2ˆˆˆˆ2()2i i i i i i i i i i i iiiin n x n x x n x δδδδ-=--∑∑∑∑g g g22ˆ()i i i i i i i i iiin x n x x x n x nx δ=-=--=-+∑∑∑gg g g , 因此222,1ˆ{}Eij i i i jiS x n x n nσ=-=∑∑g 。

2.区间估计第i 个水平的均值:2~(,/)i i i X N n μσ,即~(0,1)X N ;且22/~()E S n r σχ-与其独立,所以~()t n r -。

即可得到置信区间:/2/2(((i i X t n r X t n r αα--+-。

但,必须注意,对整个问题而言,置信水平不再是1α-。

记事件/2/2{(((i i i i E X t n r X t n r ααμ=∈--+-。

则()1i P E α=-。

但()1()1i i iiP E P E r α=-≥-I U 。

§2 一元线性回归设有两个总体(,)X Y ,它们之间不是独立的,而是具有某种依赖关系,即对它们抽样,得到的是一对样本和观测值:11(,),,(,)n n X Y X Y L ,11(,),,(,)n n x y x y L 。

例 父子的身高;某种动物体重和体积,等等。

现在关心的问题是:从观测的结果,能否找出它们之间的联系?即()()Y f X X ε=+,其中ε是随机变量。

从实际问题出发,也可认为X 是非随机的确定自变量,本来两者之间应该有确定的函数关系,但由于某种干扰,这种关系产生了某种不确定性。

如何合理地确定其关系()f x ?一元线性回归模型 假设1)01Y x ββε=++; 2)2~(0,)N εσ。

每次抽样,01i i i Y x ββε=++,其中2~(0,)i N εσ,且相互间是独立。

等价的观点:201~(,)i i Y N x ββσ+。

问题 由样本观测数据11(,),,(,)n n x y x y L ,如何合理估计参数01,ββ?方法1)确定性观点:最小二乘法01201,1min ()ni i i y x ββββ=--∑,使观测得到的ε的样本平方和偏差最小。

解 记11n i i y y n ==∑,11ni i x x n ==∑,11()()n nxy i i i i i i l x x y y x y nxy ===--=-∑∑,22211()n n xx i ii i l x x x nx ===-=-∑∑,22211()n nyy i i i i l y y y ny ===-=-∑∑。

相关主题