第二章 一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X 是确定性变量,Y 是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n误差εi (i=1,2, …,n )仍满足基本假定。
求β1的最小二乘估计 解: 得:2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
证明:其中: ∑∑+-=-=nii i ni X Y Y Y Q 121021))ˆˆ(()ˆ(ββ21112)ˆ()ˆ(i ni i n i ii e X Y Y Y Q β∑∑==-=-=01ˆˆˆˆi i i i iY X e Y Y ββ=+=-即: ∑e i =0 ,∑e i X i =02.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。
答:由于εi ~N(0, σ2 ) i=1,2, …,n所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2 ) 最大似然函数:使得Ln (L )最大的0ˆβ,1ˆβ就是β0,β1的最大似然估计值。
同时发现使得Ln (L )最大就是使得下式最小,上式恰好就是最小二乘估计的目标函数相同。
值得注意的是:最大似然估计是在εi ~N (0, σ2 )的假设下求得,最小二乘估计则不要求分布假设。
所以在εi ~N(0, σ2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。
∑∑+-=-=nii i n i X Y Y Y Q 121021))ˆˆ(()ˆ(ββ0100ˆˆQQββ∂∂==∂∂})],([21exp{)2()(),,(2010122/21210i i ni n i i ni X Y Y f L βββσπσσββ+--=∏=∑=-=2010122210)],([21)2ln(2)},,({i i ni X Y n L Ln βββσπσσββ+---=∑=2.5 证明0ˆβ是β0的无偏估计。
证明:)1[)ˆ()ˆ(1110∑∑==--=-=ni i xx i n i iY L X X X Y n E X Y E E ββ )] )(1([])1([1011i i xx i ni i xx i ni X L X X X n E Y L X X X n E εββ++--=--=∑∑==1010)()1(])1([βεβεβ=--+=--+=∑∑==i xx i ni i xx i ni E L X X X nL X X X n E2.6 证明 证明:)] ()1([])1([)ˆ(102110i i xxi ni ixx i ni X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== 222212]1[])(2)1[(σσxx xx i xx i ni L X n L X X X nL X X X n +=-+--=∑=2.7 证明平方和分解公式:SST=SSE+SSR证明:2.8 验证三种检验的关系,即验证: (1)21)2(rr n t --=(2)2221ˆˆ)2/(1/t L n SSE SSR F xx ==-=σβ 证明:(1)())1()1()ˆ(222122xx ni iL X n X XX nVar +=-+=∑=σσβ()()∑∑==-+-=-=n i ii i n i i Y Y Y Y Y Y SST 1212]ˆ()ˆ[()()()∑∑∑===-+--+-=ni ii ni i i i ni iY Y Y Y Y Y Y Y 12112)ˆˆ)(ˆ2ˆ()()SSESSR )Y ˆY Y Y ˆn1i 2ii n1i 2i +=-+-=∑∑==ˆt======(2)2222201111 1111ˆˆˆˆˆˆ()()(())(()) n n n ni i i i xxi i i iSSR y y x y y x x y x x Lβββββ=====-=+-=+--=-=∑∑∑∑2212ˆ/1ˆ/(2)xxLSSRF tSSE nβσ∴===-2.9 验证(2.63)式:2211σ)L)xx(n()e(Varxxii---=证明:0112222222ˆˆˆvar()var()var()var()2cov(,)ˆˆˆvar()var()2cov(,())()()11[]2[]()1[1]i i i i i i ii i i ii ixx xxixxe y y y y y yy x y y x xx x x xn L n Lx xn Lβββσσσσ=-=+-=++-+---=++-+-=--其中:222221111))(1()(1))(,()()1,())(ˆ,(),())(ˆ,(σσσββxxixxiniixxiiiniiiiiiiiLxxnLxxnyLxxyCovxxynyCovxxyCovyyCovxxyyCov-+=-+=--+=-+=-+∑∑==2.10 用第9题证明是σ2的无偏估计量证明:2221122112211ˆˆ()()()22()111var()[1]221(2)2n ni ii in niii i xxE E y y E en nx xen n n Lnnσσσσ=====-=---==----=-=-∑∑∑∑2ˆ22-=∑neiσ2.11 验证决定系数与F 值之间的关系式22-+=n F Fr证明:211/121/(/(2))1221SSR SSR r SST SSR SSE SSE SSRn SSR SSE n F n F n F ===++=-+-==-+-+2.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y (万元)和广告费用x (万元),数据见表2.6,要求用手工计算: 表2.6(1) 画散点图(略)(2) X 与Y 是否大致呈线性关系? 答:从散点图看,X 与Y 大致呈线性关系。
(3) 用最小二乘法估计求出回归方程。
计算表(4) 求回归标准误差先求SSR (Q e )见计算表。
所以(5)由于(1-α)的置信度下, 的置信区间是 查表可得 915.110667.36ˆ2ˆ1===xxL S σβ 所以的95%的区间估计为:(7—3.182*1.915,7+3.182*1.915),即(0.906,13.094)。
351.6)102551(667.36)1(ˆ22ˆ=+=+=xx L X n S σβ 所以 的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351),即(-21.211, 19.211)。
^0β的置信区间包含0,表示^0β不显著。
(6) 计算x 和y 的决定系数说明回归方程的拟合优度高。
(7) 对回归方程作方差分析方差分析表F 值=13.364>F 0.05(1,3)=10.13(当n 1=1,n 2=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。
22ˆˆˆˆ(,)iii i t s t s ααββββ-⨯+⨯iβˆ182.3)3()2(025.02/==-t n t α1ˆβ0ˆβ(8) 做回归系数β1的显著性检验 H0: β1=0656.3915.1/7/ˆ1ˆ1===ββS t t 值=3.656>t 0.05/2(3)=3.182,所以拒绝原假设,说明x 对Y 有显著的影响。
(9) 做相关系数R 的显著性检验R 值=0.904>R 0.05(3)=0.878,所以接受原假设,说明x 和Y 有显著的线性关系。
(10)对回归方程作残差图并作相应的分析残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随机波动,基本满足模型的假设e i ~N(0, σ2 ), 但由于样本量太少, 所以误差较大.(11) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间.解: 当X 0=4.2时,所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时,Y 0估计值的置信区间为:)1044.1511(667.36)(11(ˆ202ˆ0++=-++=-xx YY L X X n S σ所以求得Y 0的95%的置信区间为: [6.05932 ,50.74068] 预测误差较大.022ˆ000ˆ0ˆˆYY Y Y S t Y Y S t Y --⨯+<<⨯-αα4.282.471ˆˆˆ0100=⨯+-=+=X Y ββ2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。
经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。
见表2.7。
表2..72、由散点图可以看出,x与y之间大致呈线性关系。
3、用最小二乘法求出回归系数由表可知:118.0βˆ0= 00359.0βˆ1= 回归方程为:x 00359.0118.0y ˆ+=4、求回归标准误差σˆ由方差分析表可以得到:SSE=1.843故回归标准误差2^2SSEn σ=-,^σ=0.48。
5、给出回归系数的置信度为95%的区间估计由回归系数显著性检验表可以看出,当置信度为95%时:^0β的预测区间为[-0.701,0.937], ^1β的预测区间为[0.003,0.005]. ^0β的置信区间包含0,表示^0β不拒绝为零的假设。
6、决定系数由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高。
7. 对回归方程作方差分析由方差分析表可知:F值=72.396>5.32(当n1=1,n2=8时,查表得对应的值为5.32)P值≈0,所以拒绝原假设,说明回归方程显著。
8、对^1β的显著性检验从上面回归系数显著性检验表可以得到^1β的t统计量为t=8.509,所对应的p值近似为0,通过t检验。
说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。
9.做相关系数显著性检验相关系数达到0.949,说明x与y显著线性相关。