第二章 一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X 是确定性变量,Y 是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=s 2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, s 2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n误差εi (i=1,2, …,n)仍满足基本假定。
求β1的最小二乘估计 解: 得:2.3 证明(2.27式),S e i =0 ,S e i X i =0 。
证明:∑∑+-=-=nii i ni X Y Y Y Q 121021))ˆˆ(()ˆ(ββ其中:即: S e i =0 ,S e i X i =021112)ˆ()ˆ(ini i ni i i e X Y Y Y Q β∑∑==-=-=0)ˆ(2ˆ111=--=∂∂∑=ii ni i eX X Y Q ββ)()(ˆ1211∑∑===ni i ni ii X Y X β01ˆˆˆˆi ii i iY X e Y Y ββ=+=-0100ˆˆQQββ∂∂==∂∂2.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。
答:由于εi ~N(0, s 2 ) i=1,2, …,n所以Y i =β0 + β1X i + εi ~N (β0+β1X i , s 2 ) 最大似然函数:使得Ln (L )最大的0ˆβ,1ˆβ就是β0,β1的最大似然估计值。
同时发现使得Ln (L )最大就是使得下式最小,∑∑+-=-=nii i n i X Y Y Y Q 121021))ˆˆ(()ˆ(ββ上式恰好就是最小二乘估计的目标函数相同。
值得注意的是:最大似然估计是在εi ~N (0, s 2 )的假设下求得,最小二乘估计则不要求分布假设。
所以在εi ~N(0, s 2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。
2.5 证明0ˆβ是β0的无偏估计。
证明:)1[)ˆ()ˆ(1110∑∑==--=-=ni i xx i n i iY L X X X Y n E X Y E E ββ )] )(1([])1([1011i i xx i n i i xx i ni X L X X X n E Y L X X X n E εββ++--=--=∑∑==1010)()1(])1([βεβεβ=--+=--+=∑∑==i xx i ni i xx i ni E L X X X nL X X X n E 2.6 证明 证明:)] ()1([])1([)ˆ(102110i i xx i ni i xx i ni X Var L X X X nY L X X X n Var Var εβββ++--=--=∑∑==())1()1()ˆ(222122xx ni iL X n X XX nVar +=-+=∑=σσβ222212]1[])(2)1[(σσxx xx i xx i ni L X n L X X X nL X X X n +=-+--=∑=2.7 证明平方和分解公式:SST=SSE+SSR证明:2.8 验证三种检验的关系,即验证: (1)21)2(r r n t --=;(2)2221ˆˆ)2/(1/t L n SSE SSR F xx ==-=σβ 证明:(1)ˆt ======(2)22222011111111ˆˆˆˆˆˆ()()(())(())nnnni i ii xx i i i i SSR y y x y y x x y x x L βββββ=====-=+-=+--=-=∑∑∑∑2212ˆ/1ˆ/(2)xx L SSR F t SSE n βσ∴===-2.9 验证(2.63)式:2211σ)L )x x (n ()e (Var xx i i ---=证明:112222222ˆˆˆvar()var()var()var()2cov(,)ˆˆˆvar()var()2cov(,())()()11[]2[]()1[1]i i i i i i i iiiii i xx xxi xxe y yy y y y y x y y x x x x x x n L n L x x n L βββσσσσ=-=+-=++-+---=++-+-=--()()∑∑==-+-=-=n i ii i n i i Y Y Y Y Y Y SST 1212]ˆ()ˆ[()()()∑∑∑===-+--+-=ni ii ni i i i ni iY Y Y Y Y Y Y Y 12112)ˆˆ)(ˆ2ˆ()()SSESSR )Y ˆY Y Y ˆn1i 2ii n1i 2i +=-+-=∑∑==其中:222221111))(1()(1))(,()()1,())(ˆ,(),())(ˆ,(σσσββxxi xx i ni i xx ii i ni i i ii i i i L x x n L x x n y L x x y Cov x x y n y Cov x x y Cov y y Cov x x y y Cov -+=-+=--+=-+=-+∑∑==2.10 用第9题证明2ˆ22-=∑n e iσ是s 2的无偏估计量证明:2221122112211ˆˆ()()()22()111var()[1]221(2)2n n i i i i n n i i i i xx E E y y E e n n x x e n n n L n n σσσσ=====-=---==----=-=-∑∑∑∑ 2.11 验证决定系数与F 值之间的关系式22-+=n F Fr证明:211/121/(/(2))1221SSR SSR r SST SSR SSE SSE SSRn SSR SSE n F n F n F ===++=-+-==-+-+2.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y (万元)和广告费用x (万元),数据见表2.6,要求用手工计算: 表2.6(1) 画散点图(略)(2) X 与Y 是否大致呈线性关系? 答:从散点图看,X 与Y 大致呈线性关系。
(3) 用最小二乘法估计求出回归方程。
计算表(4) 求回归标准误差先求SSR (Q e )见计算表。
所以(5) 给出 的置信度为95%的区间估计; 由于(1-a)的置信度下,的置信区间是 查表可得 915.110667.36ˆ2ˆ1===xxL S σβ 所以 的95%的区间估计为:(7—3.182*1.915,7+3.182*1.915),即(0.906,13.094)。
351.6)102551(667.36)1(ˆ22ˆ=+=+=xx L X n S σβ 所以 的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351), 即(-21.211, 19.211)。
^0β的置信区间包含0,表示^0β不显著。
(6) 计算x 和y 的决定系数10ˆ,ˆββ22ˆˆˆˆ(,)iii i t s t s ααββββ-⨯+⨯iβˆ182.3)3()2(025.02/==-t n t α1ˆβ0ˆβ说明回归方程的拟合优度高。
(7) 对回归方程作方差分析方差分析表F 值=13.364>F 0.05(1,3)=10.13(当n 1=1,n 2=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。
(8)做回归系数β1的显著性检验H0: β1=0656.3915.1/7/ˆ1ˆ1===ββS t t 值=3.656>t 0.05/2(3)=3.182,所以拒绝原假设,说明x 对Y 有显著的影响。
(8) 做相关系数R 的显著性检验R 值=0.904>R 0.05(3)=0.878,所以接受原假设,说明x 和Y 有显著的线性关系。
(9) 对回归方程作残差图并作相应的分析残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随机波动,基本满足模型的假设e i ~N(0, s 2 ), 但由于样本量太少, 所以误差较大.(10) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间. 解: 当X 0=4.2时,所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时,Y 0估计值的置信区间为:022ˆ000ˆ0ˆˆYY Y Y S t Y Y S t Y --⨯+<<⨯-αα)1044.1511(667.36)(11(ˆ202ˆ0++=-++=-xx YY L X X n S σ所以求得Y 0的95%的置信区间为: [6.05932 ,50.74068] 预测误差较大.2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。
经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x 为每周新签发的保单数目,y 为每周加班工作时间(小时)。
见表2.7。
表2..72、由散点图可以看出, x 与y 之间大致呈线性关系。
4.282.471ˆˆˆ0100=⨯+-=+=X Y ββ3、用最小二乘法求出回归系数由表可知:118.0β= 00359.0β1= 回归方程为: x 00359.0118.0y ˆ+=4、求回归标准误差σˆ由方差分析表可以得到:SSE=1.843故回归标准误差2^2SSEn σ=-,^σ=0.48。
5、给出回归系数的置信度为95%的区间估计由回归系数显著性检验表可以看出,当置信度为95%时:^0β的预测区间为[-0.701,0.937], ^1β的预测区间为[0.003,0.005].^0β的置信区间包含0,表示^0β不拒绝为零的假设。
6、决定系数由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高。
7. 对回归方程作方差分析 由方差分析表可知:F 值=72.396>5.32(当n 1=1,n 2=8时,查表得对应的值为5.32) P 值≈0,所以拒绝原假设,说明回归方程显著。
8、对^1β的显著性检验从上面回归系数显著性检验表可以得到^1β的t 统计量为t=8.509,所对应的p 值近似为0,通过t 检验。