当前位置:文档之家› 应用回归分析 课后答案 浙江万里学院

应用回归分析 课后答案 浙江万里学院

2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X 是确定性变量,Y 是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n误差εi (i=1,2, …,n )仍满足基本假定。

求β1的最小二乘估计 解: 得:2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。

证明:其中:即: ∑e i =0 ,∑e i X i =02.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。

∑∑+-=-=nii i n i X Y Y Y Q 121021))ˆˆ(()ˆ(ββ21112)ˆ()ˆ(i ni i n i ii e X Y Y Y Q β∑∑==-=-=0)ˆ(2ˆ111=--=∂∂∑=ii ni i eX X Y Q ββ)()(ˆ1211∑∑===ni ini ii XY X β01ˆˆˆˆi ii i iY X e Y Y ββ=+=-0100ˆˆQQββ∂∂==∂∂答:由于εi ~N(0, σ2) i=1,2, …,n所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2) 最大似然函数:使得Ln (L )最大的0ˆβ,1ˆβ就是β0,β1的最大似然估计值。

同时发现使得Ln (L )最大就是使得下式最小,上式恰好就是最小二乘估计的目标函数相同。

值得注意的是:最大似然估计是在εi ~N(0, σ2 )的假设下求得,最小二乘估计则不要求分布假设。

所以在εi ~N(0, σ2) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。

2.5 证明0ˆβ是β0的无偏估计。

证明:)1[)ˆ()ˆ(1110∑∑==--=-=ni i xxi n i i Y L X X X Y n E X Y E E ββ )] )(1([])1([1011i i xx i n i i xx i ni X L X X X n E Y L X X X n E εββ++--=--=∑∑==1010)()1(])1([βεβεβ=--+=--+=∑∑==i xx i ni i xx i ni E L X X X nL X X X n E 2.6 证明 证明:)] ()1([])1([)ˆ(102110i i xxi ni ixx i ni X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== 222212]1[])(2)1[(σσxx xx i xx i ni L X n L X X X nL X X X n +=-+--=∑=2.7 证明平方和分解公式:SST=SSE+SSR∑∑+-=-=nii i n i X Y Y Y Q 121021))ˆˆ(()ˆ(ββ())1()1()ˆ(222122xx ni iL X n X XX nVar +=-+=∑=σσβ证明:2.8 验证三种检验的关系,即验证: (1)21)2(r r n t --=;(2)2221ˆˆ)2/(1/t L n SSE SSR F xx ==-=σβ 证明:(1)ˆt ======(2)22222011111111ˆˆˆˆˆˆ()()(())(())nnnni i ii xx i i i i SSR y y x y y x x y x x L βββββ=====-=+-=+--=-=∑∑∑∑2212ˆ/1ˆ/(2)xx L SSR F t SSE n βσ∴===-2.9 验证(2.63)式:2211σ)L )x x (n ()e (Var xxi i ---=证明:112222222ˆˆˆvar()var()var()var()2cov(,)ˆˆˆvar()var()2cov(,())()()11[]2[]()1[1]i i i i i i i iiiii i xx xxi xxe y yy y y y y x y y x x x x x x n L n L x x n L βββσσσσ=-=+-=++-+---=++-+-=--其中:222221111))(1()(1))(,()()1,())(ˆ,(),())(ˆ,(σσσββxxi xx i ni i xxi i i ni i i ii i i i L x x n L x x n y L x x y Cov x x y n y Cov x x y Cov y y Cov x x y y Cov -+=-+=--+=-+=-+∑∑==()()∑∑==-+-=-=ni ii i n i i Y Y Y Y Y Y SST 1212]ˆ()ˆ[()()()∑∑∑===-+--+-=ni ii n i i i i n i iY Y Y Y Y Y Y Y 12112)ˆˆ)(ˆ2ˆ()()SSESSR )Y ˆY Y Y ˆn1i 2ii n1i 2i +=-+-=∑∑==2.10 用第9题证明是σ2的无偏估计量证明:2221122112211ˆˆ()()()22()111var()[1]221(2)2n n i i i i n n i i i i xx E E y y E e n n x x e n n n L n n σσσσ=====-=---==----=-=-∑∑∑∑ 2.11 验证决定系数与F 值之间的关系式22-+=n F Fr证明:211/121/(/(2))1221SSR SSR r SST SSR SSE SSE SSRn SSR SSE n F n F n F ===++=-+-==-+-+2.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y (万元)和广告费用x (万元),数据见表2.6,要求用手工计算: 表2.6(1) 画散点图(略)(2) X 与Y 是否大致呈线性关系? 答:从散点图看,X 与Y 大致呈线性关系。

(3) 用最小二乘法估计求出回归方程。

计算表2ˆ22-=∑n e iσ(4) 求回归标准误差 先求SSR (Qe )见计算表。

所以(5) 由于(1-α)的置信度下, 的置信区间是 查表可得 915.110667.36ˆ2ˆ1===xxL S σβ 所以 的95%的区间估计为:(7—3.182*1.915,7+3.182*1.915),即(0.906,13.094)。

351.6)102551(667.36)1(ˆ22ˆ=+=+=xx L X n S σβ所以 的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351), 即(-21.211, 19.211)。

^0β的置信区间包含0,表示^0β不显著。

(6) 计算x 和y 的决定系数说明回归方程的拟合优度高。

(7) 对回归方程作方差分析方差分析表22ˆˆˆˆ(,)iii i t s t s ααββββ-⨯+⨯iβˆ182.3)3()2(025.02/==-t n t α1ˆβ0ˆβF 值=13.364>F 0.05(1,3)=10.13(当n 1=1,n 2=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。

(8)做回归系数β1的显著性检验H0: β1=0656.3915.1/7/ˆ1ˆ1===ββS t t 值=3.656>t 0.05/2(3)=3.182,所以拒绝原假设,说明x 对Y 有显著的影响。

(8) 做相关系数R 的显著性检验R 值=0.904>R 0.05(3)=0.878,所以接受原假设,说明x 和Y 有显著的线性关系。

(9) 对回归方程作残差图并作相应的分析残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随机波动,基本满足模型的假设e i ~N(0, σ2), 但由于样本量太少, 所以误差较大.(10) 求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为95%的置信区间. 解: 当X 0=4.2时,所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时,Y 0估计值的置信区间为:)1044.1511(667.36)(11(ˆ202ˆ0++=-++=-xx YY L X X n S σ所以求得Y 0的95%的置信区间为: [6.05932 ,50.74068] 预测误差较大.022ˆ000ˆ0ˆˆYY Y Y S t Y Y S t Y --⨯+<<⨯-αα4.282.471ˆˆˆ0100=⨯+-=+=X Y ββ3.1y x =β基本假定:(1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵(2) 误差项()()200i i j E ,i j cov ,,i j⎧ε=⎪⎧δ=⎨εε=⎨⎪≠⎩⎩(3)()20i i j ~N ,,⎧εδ⎪⎨εε⎪⎩诸相互独立3.2()10111ˆX X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。

即|则必有故3.3()()()()()22111221222211111111n nni i ii i i i nii i ni i E e D e h n h n p ˆE E e n p n p n p =====⎛⎫==-δ ⎪⎝⎭⎛⎫=-δ=--δ ⎪⎝⎭⎛⎫∴δ==--δ=δ ⎪----⎝⎭∑∑∑∑∑3.4并不能这样武断地下结论。

2R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2R 易接近1,其中隐含着一些虚假成分。

因此,并不能仅凭很大的2R 就模型的优劣程度。

首先,对回归方程的显著性进行整体上的检验——F 检验001230p H :β=β=β=β==β=……接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系第二,对单个自变量的回归系数进行显著性检验。

00i H :β=接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著3.6原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。

相关主题