思考与练习1. 随机误差项u包括哪些内容?2. 一元线性回归模型有哪些基本假定?3.证明公式(2.16)、公式(2.17)。
4.理解样本决定系数的含义。
5.若我们搜集两个变量的历史资料如下:(1)绘制散点图;(2)x与y之间是否大致呈线性关系?(3)用最小二乘法求出回归方程;(4)求回归标准误差ˆ ;(5)给出回归系数的置信度为95%的区间估计;(6)给出回归方程的方差分解表;(7)计算x与y的决定系数;(8)对回归方程进行F检验。
6.美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(The Wall Street Journal Almanac 1999)上。
航班正点到达的比率和每10万名乘客投诉的次数的数据如下。
资料来源:(美)David R.Anderson等《商务与经济统计》,第405页,机械工业出版社。
(1)求出描述投诉率是如何依赖航班按时到达正点率的的回归方程,并进行显著性检验。
(2)对估计的回归方程的斜率作出解释。
(3)如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数是多少?7.下面是对某个案例分析的EViews输出结果。
该案例的回归分析结果是否理想?为什么?Dependent Variable: YMethod: Least SquaresDate: 05/28/03 Time: 10:25Sample: 1991 2000Included observations: 10Variable Coefficient Std. Error t-Statistic Prob.C 32.22076 33.20478 0.970365 0.3603X 0.800953 1.260800 0.635273 0.5430 R-squared 0.048024 Mean dependent var 48.40000Adjusted R-squared -0.070973 S.D. dependent var 65.10368S.E. of regression 67.37438 Akaike info criterion 11.43526Sum squared resid 36314.46 Schwarz criterion 11.49578 Log likelihood -55.17632 F-statistic 0.403572 Durbin-Watson stat2.514737 Prob(F-statistic)0.5429891. 解:一般说来,随机项u 来自以下几个方面:(1)变量的省略。
由于人们认识的局限不能穷尽所有的影响因素或由于受时间、费用、数据质量等制约而没有引入模型之中的对被解释变量y 有一定影响的自变量。
(2)统计误差。
数据搜集中由于计量、计算、记录等导致的登记误差;或由样本信息推断总体信息时产生的代表性误差。
(3)模型的设定误差。
如在模型构造时,非线性关系用线性模型描述了;复杂关系用简单模型描述了;此非线性关系用彼非线性模型描述了等等。
(4)偶然性误差。
被解释变量还受一些不可控制的众多的、细小的偶然因素的影响。
2. 解:假定1:E(iu i x )=0。
即随机项i u 的条件数学期望(均值)为零。
假定2:22(){[(()]}()ii i i i Var u x E u E u E u =-==2uσ (i =1,2,…,n )。
即对于不同的i x ,u 具有相同的方差,也就是说各次观测值所受的随机影响的程度相同。
假定3:(,){[(()][(()]}0i j ii j j Cov u u E u E u u E u =--=(i ≠j ;i =1,2,…,n ;j =1,2,…,n )。
即在任意两次观测时,,i j u u 是相互独立的,不相关的,也就是无序列相关。
假定4:(,)i i Cov u x =0。
即解释变量i x 与误差项i u 同期独立无关。
因为如果两者相关,就不可能把x 对y 的影响和u 对y 的影响区分开来。
假定5:2~(0,)i u u N σ。
即对于给定的i x ,i u 为服从正态分布的随机变量。
3. 证明:(1)因为∑∑∑∑∑---=---=-=i i i i i i i y x x x x x n y x x x x x y n x y ))()(1()()(1ˆˆ2210ββ所以:22222222222222222220])(1[])()(2))(()(1[])()(2))(()(1[)())()(1(]))()(1[()ˆ(u i ui i i i ui i i i i ii i i i x x x n x x x x x n x x x x x n x x x x x n x x x x x n y Var x x x x x n y x x x x x n Var Var σσσβ∑∑∑∑∑∑∑∑∑∑∑∑-+=-----+=-----+=---=---=(2))]ˆ)(ˆ[()]}ˆ(ˆ)][ˆ(ˆ{[)ˆ,ˆ(1100110010ββββββββββ--=--=E E E E Cov )ˆ()]ˆ(ˆ[)]}ˆ(ˆ][)ˆ(ˆ{[12111111βββββββVar x E E x E x E y x y E -=--=----= ∑--=22)(x x σxu所以:2210)()ˆ,ˆ(u σx x x Cov ∑--=ββ4. 答:ESS 是由回归方程确定的,也就是由自变量x 变动引起的,又称为回归平方和;RSS 是由x 之外的随机项u 的波动引起的,又称不可解释平方和。
不难看出,回归平方和(可解释平方和)ESS 在总平方和TSS 中所占比例越大,残差平方和RSS 在TSS 中所占比重就越小,说明回归的效果就越好,即样本回归线01ˆˆˆi iy x ββ=+与样本观测值(,)i i x y 拟合得越好。
为此我们把回归平方和占总平方和的比重定义为样本决定系数,记为21ESS RSSR TSS TSS==-显然201R ≤≤。
2R 越接近于1,表示回归直线与样本观测值拟合越好。
可见2R 可以用来度量回归直线与样本观测值拟合优度。
另一方面,若2R 大,则解释变量x 对被解释变量y 的解释程度就高,可以推测总体线性相关关系显著,即总体回归系数1β不会同时为零,回归方程显著。
反之,可以推测总体线性相关关系不显著,即1β与零没有显著差异,回归方程不显著。
5. 解:(1)利用EXCEl 绘制xy 散点图,如下所示:(2)通过xy 的散点图,可以明显的看出x 与y 之间大致呈线性关系。
(3)利用最小二乘法可以求出回归方程如下:x y869.3714.5ˆ+= (4)回归标准误差922.1ˆ=u σ(5)回归系数的置信度为95%的区间:[3.144,4.595] (6)回归方程的方差分解表;自由度平方和 均方和 F 值 Sig- F 回归分析 1 628.7202 628.7202 170.27141.25E-05残差 6 22.15476 3.69246总计7650.875(7)计算x 与y 的决定系数:966.02=R(8)对回归方程进行F 检验:因为Sig-f=1.25E-5<1%,所以通过α=1%的总体显著性检验(F 检验)。
6. 解:(1)描述投诉率是如何依赖航班按时到达正点率的的回归方程及显著性检验如下:674.24,779.0)967.4)(719.5(070.0018.6ˆ2****==-=-=F R t x y通过进行检验,该回归方程总体线性显著性显著,拟合程度良好,解释变量显著。
(2)回归方程的斜率即回归系数0.070表示航班正点率每提高1% ,在其他条件不变的情况下,投诉率将平均的减少0.070次(/10万名乘客)。
(3)航班按时到达的正点率为80%,即令回归方程中的x =80,此时418.0ˆ=y。
7. 解:不理想,从相关的检验数据来看,拟合优度检验R 2=0.048024,F=0.403572(Sig-f=0.542989),t=0.635273(P=0.543,一次项回归系数),显然各类检验结果均不理想,说明该模型无论从总体而言还是从单个解释变量而言都是不显著的。
思考与练习1.写出多元线性回归模型的一般形式。
2.多元线性回归模型的基本假定有哪些?3.写出2u σ的无偏估计量的计算公式。
4.如果一个样本回归方程的样本决定系数为0.98,我们能否判定这个样本回归方程就很理想?5.根据例3.1数据,利用OLS 的正规方程组,估计样本回归方程。
6.已知我国1990年~1999年的货运量y 、工业总产值x 农业总产值x 资料如下表所示:要求计算:(1)二元线性回归方程(2)对系数、方程分别进行显著性检验。
(3)当工业总产值达到130000亿元,农业总产值达到25000亿元时,货运量能达到多少?(给定置信水平为95%) 7.以下是某个案例的方差分解结果,填上所缺数据。
ANOVAa. Predictors: (Constant), X8, X6, X1, X7, X2, X5, X3b. Dependent Variable: Y8.以下是某个案例的EViews 分析结果。
你对分析结果满意吗?为什么? Dependent Variable: Y Method: Least Squares Sample(adjusted): 1991 2000Included observations: 10 after adjusting endpointsVariableCoefficient Std. Errort-StatisticProb. C 4.826789 917366 0.523663 0.6193 X1 0.178381 0.308178 0.578827 0.5838 X2 0.688030 009899 377910 0.0169 X3-0226440.156400-1.4235560044 R-squared0.852805 Mean dependent var 41.90000 Adjusted R-squared 0.779207 S.D. dependent var 348783 S.E. of regression 16.11137 Akaike info criterion 8.686101 Sum squared resid 1557.457 Schwarz criterion 8.807135 Log likelihood -39.43051 F-statistic 11.58741 Durbin-Watson stat 1.579994 Prob(F-statistic)0.006579答案1.解: 如果被解释变量(因变量)y 与k 个解释变量(自变量)1x ,2x ,…,k x 之间有线性相关关系,那么它们之间的多元线性总体回归模型可以表示为01122k k y x x x u ββββ=+++++其中, 012,,,,k ββββ 是k+1个未知参数,又称为回归系数;u 是随机误差项。