第四章一元线性回归第一部分学习目的和要求本章主要介绍一元线性回归模型、回归系数的确定和回归方程的有效性检验方法。
回归方程的有效性检验方法包括方差分析法、t检验方法和相关性系数检验方法。
本章还介绍了如何应用线性模型来建立预测和控制。
需要掌握和理解以下问题:1 一元线性回归模型2 最小二乘方法3 一元线性回归的假设条件4 方差分析方法5 t检验方法6 相关系数检验方法7 参数的区间估计8 应用线性回归方程控制与预测9 线性回归方程的经济解释第二部分练习题一、术语解释1 解释变量2 被解释变量3 线性回归模型4 最小二乘法5 方差分析6 参数估计7 控制8 预测二、填空ξ,目的在于使模型更1 在经济计量模型中引入反映()因素影响的随机扰动项t符合()活动。
2 在经济计量模型中引入随机扰动项的理由可以归纳为如下几条:(1)因为人的行为的()、社会环境与自然环境的()决定了经济变量本身的();(2)建立模型时其他被省略的经济因素的影响都归入了()中;(3)在模型估计时,()与归并误差也归入随机扰动项中;(4)由于我们认识的不足,错误的设定了()与()之间的数学形式,例如将非线性的函数形式设定为线性的函数形式,由此产生的误差也包含在随机扰动项中了。
3 ()是因变量离差平方和,它度量因变量的总变动。
就因变量总变动的变异来源看,它由两部分因素所组成。
一个是自变量,另一个是除自变量以外的其他因素。
()是拟合值的离散程度的度量。
它是由自变量的变化引起的因变量的变化,或称自变量对因变量变化的贡献。
()是度量实际值与拟合值之间的差异,它是由自变量以外的其他因素所致,它又叫残差或剩余。
4 回归方程中的回归系数是自变量对因变量的()。
某自变量回归系数β的意义,指的是该自变量变化一个单位引起因变量平均变化( )个单位。
5 模型线性的含义,就变量而言,指的是回归模型中变量的( );就参数而言,指的是回归模型中的参数的( );通常线性回归模型的线性含义是就( )而言的。
6 样本观察值与回归方程理论值之间的偏差,称为( ),我们用残差估计线性模型中的( )。
三、简答题1 在线性回归方程中,“线性”二字如何理解?2 用最小二乘法求线性回归方程系数的意义是什么?3 一元线性回归方程的基本假设条件是什么?4 方差分析方法把数据总的平方和分解成为两部分的意义是什么?5 试叙述t 检验法与相关系数检验法之间的联系。
6 应用线性回归方程控制和预测的思想。
7 线性回归方程无效的原因是什么?8 回归分析中的随机误差项i ε有什么作用?它与残差项t e 有何区别?9 判断如下模型,哪些是线性模型,哪些不是。
以及它们经过怎样的变化能够变成线性模型? 模型 描述性名称121.i i i a Y X ββε⎛⎫=++⎪⎝⎭倒数 12.ln i i i b Y X ββε=++ 半对数 12.ln i i i c Y X ββε=++ 反半对数 12.ln ln ln i i i c Y X ββε=++ 对数或双对数121.ln i i i c Y X ββε⎛⎫=-+ ⎪⎝⎭对数倒数10 如下模型是线性回归模型吗?并说出原因。
12.i i X i a Y e ββε++=121.1i ii X b Y e ββε++=+121.ln i i i c Y X ββε⎛⎫=++ ⎪⎝⎭()2211.(0.5)i X i i d Y eβββε--=+-+312.i i i e Y X ββε=++四 计算题1 给定如下表第一列的假设,说明第二列中的假定是与之等效的。
关于经典模型的假设共四个等级)、GMAT分数以及每年学费的数据。
a. 用双变量回归模型分析GPA是否对ASP有影响?b.用合适的回归模型分析GMAT分数是否与ASP有关系?c.每年的学费与ASP有关吗?你是如何知道的?如果两变量之间正相关,是否意味着进到最高费用的商业学校是有利的。
d.你同意高学费的商业学校意味着高质量的MBA成绩吗?为什么?3 你的朋友将不同年度的债券价格作为该年利率(在相等的风险水平下)的函数,估计出的简单方程如下:ˆ101.40 4.78i iY X =- 其中:ˆiY =第i 年美国政府债券价格(每100美元债券) i X =第i 年联邦资金利率(按百分比)请回答以下问题:(1) 解释两个所估系数的意义。
所估的符号与你所期望的符号一样吗?(2) 为何方程左边的变量是ˆiY 而不是Y ? (3) 你朋友在估计的方程中是否遗漏了随机误差项?(4) 此方程的经济意义是什么?对此模型你有何评论?(提示:联邦资金利率是一种适用于银行间隔夜持有款项的利率)(1)试建立Y 与X 之间的样本回归方程。
(2)预测收入为6000元这类家庭的平均消费支出(显著性水平0.05α=) (3)以95%的概率预测某个收入为6000元的家庭的消费支出。
(1) 试建立样本回归方程,并在5%的水平下进行显著性检验。
(2) 求简单相关系数。
(3) 如果0X =200千克,以90%的概率对()0E Y 和0Y 进行预测。
6 下表给出了1977-1991年期间美国的黄金价格、消费者指数和纽约股票交易所指数数据。
a. 在同一散布图中描绘黄金价格,CPI 和NYSE 指数。
b. 一种投资,如果它的价格和(或)回报率至少赶得上通货膨胀,就被认为是(对通货膨胀)保值(能抵御通货膨胀)的。
为检验这一假设:投资是保值的,假定a 中的散点图表明拟合以下模型是最适宜的:1212t i i t i iCPI NYSE CPI ββεββε=++=++黄金价格指数a. 将当年美元和不变(即1992年)美元数据对时间描图。
b. 用Y 表示GDP ,X 表示时间(按年历从1代表1959,2代表1960开始,直至39代表1997)。
看以下模型是否适合GDP 数据:12t t t Y X ββε=++ 试用当年美元和不变美元两种数据分别估计此模型。
c. 你会怎样解释2β?d. 如果用当年美元估计2β和不变美元GDP 估计的有所不同,你会怎样解释这个差距?e. 从你计算的结果,你能对样本时期美国通货膨胀的性质得出什么评论?第三部分 参考答案 一、术语解释1 解释变量:也称自变量,是在模型中对被解释变量起解释作用的变量。
如模型t t t y x αβε=++中的t x 。
2 被解释变量:也称因变量,在模型中假设其变动由解释变量引起,对解释变量起依存关系。
如模型t t t y x αβε=++中的t y 。
3 线性回归模型:是相对于模型的参数而言的,即对于其参数是一次的。
对于变量而言,模型可以是线性的,也可能不是线性的。
4 最小二乘法:普通最小二乘法归功于德国数学家高斯,在一定假设下,最小二乘法有一系列非常令人向往的统计性质,是回归中较常用的一种方法。
如,对模型t t ty x αβε=++(t t y x αβ=+)而言,通过使得统计量()2tt Q y y =-∑最小而求得参数α、β。
5 方差分析:通过分析总离差平方和()22TtS y y =-∑与回归平方和()22RtS y y =-∑、剩余平方和()22EttS y y =-∑的数值,及相互之间的数量关系,来分析变量之间的关系和回归模型。
6 参数估计:选定模型,根据解释变量和被解释变量的数据,使用一定的估计方法得出模型中的未知参数,称为参数估计。
7 控制:是预测的反问题,即要求观察值在某个区间()''12,y y 取值时,解释变量t x 应控制在什么范围。
8 预测:根据回归模型和已估计出的参数,在给定解释变量t x 时,预测被解释变量t y 的取值或取值范围。
二、填空题1 不确定性;客观经济。
2 随机性;随机性;随机性;随机扰动项;测量误差;被解释变量;解释变量。
3 总离差平方和;回归平方和;残差平方和。
4 净影响;β。
5 指数是一次;指数是一次;参数。
6 残差;随机扰动项。
三、简答题1答:在线性回归方程中,“线性”二字指的是方程对参数而言是线性的的,即参数的次数为一次。
对于变量而言,模型可以是线性的,也可能不是线性的。
2答:最小二乘法归功于德国数学家高斯,在一定假设下,最小二乘法有一系列非常令人向往的统计性质,是回归中较常用的一种方法。
如,对模型t t t y x αβε=++(t t y x αβ=+)而言,通过使得统计量()2ttQ y y =-∑最小而求得参数α、β。
最小二乘法使得回归的参差平方和尽可能的小,即总体上来说,t y 与t y 的偏差最小。
在满足一定的条件下,最小二乘法具有最优线性无偏估计量的性质(BLUE )。
3答:假设1,随即误差项t ε的均值为0,方差为2σ,且服从正态分布。
即()20,tN εσ假设2,随即误差项123,,,n εεεε之间是两两不相关的。
即()cov ,0i j εε=由于正态分布的随即变量不相关与独立是等价的,因此改假设实际上表示各随机变量误差项相互独立。
假设3,随机误差项与解释变量X 之间不相关,即()cov ,01,2,t t x t n ε==实际上,如果X 是可观察或可控制变量,则它就不是随机变量,因此改条件一定成立。
4答:方差分析通过分析总离差平方和()22TtS y y =-∑与回归平方和()22RtS y y =-∑、剩余平方和()22EttS y y =-∑的数值,及相互之间的数量关系,来分析变量之间的关系和回归模型。
通过方差分析,我们可以判断线性回归方程的好坏。
我们可以知道总离差平方和()22Tt S y y =-∑的构成情况,回归平方和()22Rt S y y =-∑反映由于x 与y 之间的线性关系而引起的回归值的离散程度,而剩余平方和()22EttS y y =-∑则反映了除x 与y 之间的线性关系以外引起数据y 波动的因素,这种波动性实际上是由于观测误差等随机因素引起的。
这样,我们就通过平方和的分解把引起数据y 波动的两种原因在数值上分开了。
5答:t 检验的思路,若线性假设符合实际,那么b 不应该为零。
否则,若b=0,那么y 就不依赖于x 了。
因此,我们需要检验假设:01:0:0H b H b =≠,通过计算t 统计量b bt L -=,及相应的临界值得出拒绝域。
当假设0:0H b =被拒绝时,我们认为线性回归效果是显著的;反之,则认为线性回归效果不显著。
相关系数检验法主要是通过由数据观测值计算出的样本相关系数xy L r =系数xy ρ的估计值,通过xy r 的大小来判断x 与y 之间线性关系的密切程度。
因此,我们需要检验假设:01:0:0H H ρρ=≠,通过计算检验统计量r t =,及相应的临界值得出拒绝域。
对于一元线性回归方程而言,有v a xyb r =,所以对于一元线性回归方程而言,t 检验中的假设0:0H b =等价于相关系数中的假设0:0H ρ=。