当前位置:文档之家› 第二章回归分析概述

第二章回归分析概述

第二章回归分析概述回归分析是寻求隐藏在随机现象中的统计规律的理论和方法,是经济计量学的最基本的方法论基础。

讨论回归模型在经典假设条件下的参数估计、假设检验和估计量的统计性质,以及经典假设不完全满足条件下,有关问题的处理是理论经济计量学的任务。

为了对回归分析理论和方法有一个全面深入的理解,本章先对回归分析的基本概念和性质予以介绍,在以后各章顺次展开以上问题的讨论。

第一节回归分析的性质一、“回归”一词的现代含义回归一词最早是生物统计学家高尔顿(Francis Galton)引入的。

高尔顿在对人类身高之类的遗传特性的研究中,发现了他称之为“向平均回归”的现象。

虽然客观上存在一种趋势,即父母高,子女也高;父母矮,子女也矮,但是给定父母的身高,子女的平均身高却有“回归”到全体人口的平均身高的倾向。

也就是说,尽管父母双亲都异常高或异常矮,而子女的身高却有趋向人口总体平均身高的趋势。

高尔顿的普通回归定律也被另一位统计学家皮尔逊(Karl Pearson)证实。

高尔顿的兴趣在于发现人口的身高为什么有一种稳定性。

这是“回归”一词的初始含义。

然而,对“回归”一词的现代解释却与初始含义有很大不同,其现代含义是回归分析研究一个被解释变量对另一个或多个解释变量的变量依存关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计或预测前者的(总体)均值。

比如,对于父母身高与子女身高的关系研究,人们会发现,对于设定的每一个父辈的身高,都有一个儿辈的假想人口总体的身高分布与之对应,随着父辈身高的增加,儿辈的平均身高也增加。

若把这种父辈身高与儿辈平均身高的一一对应关系绘制在平面坐标图上,可以得到一条直线,这条直线就叫做回归线,它表明儿辈的平均身高如何随父辈的身高变化。

从现代回归的观点出发,人们关心的是给定父辈的身高情况下,如何发现儿辈平均身高的变化。

也就是说,人们关心的是一旦知道了父辈的身高,如何估计预测儿辈的平均身高。

经济学家可以利用回归分析研究个人消费支出对其实际可支配收入的依从关系。

通过回归分析可估计边际消费倾向(MPC),而边际消费倾向说明人们每增加一个单位的实际可支配收入而引起的消费支出的平均变化。

农业经济学家可利用回归分析研究农作物收成对施肥量,降雨量,气温等的依赖关系。

这种分析能使他用给定的解释变量的信息预测或预报农作物的平均收成。

劳动经济学家利用回归分析研究货币工资变化率对失业率的依存关系,著名的菲利普斯曲线就是研究这一依存关系的成果,劳动经济学家经常利用这一曲线预测在给定的某个失业率下货币工资的平均变化。

由于工资的增长会引起物价的上涨,因此通过这一曲线还可以研究通货膨胀、关于经济扩张过程方面的问题。

由货币银行学的知识可知,若其它条件不变,通货膨胀率愈高,人们愿意以货币形式保存的收入比例越低。

对这种关系作回归分析,使金融学家能够预测在各种通货膨胀率下人们愿意以货币形式保存的平均收入比例。

公司的经理想了解人们对公司产品的需求与广告费开支的关系。

对其进行回归分析在很大程度上有助于计算相对于广告费支出的需求弹性,这有助于公司经理制定“最优”的广告费预算。

我们能提供关于一个变量依赖于另一个或多个变量的大量事例。

现代回归分析的主要任务,就是用来研究这种变量之间的依从关系的。

二、统计关系与确定关系在经典物理学中研究的变量之间的关系是函数关系或确定性依赖关系。

从上述例子可以看出,回归分析中研究的变量之间的关系都不是函数关系或确定性依赖关系,而是一种所谓的统计依从关系。

在变量之间的统计关系中,人们主要处理的是随机变量,也就是具有概率分布的变量。

但是在函数或确定性依赖关系中,人们处理的变量是非随机的。

统计关系虽然没有函数关系准确,但是它的存在比后者更为广泛,而且非常有用。

因为客观社会经济现象中存在的大量统计关系可表示成确定性部分和随机性部分之和,这种统计关系的表示是回归分析的基础。

例如农作物收成对施肥量、降雨量、气温的依赖关系是统计性质的。

其意义在于:这些解释变量固然重要,但并不能使农业经济学家准确预测作物的收成。

一方面,除了上述解释变量外,还有其他影响收成的因素(变量)存在,由于种种原因难于一一识别和测量;另一方面,对这些已考虑的解释变量的测量存在误差。

因此,无论我们考虑多少个解释变量,都无法完全解释农作物收成这个应变量。

它的一些“内生的”或随机的变异是注定存在的。

但是在确定性现象中,人们利用函数的形式研究表示这样一类变量的依赖关系。

比如,牛顿的引力定律可表示为212(/)F k m m r ,其中F 为引力,1m 和2m 为两个粒子的质量,r 为距离,而k 为比例常数。

其物理意义说明:宇宙间的每个粒子吸引着另一个粒子,其引力与它们的质量乘积成正比,而与它们之间的距离的平方成反比。

在物理学中,这类确定性现象的例子很多。

如欧姆定律、波依耳的气体定律、克奇霍夫的电流定律和牛顿的运动定律等等。

统计关系与确定性关系有区别,但也有联系。

比方说,在牛顿的引力定律中,若k 的测量有误差,则原来的确定性关系就变成了一个统计关系。

这时,引力只能按给定的k (还有1m 、2m 和r )近似地加以预测,于是变量之间的关系由函数关系变为统计关系,变量F 变成了一个随机变量。

三、回归与因果关系回归分析研究大量的一个变量对一个或一些变量的依赖关系,但是它本身并不揭示和说明这些变量之间是否存在因果关系。

对于这些变量代表的事物之间是否存在因果关系,要由研究这些事物的实质性科学来揭示,因果关系的理念,必须来自统计学之外。

回归分析可对实质性科学揭示的因果关系给予实证。

比如父辈身高与儿辈身高一例中,我们没有任何统计上的理由可以认为父辈身高不依赖于儿辈身高,人们之所以把儿辈身高作为依赖于父辈身高的被解释变量,是出于非统计上的考虑,常识告诉我们不能把这种关系颠倒过来。

若从统计的角度,把儿辈身高作为解释变量而把父辈身高作为被解释变量进行回归,可能得到一个很强的统计关系式,但不能由此得到一个合乎逻辑的解释,更不能得出儿辈的高矮是父辈高矮的原因的荒谬结论。

也就是说,从逻辑上看,统计关系式本身不说明任何因果关系。

事物之间的因果关系,必须依赖先验的或理论上的思考或揭示。

四、回归分析与相关分析以测度两个变量之间的线性关联程度为其主要目的的相关分析,虽然与回归分析具有密切的关联,然而在概念上却迥然不同。

第3章中我们将要讨论的相关系数就是用来测度变量(线性)相关程度的指标。

在现实中,也许我们对家庭的消费支出与家庭的可支配收入,农作物的收获率与降雨量,产品的产出量与劳动和资本的投入量,人的身高与体重,学生的统计学成绩与数学成绩,吸烟的时间与肺癌的发病率等等之间的相关性感兴趣,计算它们的相关系数,进行相关分析。

但在回归分析中,我们对这种度量并无太大的兴趣,感兴趣的是根据其它变量的设定值来估计或预测某一变量的平均值。

比如,也许人们想知道是否能依据一个家庭的可支配收入去预测具有相同可支配收入家庭的平均消费支出。

回归分析和相关分析之间存在一些基本的区别。

在回归分析中,被解释变量与解释变量的处理方法上存在不对称性。

被解释变量是随机变量,具有概率分布,而解释变量则是非随机的,在重复抽样中取固定值。

但在相关分析中,我们对称地对待任何(两个)变量;两个变量都被看作是随机的,没有被解释变量与解释变量的区分,大部分相关理论都建立在变量的随机性假定上。

而回归理论大部分都以下述假定为条件:即被解释变量是随机的,而解释变量是非随机的。

所以,同样两个变量,根据理论分析,可以拟合两个意义不同的回归方程,但只能计算一个相关系数。

比如我们可以拟合以人的身高为被解释变量,以人的体重为解释变量的回归模型;也可以反过来以人的体重作为被解释变量,而以人的身高作为解释变量的回归模型,但人的身高和体重之间只可计算一个相关系数。

相关分析与回归分析之间也存在一些基本的联系。

一般在回归分析之前,要对涉及的变量进行相关分析(定性的、定量的分析),确定有相关关系时,才进一步作回归分析。

因此可以说相关分析是回归分析的前提,回归分析是相关分析的深化。

第二节回归分析的基本概念一、总体回归线上一节指出,回归分析就是要根据解释变量的已知或给定值,去估计或预测被解释变量的(总体)均值。

为了弄清楚其实质含义,考虑下面的例子。

例2.2.1 假想一个人口总体由100户家庭组成。

若我们要研究家庭人均月消费支出Y与人均月可支配收入X之间的关系,也就是说,知道了家庭的人均月可支配收入,预测其人均月消费支出的(总体)平均水平。

表2.1给出了人为的数据,将100户家庭按照其人均可支配收入大小从小到大划分为10个组,每组只给出人均可支配收入的组中值。

表2.1 假想总体月家庭人均可支配收入和消费支出 单位:元表2.1应做如下的解释:对应于每个纵列的给定组中值收入水平X ,都有一个消费支出Y 的总体分布,也就是说,它给出了以X 的给定值为条件的Y 的总体条件分布。

比如,对应于每月1000元的人均可支配收入,具有9户家庭的月人均消费支出(590元,657元,,989元)构成的总体条件分布。

同时我们也容易算出给定X 的Y 的条件概率(|)P Y X 。

例如,当X =1000,得到这些消费支出中任一个的条件概率均为1/9。

用符号表示为(590|1000)1/9P Y X ===等等。

同理,(1564|3000)1/12P Y X ===,等等。

对于Y 的每一条件概率分布,我们都能算出它们的条件均值或条件期望值(conditional expected values ) ,记做(|)i E Y X X =。

例如(|2000)E Y X =1468,=(|3000)E Y X = 2128=,等等。

实际上我们根据表2.1的数据可绘制图2.1的散点图,观察此散点图可以发现,虽然每个个别家庭的人均消费支出都有变异,但图2.1依然清楚地表明随着收入的增加,消费支出平均说来也在增加,也就是说Y 的条件均值随X 的增加而增加。

若将图中粗圆点代表的Y 的各个条件均值连起来,可以看出,这些条件均值落在一条有正斜率的直线上。

这条直线称为总体回归曲线(population regression curve ),简称为总体回归线(population regression line, PRL )。

它表示Y 对X 的回归。

图2.1 不同收入水平下消费支出的条件分布及其总体回归线在几何意义上,总体回归曲线就是当解释变量取给定值时被解释变量的条件均值或期望值的轨迹。

它表明对每一i X 值都有Y 值的一个总体(假定服从正态分布)和一个相应的条件均值。

而总体回归曲线(或直线)就是通过这些条件均值的连线。

二、总体回归函数由图2.1可以清楚地看出,每一条件均值(|)i E Y X X =都是i X 的一个函数,即有: (|)(|)()i i i E Y X X E Y X f X === (2.2.1) 其中()i f X 表示解释变量i X 的某个函数(在我们的人为例子中,(|)i E Y X 是i X 的一个线性函数)。

相关主题