1、什么是计量经济学?计量经济学(Econometrics)意为“经济测量”,它是利用经济理论、数学、统计推断等工具,对经济现象进行分析的一门社会科学。
区别与联系经济理论计量经济学vs {数理经济学统计学2、计量经济学的传统方法论Step1 理论或假说的陈述经典步骤→分析经济问题的八个经典步骤Step5 计量模型的参数估计Step6 检验模型设定是否正确Step7 假设检验(检验来自模型的假说)Step8 预测或控制◆关于数据1、数据分类(1)时间序列数据(Time Series Data):对一个变量在不同时间取值的一组观测结果。
如每年、每月、每季度等(2)横截面数据(Cross Section Data):对一个变量在同一个时间点上搜集的数据。
如同一年的分国别、分省、分厂家数据(3)混合数据(Pooled Data):时序和横截面的混合数据,既有分时,每一时点的观察对象又有不同(多个横截面单元) 广泛运用的一类特殊的混合数据——面板数据/综列数据/合成数据(Panel Data):在时间轴上对相同的横截面单元跟踪调查得到的数据。
如每年对各省GDP的报告。
2、研究结果永远不可能比数据的质量更好观测误差、近似进位计量、高度加总、选择性偏误3、数据来源:网站、统计年鉴、商业数据库等(1)统计局、央行、证券交易所、世行、IMF等官方网站(2)图书馆(纸质、电子版年鉴)(3)商业数据库◆两个例子例1:凯恩斯消费理论①人们倾向于随他们收入的增加而增加消费,但消费的增加不如收入的增加那么多。
②C=a+bI →确定性关系③Y=β1+β2X+μ→μ为扰动项,非确定性关系④搜集80~91年美国消费及收入数据⑤估计参数:解释:平均而言,收入↑1美元,消费↑72美分⑥检验模型设定的正确性:是否应当加入别的可能影响消费额的变量,如就业等。
⑦ 假设检验:H 0 : β 2 < 1 (边际消费倾向<1) ⑧ 预测:给定X ,算Y 控制:给定Y ,算X 例2:受挫工人假说(P2~8) ◆ 基本的统计学术语和概念 1、随机变量 (r.v)以一定的概率取到各种可能值的变量,取值由抽样或试验结果决定。
若取这些数值的概率为p,则p 属于[0, 1]。
r.v.通常用大写字母X ,Z…表示。
如:人的年龄、身高、体重、肺活量;猪肉价格; 抛两枚硬币,正面朝上的个数按其取值情况随机变量可分为两类: 离散型r.v :只可能取到有限或可列个结果 连续型r.v :可以取某一区间范围内的任意值 2、总体、个体、样本• 总体(样本空间),它是所有可能结果的集合.通常情况下,它=研究对象。
例:广西男青年的身高、南宁市猪肉价格、 东盟国家的出口额• 个体,它是组成总体的基本单位,代表了样本空间中的某一种结果。
例:男青年甲的身高、某摊贩的猪肉价格、越南出口额• 总体具有同质性:同一总体中的每个个体具有 某些共同的特征,因而与其它总体相区别• 抽样:通常情况下总体难以被穷举,因此难以直接观测其性质。
需要通过抽取样本的方法来研究其性质。
样本性质 总体性质• 样本,是总体中抽出若干个个体(样本点)组成的集合。
样本中包含的个体个数称为样本的容量,又称为样本的大小。
• 注意:抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本。
3、描述性统计量期望值/均值:度量r.v.取值的集中趋势(Expected value/Mean )• 方差、标准差:度量对均值的偏离程度(Variance 、Standard Deviation / S.d.)第二部分 线性回归模型 Ch6、7 双变量模型——线性回归的基本思想、实现步骤 Ch8 多变量模型Ch9 其它函数形式的回归模型实际运用得最多 Ch10 包含虚拟变量的回归模型 §1. 回归分析概述回归分析:一种统计技术在计量经济学中被大量使用主要用意:分析一个叫做被解释变量的变量对另外一个(或多个)叫做解释变量 的变量的统计依赖性 术语和符号1、被解释变量与解释变量的多种叫法被解释变量 Explained variable 解释变量 Explanatory variable 应变量 Dependent variable 自变量 Independent variable 预测子 Predictand 预测元 Predictor 回归子 Regressand 回归元 Regressor响应 Response 控制变量 Control variable 内生变量 Endogenous 外生变量 Exogenous variable 2、回归模型的分类和叫法双变量回归、一元回归、简单回归多变量回归、多元回归、复变量回归 3、符号约定被解释变量—— Y 解释变量——X横截面数据——下标 i 时间序列数据——下标 t §2. 双变量回归的基本概念总体回归线(Population Regression Line )在几何意义上,总体回归线就是解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。
(X 取遍所有可能值,然后把 的点连起来)2、总体回归函数(PRF ) → 它是总体回归线的数学表达式(Population Regression Function )——截距系数intercept Parameters——斜率系数,两者都是回归系数/参数 Slope Regression coefficients 总体回归函数的随机设定 离差(Deviation),表述如下:总体回归函数的随机表达其中,ui 是一个可正可负的的随机变量,称为随机干扰项/扰动项/误差项(Stochastic disturbance/ Stochastic error ) 随机干扰项的性质和意义它是从模型中省略下来,但又集体地影响着Y 的全部变量的替代物。
3、样本回归线/样本回归函数(仍以博彩为例)由于总体往往不能直接观测,因而要在样本信息的基础上,用SRF 来估计PRF样本回归函数(SRF )也有两种表述形式。
)X Y (Y i i i E u -=12i i iY B B X u =++SRF 的均值形式注:估计量,也称统计量,它是一种运算规则或方法,告诉人们怎样运用手中样本所提供的信息去估计总体参数。
样本残差/回归残差/剩余项(residual )ui 的估计量。
它表示样本点与SRF 之间的差距:回归分析的目的是通过SRF 来估计PRF思考:既然SRF 只不过是PRF 的一个近似,能不能设计一种规则或方法,使得这种近似尽可能地做得好一些?或者说,尽管真实的B 值永远不得而知,怎样构造SRF 才能使B 的估计值尽可能地“接近”真实的B ?回归分析的第一阶段:参数估计 补充:“线性”一词的含义(课本104页)对变量线性:变量只以一次方的形式出现。
几何上,回归函数线是一条直线。
对参数线性:参数只以一次方的形式出现。
约定:今后讨论的线性就是指对参数线性 §3. 参数估计:普通最小二乘法由于样本是从总体中抽出来的,一定程度上代表了总体的形状,因此找好的SRF 使之与 PRF 最接近,首先要画出与样本拟合得好的样本回归线 怎么画?=》普通最小二乘法 1、普通最小二乘法(OLS )普通最小二乘法(Method of Ordinary Least Squares), 由高斯提出。
(1)最小二乘原理要使SRF 与样本的拟合效果最好,必须使实际的Y 值与估计的Y 的均值之间的差距最小:由于残差值有正有负,这里可能会出现抵消的问题(实际的Yi 离开SRF 很远,但残差的和却很小)。
如果采取最小二乘准则,使残差平方和最小,就能解决抵消的问题。
12Y X i i ib b e =++ˆY Y i i ie =-ˆY Y i i i e =+12ˆmin ()i i ib b i i e Y Y -∑∑,最小一乘原则:=12222i 12ˆmin ()(Y X )i i i ib iiie Y Y b --∑∑∑,b ==-b(2)B1、B2的估计对于上式,给定一组X、Y的数据,b1、b2选得不同,残差平方和的值就不同。
因此,我们用微分法来解该问题。
对博彩支出回归结果的解释斜率系数0.0814表示:周可支配收入每增加一个单位(1美元),平均而言,周博彩支出增加0.0814个单位(8美分)截距系数7.6182的含义: 当样本取值包含0时,它表示X =0时Y 的均值当样本取值不包含0时,它代表了回归模型中所有省略变量对Y 的平均影响其它一些例子 课本108~112页 例6-1 受教育年限与平均小时工资例6-2 奥肯定律(产出增长律与失业率) 例6-3 股价与利率例6-4 美国中等房价与利率 例6-5 古董钟与拍卖价格通过例子进一步体会采用OLS 法得到SRF 的过程回 顾总体回归线 / 函数 样本回归线 / 函数PRL / PRFSRL / SRF怎样构造 SRL / SRF ,使这个估计做得尽量好?(b1 、 b2尽可能地接近B1、B2) OLS 法2、OLS 估计量的性质 P127 高斯—马尔柯夫定理:在满足古典线性回归模型( CLRM )假定的条件下,OLS 估计量是BLUE 。
(Best Linear Unbiased Estimator ) 三层含义:首先,OLS 估计量是线性的。
即 是关于 的线性组合。
其次,OLS 估计量是无偏的。
(1,2)i b i =i Y () (1,2)i i E b B i ==重复抽样,做很多次OLS估计,估计量的均值可以十分逼近真实值(即SRF十分接近PRF)。
最后,在所有线性无偏估计量中,OLS估计量的方差最小(最优,精度最高,最有效率)最小二乘法的基本假定——古典线性回归模型(CLRM)假定7. 1 :线性模型。
回归模型对参数而言是线性的。
如:假定7. 2:解释变量X与扰动误差项u不相关。
(X是非随机的比这一假定更强假定7.3:对给定的X值,随机干扰项u的条件均值为零:假定7.4:同方差性。
给定X值,对所有的观测,u i的方差都是相同的。
即u i的条件方差是一常数:假定7.5:各个干扰之间无自相关。
给定任意两个X值:Xi和X j,u i和u j之间的相关为i 和j为两次不同的观测,而cov表示协方差。
假定7. 6:回归模型是正确设定的。
即在实证分析中所使用的模型不存在设定偏误。
不难看出,上述6大假定全是针对解释变量X 及误差项u 所作的,实际上是对总体回归函数PRF的假定。
•为什么假定?现实意义?如不满足会怎样?如何知道这些假定是否满足?——暂不回答对任何一门学科的探求,都需要做一些假定√有助于逐步明确问题×这些假定是现实所必需3、OLS估计的精度——估计量的方差与标准误由于Y是随机变量,而b1和b2是它的函数,因此b1和b2也是随机变量。