当前位置:文档之家› 第二章 简单线性回归模型

第二章 简单线性回归模型

上式只含一个解释变量,变量间的关系是线性的, 称为 一元线性回归模型(简单线性回归模型)。
Yi 1 2 X i ui
简单线性回归模型引入随机误差项,主要 有以下几方面的原因:(第23页)
1)作为未知影响因素的代表; 2)作为无法取得数据的已知因素的代表; 3)作为众多细小影响因素的综合代表; 4)模型的设定误差; 5)变量的观测误差; 6)经济现象的内在随机性。
▲注意:
①不线性相关并不意味着不相关; ②有相关关系并不意味着一定有因果关系; ③回归分析/相关分析研究一个变量对另一个 (些)变量的统计依赖关系,但它们并不意味着一 定有因果关系。 ④相关分析对称地对待任何(两个)变量,两 个变量都被看作是随机的。回归分析对变量的处理 方法存在不对称性,即区分应变量(被解释变量) 和自变量(解释变量):前者是随机变量,后者不 是。
n
二、几个常用的结果(你会证明吗?)
二、
(1)残差ei的均值为0,即∑ei =0 (2) 残差ei与Xi不相关,即∑ei Xi =0
(1)证明:由 Q ˆ - ˆ X )(-1) 0 2(Yi - 1 2 i ˆ 1 ˆ - ˆ X )(-1) 0 得 2(Yi - 1 2 i
第二章
简单线性回归模型
引言:保险单应如何赔偿?

美国内华达职业健康诊所(Nevada Occupational Health Clinic)是一家私人医疗诊所,它位于内 华达州的Sparks市。这个诊所专攻工业医疗,并 且在该地区经营已经超过15年。1991年初,该诊 所进入了增长的阶段。在其后的26个月里,即 1991年初到1993年4月初,该诊所每个月的账单收 入一直经历着戏剧性的增长,从57000美元增长到 超过300000美元。
称为OLS估计量的离差形式(deviation form)。
由于参数的估计结果是通过最小二乘法得到的, 故称为普通最小二乘估计量(ordinary least squares estimators)。
二、几个常用的结果(你会证明吗?)
二、
(1)残差ei的均值为0,即∑ei =0 (2) 残差ei与Xi不相关,即∑ei Xi =0 (3)样本回归直线经过点 ( X , Y ) (4)被解释变量的样本平均数等于其估计值的 平均值 Yˆ 1 Yˆi Y
例如: 函数关系:
圆面积 f , 半径 半径2
相关关系/统计依赖关系:
农作物产量 f 气温, 降雨量, 阳光, 施肥量
对变量间相关关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的:
线性相关 相关关系 正相关 不相关 相关系数: 有因果关系 无因果关系 回归分析 相关分析
i i
ˆ ˆ X 左边 Y , 右边 1 2 ˆ Y - ˆ X , 得Y ˆ ˆX 由公式 1 2 1 2 ˆ ˆ X 经过点( X , Y ) ˆ 左边 右边, 所以样本回归线Y i 1 2 i
二、一元(简单)线性回归模型
例2.1:为研究某市城镇每年鸡蛋的需求量,考 察消费者人均可支配收入对年人均鲜蛋需求量的影 响(还有其它因素的影响,如鸡蛋价格、消费习惯、 替代品等)。建立这两个变量之间的数学模型:
Yi 1 2 X i ui
i=1,2,…,n
Y表示人均鲜蛋需求量,称作被解释变量,X 表示人均可支配收入,称作解释变量,1与2 为回归系数(待估参数), u为随机误差项 (也称随机扰动项)
第二章
简单线性回归模型
回归分析与回归函数 简单线性回归模型参数的估计 拟合优度的度量 回归系数的区间估计和假设检验 回归模型预测 案例分析
数据的类型(见课本P11页)
一、时间序列数据(Dated):同一个统计指标按时间顺序 排列的数据列。 如:广东省2000~2014年GDP数据或某企业近十年的产量数据。 二、横截面数据(Undated) :在同时间不同单位按同一据 统计指标排列的数据列。 如:2014年广东省各地区的GDP数据。 三、混合数据或面板数据(Pooled):兼有时间序列和横 截面数据。 如:2000~2014年广东省各地区GDP数据。 四、虚拟变量数据:
三、随机误差项(线性回归模型)的假定条件
假设1、随机误差项u具有零均值: E(ui)=0 i=1,2, …,n 假设2、随机误差项u同方差: Var (ui)=u2 i=1,2, …,n 假设3、随机误差项u无序列相关: Cov(ui,,uj)=0 i≠j i,j= 1,2, …,n 假设4、解释变量X是确定性变量,与随机误差项u不相关: Cov(Xi, ui)=0 i=1,2, …,n 假设5、u服从正态分布 ui~N(0, u2 ) i=1,2, …,n
ˆ ˆ X e Yi 1 2 i i ˆ 与 ˆ 是样本回归模型的回归系数, 其中 1 2 是1与 2的估计值或估计量. ei 称为残差项, 也叫拟合误差, 是ui的估计值. ˆ ˆ X 称为样本回归方程或样本回归线. ˆ Y
i 1 2 i
ˆ叫做样本观测值Y 的估计值或拟合值. Y i i
负相关 - 1 r XY 1 正相关
非线性相关 不相关
负相关
2、简单线性相关关系的度量
1.简单线性相关系数
2.相关系数的特点
第一章有复习 见课本第17-18页
3、回归分析
“回归”一词的历史渊源 “回归”一词最先由高尔顿(Galton)引入。他发现 虽然有一个趋势,父母高,儿女也高;父母矮,儿女 也矮,但给定父母的身高,儿女辈的平均身高趋向于 或回归到全体人口的平均身高。换言之,尽管父母双 亲都异常高或异常的矮,而儿女的身高则走向人口总 体平均水平。这就是高尔顿的普遍回归定律。(Law of universal regression)
1993年4月6日,诊所发生了一场火灾,诊所的主 建筑物被烧毁。
保险单应如何赔偿?
诊所的保险单包括实物财产和设备,也包括 出于正常商业经营的中断而引起的收入损失。
确定实物财产和设备在火灾中的损失额,受 理财产的保险索赔要求是一个相对简单的事情。 但是确定在进行重建诊所的7个月中,收入的损失 额是很复杂的,它涉及业主和保险公司之间的讨 价还价。对如果没有发生火灾,诊所的账单收入 “将会有什么变化”的计算,没有预先制定的规 则。
英国人类学家、生物统 计学家,达尔文的表

回归分析的基本概念
回归分析(regression analysis)是研究一个变量关于另一个 (些)变量的具体依赖关系,并用适当的数学模型去近似地表 达或估计变量之间的平均变化关系。 这里:前一个变量被称为被解释变量(Explained Variable) 或应变量(Dependent Variable),后一个(些)变量被称为解 释变量(Explanatory Variable)或自变量(Independent Variable)。 例如:分析居民收入与消费的关系。 这里收入是什么变量?消费是什么变量? 收入是解释变量或自变量,消费是被解释变量或因变量。
Q ˆ - ˆ X )(-X ) 0 (2)证明:由 2(Yi - 1 2 i i ˆ 2 ˆ - ˆ X )(-X ) 0 得 2(Y -
(Y - ˆ - ˆ X )X 所以 e X 0
i 1 2 i 1 2 i i i
i
i
i
0
二、几个常用的结果(你会证明吗?)
ˆ 不难得出ei Yi - Y i
ˆ 与 ˆ ,使用普通最小二乘法。 为求总体参数1与2的估计值 1 2
普通最小二乘法(Ordinary least squares, OLS)给出 的判断标准是:拟合直线的残差平方和达到最小。
ˆ ˆ X ))2 ˆ )2 (Y -( Q ei2 (Yi - Y i i 1 2 i
§2.1
回归分析与回归函数
一、变量间的关系及回归分析的概念 二、一元线性回归模型
三、随机误差项的假定条件
一、相关关系及回归分析
1、经济变量间的相互关系
经济变量之间的关系,大体可分为两类:
( 1 ) 确定性关系 或 函数关系 :研究的是 确定现象非随机变量间的关系。
( 2 )相关关系 或 统计依赖关系: 研究的是 非确定现象随机变量间的关系。
为了估计失去的收入,诊所用一种预测方 法,来测算在7个月的停业期间将要实现的 营业增长。在火灾前的账单收入的实际历 史资料,将为拥有线性趋势和季节成分的 预测模型提供基础资料。这个预测模型使 诊所得到损失收入的一个准确的估计值, 这个估计值最终被保险公司所接受。
这是一个运用计量经济建模(时间数列)分析方 法在保险业务中的成功案例。计量建模分析方法 对现代经济管理同样具有重要的启迪和现实意义。 例如通过对企业销售收入和销售成本的预测。可 以对产品的未来销售情况,做出较为准确、公正 地判断。计量建模分析方法还广泛用于金融、证 券业务中的分析和预测等。 利用时间数列建立计量模型,能反映客观事物的 发展变化,能揭示客观事物随时间演变的趋势和 规律。
§2.2 一元(简单)线性回归模型参数的估计
一、参数的普通最小二乘估计(OLS) 二、OLS回归线的性质
一、参数的普通最小二乘估计(OLS)
给定模型: Yi 1 2 X i ui
E(Yi ) 总体回归方程(总体回归线)
因总体参数1与2未知,可用样本观测值来估计。 设给定一组样本观测值(Xi, Yi)(i=1,2,…n),n为样 本容量。则可建立样本回归模型:
谁提出的OLS估计方法?
(C F Gauss, 1777-1855)
C F Gauss 1809年提出OLS估计方法。
为了简便,我们做如下变换,令
xi X i - X
yi Yi - Y (离差形式)
相关主题