一元线性回归预测法
15
简单相关系数的检验
(1) 直接检验(查相关系数临界值表) H0: = 0; H1: 0 用 xt 和 yt 的样本计算相关系数 r,以自由度 f = T - 2 查临界值表。检验规则是, 若 r > r (T-2) (临界值) ,则 xt 和 yt 相关; 若 r < r (T-2) (临界值) ,则 xt 和 yt 不相关。 (2) t 检验 H0: = 0; H1: 0 r 1 r 2 t= s = (r ) t (T - 2)
r
T 2
其中 2 表示涉及两个变量。 若 t > t (T-2) ,则 xt 和 yt 相关; 若 t < t (T-2) ,则 xt 和 yt 不相关。
16
线性相关系数的局限性
(1) 只适用于考察变量间的线性相关关系。也就是说当 = 0 时,只说明二 变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。所以变量 不相关与变量相互独立在概念上是不同的。 (2) 相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不 能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在 内在联系, 因果关系。 所以在计算 r 的同时, 还要强调对实际问题的分析与理解。 (3) 一般说二变量相关时,可能属于如下一种关系。 ① 单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。 ② 双向因果关系。如工业生产与农业生产;商品供给量与商品价格。 ③ 另有隐含因素影响二变量变化。如市场上计算机销量与电视机销量呈正 相关。显然人均收入的增加是一个隐含因素。 ④ 虚假相关。如年国民生产总值与刑事案件数呈正相关。显然二变量间不 存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,显然这没有 可比性,毫无意义。
回归分析是衡量研究对象之间是否存在某种关 系的技术之一。 在回归分析中,某个变量(自变量,X表示) 按照某种规律,随其他变量(应变量,Y表示) 变化而变化。 如自变量只有一个,称为一元回归,否则称为 多元回归。
5
第一节 回归分析与回归方程
本节基本内容:
●回归与相关 ●总体回归函数 ●随机扰动项 ●样本回归函数 ●非线性模型线性化
7
对变量间统计依赖关系的考察主要是通过 相关分析(correlation analysis)或回归分 析(regression analysis)来完成的:
正相关 线性相关 统计依赖关系 不相关 相关系数: 有因果关系 无因果关系 回归分析 相关分析 负相关 1 XY 1 正相关 非线性相关 不相关 负相关
1. 为什么要作基本假定?
●模型中有随机扰动,估计的参数是随机变量,
只有对随机扰动的分布作出假定,才能确定 所估计参数的分布性质,也才可能进行假设 检验和区间估计
●只有具备一定的假定条件,所作出的估计才
具有较好的统计性质。
31
2、基本假定的内容
(1)对模型和变量的假定
如
Yi 1 2 X i ui
u i 的条件期望为零
正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减 不相关
10
800
Y
Y 600
2
400
200
1
X 0 0 10 20 30 40 50
X 0 10 20 30 40 50
完全相关
3.0 Y
高度相关、 线性相关、正相关
200
2.5
150
2.0
100
1.5
50
1.0 X 0.5 2.0
就变量而言是线性的
—— Y 的条件均值是X 的线性函数 就参数而言是线性的 —— Y 的条件均值是参数 的线性函数
27
“线性”的判断
Yi 1 2 X i
Yi 1 2 X 2i
性” 变量、参数均为“线性” 参数“线性”,变量”非线
Yi 1
2 X i
变量“线性”,参数”非线
6
一、回归与相关
(对统计学的回顾)
1. 经济变量间的相互关系
◆确定性的函数关系
Y f (X )
◆不确定性的统计关系—相关关系
圆面积s f , 半径r r 2
Y f ( X ) (ε为随机变量)
◆没有关系
农作物产量 f 气温, 降雨量, 阳光, 施肥量
12
3.相关程度的度量—相关系数
总体线性相关系数: Cov( X , Y ) Var( X )Var(Y )
其中: Var( X ) ——X 的方差;Var(Y ) ——Y的方差 Cov( X , Y ) ——X和Y的协方差
样本线性相关系数:
XY
( X X )(Y Y ) ( X X ) (Y Y )
i i __ 2 __ i i
__
__
2
其中: X i和
X 和 Y 分别是变量 X 和 Y 样本值的平均值
分别是变量 X 和 Y 的样本观测值 Y i __
13
相关系数的取值范围
(1) 当两个变量严格服从线性关系时,∣r∣= 1。完全线性相关 证:设直线斜率为 k, 即 y = a + k x。则有 ( xt x )( y t y ) ( xt x )k ( xt x ) r= = = 1 2 2 2 2 2 ( x t x ) ( y t y ) ( xt x ) k ( xt x ) (2) 当两个变量不存在线性关系时, r = 0。没有线性相关关系 (3)上述是两种极端情形,所以相关系数 r 的取值范围是 [-1,1]。 当 r > 0 (正相关);当 r < 0 (负相关);若 r = 0 (零相关)。
假定解释变量 X是非随机的,或者虽然是随机的,但与扰动
项 u是不相关的。
假定解释变量 X 在重复抽样中为固定值。
假定模型对变量和函数的设定是正确的 ,无设定误差。
假定模型对参数是线性的,y与参数和x之间为线性关系。
32
(2)对随机扰动项 u 的假定
又称高斯假定、古典假定
假定1:零均值假定
在给定 X 的条件下 ,
8
2.相关关系
◆ 相关关系的描述 相关关系最直观的描述方式——坐标图(散布图)
Y
X
9
◆相关关系的类型 ● 从涉及的变量数量看
简单相关 多重相关(复相关)
● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
● 从变量相关关系变化的方向看
根据以上数据,你能否判断学生人数(x)如何影响到销售收 入(y)?根据一家连锁店附近大学的人数,你能够预测该家 连锁店的季度销售收入吗?
18
描述学生人数和销售收入之间的关系
相关系数(0.95),散点图;
250
季度销售收入/千美圆
200 150 100 50 0 0 5 10 15 20 25 30
24
简单线性回归模型
Y 的截距
随机误 差
Y 1 2 X u
因变量(响 应变量,被 预测变量)
斜率
自变量(解释 变量,预测变 量) 25
Y
Yi 1 2X i i
观测值
i = 随机误差
Y 1 2X
X
观测值
26
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。 ●总体回归函数中 Y与 的关系可是线性的,也可是 X 非线性的。 对线性回归模型的“线性”有两种解释
17
例1:阿姆德比萨饼连锁店的问题
阿姆得(Armand)比萨饼连锁店坐落在美国的5个州内,它 们通常的位置是在大学旁边,而且管理人员相信附近大学 的人数与这些连锁店的季度销售额是有关系的。下面是10 家连锁店附近大学的学生人数和季度销售收入的数据:
连锁店 1 学生人数/千人 2 销售额/千元 58 2 3 6 8 105 88 4 5 6 7 8 9 10 8 12 16 20 20 22 26 118 117 137 157 169 1000 亿美元吗?
从2004中国国际旅游交易会上获悉,到2020年,中国旅游 业总收入将超过3000亿美元,相当于国内生产总值的8% 至11%。(资料来源:国际金融报2004年11月25日第二版) ◆是什么决定性的因素能使中国旅游业总收入到2020年达到 3000亿美元? ◆旅游业的发展与这种决定性因素的数量关系究竟是什么?
22
相关分析和回归分析联系
相关分析与回归分析有密切的联系,都 是对变量之间相关关系的研究,二者可 以互相补充。 相关分析表明变量之间相关关系的性质 和程度,只有变量之间存在一定程度的 相关关系时,进行回归分析寻求相关的 具体数学形式才有实际意义。
23
模型的引入
对于给定的学生人数,销售收入是唯一确定的 一个数,还是一个随机变量? 学生人数的变化如何影响到销售收入? 使用的模型
图1
图2
14
使用相关系数时应注意
● X 和 Y都是相互对称的随机变量,x与y和y与x的 相关系数相等。 ● 线性相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。 ● 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验。 ● 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线 变量间的因果关系及隐藏在随机性后面的统计规律 性,这有赖于回归分析方法
用样本回归函数去估计总体回归函数。
由于样本对总体总是存在代表性误差, 总会过 高或过低估计。 要解决的问题:
ˆ ˆ和 寻求一种规则和方法,使得到的SRF的参数 2 1 2 。 尽可能“接近”总体回归函数中的参数 1 和