当前位置:文档之家› 统计学贾俊平第11章 一元线性回归

统计学贾俊平第11章 一元线性回归


相关分析(续)
相关系数(correlation coefficient)



对变量之间关系密切程度的度量 对两个变量之间线性相关程度的度量称为 简单相关系数 若相关系数是根据总体全部数据计算的, 称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相 关系数,记为 r
15
All rights reserved
r 的取值范围是 [-1,1] |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负相关 r = 0,不存在线性相关关系相关 -1r<0,为负相关 0<r1,为正相关 |r|越趋于1表示关系越密切;|r|越趋于0表示关系越 不密切
18
All rights reserved
第11章 一元线性回归
11.1 11.2 11.3 11.4 数值型变量间相关分析 一元线性回归 利用回归方程进行预测 残差分析
1
All rights reserved
引例
回顾:不同类型变量的关系
自变量 分类型 因 变 量 分类型 数值型 顺序型 顺序型 数值型
2
All rights reserved
7
All rights reserved
相关与回归分析

人口数与GDP规模的相关系数
人口数与GDP规模的相关系数(1000-2003)
8
All rights reserved
相关与回归分析

The Kuznets curve and the great U-turn: a common developmental path?
Y 960 X
31
All rights reserved
f ( x)
9 5
x 32
回归模型
华氏与摄氏的关系为确定模型(deterministic)
50
F
40
9 C 32 5
f ( x)
30
20
所有的数据点都刚 好落在在线
10
10
5
32
0 x
5
10
All rights reserved
若干自变量变量对因变量的综合影响
26
All rights reserved
11.2 一元线性回归
27
All rights reserved
回归分析
回归分析


从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从 影响某一特定变量的诸多变量中找出哪些变量的影 响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来 预测或控制另一个特定变量的取值,并给出这种预 测或控制的精确程度
28
All rights reserved
回归分析
回归分析的目的有四:



将X与Y的关系以一种量化的方式来表达 检验有关于X与Y之间关系的理论 测量X与Y之间的关系强度 已知X值得条件下对Y作预测
29
All rights reserved
回归模型
1 解释变量 2+ 解释变量
回归模型
单个
多个
20
All rights reserved
相关系数
Y = -1 Y =0 Y =1
X
X
X
Y
= -.8
Y
=0
Y
= .8
X
X
X
21
All rights reserved
相关系数
相关系数检验

r 的抽样分布随总体相关系数和样本容量的 大小而变化

当样本数据来自正态总体时,随着n的增大,r 的抽样 分布趋于正态分布,尤其是在总体相关系数很小或接 近0时,趋于正态分布的趋势非常明显。而当远离0时 ,除非n非常大,否则r的抽样分布呈现一定的偏态。

当为较大的正值时,r 呈现左偏分布;当为较大 的负值时,r 呈现右偏分布。只有当接近于0,而 样本容量n很大时,才能认为r是接近于正态分布的 随机变量
22
All rights reserved
相关系数

检验方法
采用R.A.Fisher提出的 t 检验 检验的步骤为: 提出假设:H0: ;H1: 0 计算检验的统计量 n2 tr ~ t (n 2) 2 1 r 确定显著性水平,并作出决策

Yi β0 βxi εi
33
All rights reserved
回归模型
12
All rights reserved
相关关系描述与测量
相关表
家庭编号 1 2 家庭月收入X(元 ) 800 1100 家庭月支出Y(元 ) 594 638
3 4
5 6 7 8 9 10
1400 1700
2000 2300 2600 2900 3200 3500
13
1122 1155
1408 1595 1969 2078 2585 2530
相关系数
性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个变量 之间不存在线性相关关系,并不说明变量之间没任何 关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系
相关系数
样本相关系数
r
( x x )( y y ) (x x) ( y y)
2
2
或 r
n x x n y y
2 2 2
n xy x y
2
17
All rights reserved
相关系数
性质1:


相关系数
Pearson积矩相关系数
随机变量 X 和 Y的协方差 : Cov (X,Y) E[(X )(Y )] X Y 其中 和 分别表示 X 和 Y 的总体均值 X
Y
总体相关系数: Cov ( X , Y ) =
X Y
16
All rights reserved
All rights reserved 13
相关关系描述与测量
相关图(散点图)
3000 2500 家庭月支出Y(元) 2000 1500 1000 500
0
0 500 1000 1500 2000 2500 3000 3500 4000
家庭月收入X(元)
14
All rights reserved 14
回归模型

随机(统计)关系 Stochastic Relationships: 若
X=xi时,Y值不确定,而是服从某一概率分布,则 X, Y之的函数关系称为概率模型 令X为每家庭的月收入,Y为每个家庭消费支出。 对于某个特定的值X=xi而言,我们无法准确地预测 出对应于Y的单一值,因为除了收入外,还有很多 其它因素会影响消费支出。但是知道一个家庭的 月收入有助于我们预测消费支出,第i个家庭的消 费支出可以用下列概率模型表达:
19
All rights reserved 19
相关系数
经验解释:



|r|=1,为完全相关|r|0.8时,可视为两个变量之 间高度相关 0.5|r|<0.8时,可视为中度相关 0.3|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度极弱, 可视为不相关 上述解释必须建立在对相关系数的显著性进行检 验的基础之上
9
All rights reserved
11.1 数值型变量间的相关分析
10
All rights reserved
相关关系
相关关系类型
相关关系
线性相关
负相关
非线性相关
完全相关
正相关 负相关
不相关
正相关
11
All rights reserved
相关关系描述与测量
相关关系的测量


相关表——将一个变量按大小顺序排序,另一个 变量对应排列而成的表格 相关图——也称为散点图。一对数据对应坐标图 上一个点,将成对的观察数据表现为坐标图的散 点而形成的图 编制相关表、图的意义——有助于分析者判断 相 关的有无、方向、形态、密切程度
引例
引例: 财富与幸福
3
All rights reserved
引例
引例: 数学的学与用
4
All rights reserved
4
相关与回归分析
相关关系


相关和回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高 时提出来的。Galton发现身材高的父母,他们的孩 子也高 但这些孩子平均起来并不像他们的父母那样高。 对于比较矮的父母情形也类似:他们的孩子比较 矮,但这些孩子的平均身高要比他们的父母的平 均身高高
5
All rights reserved
相关与回归分析


Galton把孩子的身高向中间值靠近的趋势称 之为一种回归效应,而他发展的研究两个数 值变量的方法称为回归分析 卡尔· 皮尔逊在继续这一遗传学研究的过程 中,测量了1078个父亲及其成年儿子的身高
6
All rights reserved
相关与回归分析
t 0. 005 2.807 < 25.25 H 0 rejected at 1% leve l
相关主题