当前位置:
文档之家› 统计学相关分析讲义与回归分析
统计学相关分析讲义与回归分析
精品
统计学相关分析与回归分析
本章学习目的
通过本章的学习要求理解相关分析 和回归分析的有关概念,掌握计算相 关系数和配合回归方程的方法,并能 结合实际资料对变量进行相关和回归 分析。
本章教学内容
第一节 相关分析 第二节 简单线性回归分析 第三节 多元线性回归模型
比较下面两种现象间的依存关系
函数关系 ⒈ 出租汽车费用与行驶里程(:确定性关系)
例如:消费支出与收入的关系; 学习成绩与学习时间的关系等。
相关关系的种类(四种)
按涉及变量多少
单相关 复相关
按相关的表现形式
线性相关(直线相关) 非线性相关(曲线相关)
正相关 按相关的方向(直线相关)
负相关 完全相关(函数关系) 按相关的程度 不完全相关 不相关
相关关系的测定
是依据研究者的理论知识和实践经 定性分析 验,对客观现象之间是否存在相关
• 计算结果:
• t检验值为
tr n20.99682157.1981 1r2 10.99682
临界值t(21)=2.08,故拒绝H0,认为相关系
数显著。
注意:相关关系≠因果关系!
• 典型的错误推断:
–统计分析表明,庆祝生日次数越 多的人越长寿。因此,庆祝生日有利于健康。
–调查表明,世界各国人均电视机拥有量与预期 寿命存在很强的正相关性。因此,电视机拥有量 越高,预期寿命越长。
–对小学各年级学生的抽样调查表明,学生的识 字水平与他们鞋子的尺寸高度正相关。因此, 学生穿的鞋越大,他的识字水平就越高。
9.2 一元线性回归分析
• 总体回归函数 、样本回归函数 • 一元线性回归模型的估计 • 一元线性回归模型的检验
趋向中间高度的回归
• 回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身 高时提出来的。Galton发现身材高的父母,他们 的孩子也高。但这些孩子平均起来并不像他们的父 母那样高。对于比较矮的父母情形也类似:他们的 孩子比较矮,但这些孩子的平均身高要比他们的父 母的平均身高高。 Galton把这种孩子的身高向中 间值靠近的趋势称之为一种回归效应,而他发展的 研究两个数值变量的方法称为回归分析。
r0, 两个变量不存在线性相关关系
0r1,两个变量存在一定程度线性相关关系
<0.3 弱相关
0.3~0.5 低度相关
|r|
0.5~0.8 显著相关
0.8~1 高度相关
r 0 , 两个变量正相关
r 0 , 两个变量负相关
• 调查50个房地产公司,房屋销售面积与广告费用 之间的相关系数为0.76,这说明( )
关系,以及何种关系作出判断
定量分析
在定性分析的基础上,通过编制相 关表、绘制相关图、计算相关系数 与判定系数等方法,来判断现象之
间相关的方向、形态及密切程度
对相关关系的分析是统计学的重要研究内容。 主要研究方法:相关分析和与回归分析。
相关分析与回归分析
• 相关分析(Correlation Analysis)研究变量之间相关的方向 和相关的程度,但无法给出变量间相互关系的具体形式, 因而无法从一个变量推测另一个变量。
• 回归分析(Regression) 可以确定变量之间相互关系的具体 形式(回归方程),确定一个变量对另一个变量的影响程 度,并根据回归方程进行预测。
自变量和因变量
• 如果两个变量中一个变量是另一个变量变化的结 果,那么 –代表原因的变量称为自变量 [Independent (Explanatory) Variable], –代表结果的变量称为因变量 [Dependent (Response) Variable] 。
350
300
250
200
150
100
50
0
2
468源自相关系数的显著性检验检验的步骤是:
1、提出假设:H0: ;H1: 0
2、 计算检验的统计量:
t r n2 ~t(n2) 1r2
3、 确定显著性水平,并作出决策 • 若 t >t,拒绝H0 • 或者:若p值< ,拒绝H0
消费支出和可支配收入的相关系数 23个家庭调查
y
y
y
y
正 相 关 x 负 相 关 x 曲线相关 x 不 相 关 x
相关系数
在直线相关的条件下,用以反映两变量间
线性相关密切程度的统计指标,用r表示
r
2 xy
xx yy n
xy
2
2
xx n yy n
nxyxy
nx2 x2 ny2 (y)2
-1 ≤ r ≤ 1
r 1 ,两个变量完全相关
• 在散点图中习惯上把因变量绘制在纵 轴上。
相关表
将现象之间的相互关系,用 表格的形式来反映。
简单 相关表
适用于所观察的样本单位数 较少,不需要分组的情况
分组 相关表
适用于所观察的样本单位数 较多标志变异又较复杂,需 要分组的情况
用散点图观察变量之间的相关关系
用直角坐标系的x轴代表自变量,y轴代表因 变量,将两个变量间相对应的变量值用坐标 点的形式描绘出来,用以表明相关点分布状 况的图形。
注意
我们不能把回归分析看作是在变 量间建立一个因果关系的过程。 回归分析只能表明,变量是如何 或者是以怎样的程度彼此联系在 一起的。有关因果关系的任何结 论,必须建立在理论分析的基础 之上。
Regression 的原始释义
回归分析与相关分析
联系:
理论和方法具有一致性; 无相关就无回归,相关程度越高, 回归越好; 相关系数和回归系数方向一致,可 以互相推算。
回归分析与相关分析
区别 :相关分析中x与y对等,回归分析中x与y
要确定自变量和因变量; 相关分析中x、y均为随机变量,回归分 析中只有y为随机变量; 相关分析测定相关程度和方向,回归分 析用回归模型进行预测和控制。
• A.二者之间有较强的正相关关系 • B.平均看来,销售面积的76%归因于其广告费用 • C.如要多销售1万平方米的房屋,则要增加广告费用7600
元 • D.如果广告费用增加1万元,可以多销售7600平方米的房
屋
样本能代表总体吗?
• 如果红色的点碰巧为你的样本,则样本相关 系数为0.907,总体相关系数为0.00005
总费用=行驶里程 每公里单价
GKP
相关关系
(非确定性关系
⒉ 家庭收入与恩格尔系数: )
家庭收入高,则恩格尔系数低。
在自然界和社会现象中,客观现象之间的数量关系通
常有两种类型,即:
函数关系 s r2
客观存在、确定性、 严格的数量对应关系
相关关系(相关分析的对象) 现象(变量)之间客观存在的、 非确定性的数量对应关系。