当前位置:文档之家› 统计学第七章相关与回归分析

统计学第七章相关与回归分析

决定因素? 6、如果某些地区的计划生育政策及社会、经济、文化
等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?
实例2: 全球吃死的人比饿死的人多?
据世界卫生组织统计,全球肥胖症患者达3 亿人,其中儿童占2200万人,11亿人体重过重。 肥胖症和体重超常早已不是发达国家的“专利”, 已遍及五大洲。目前,全球因”吃”致病乃至死 亡的人数已高于因饥饿死亡的人数。
7.1 相关与回归的基本概念
一、相关关系的概念 二、相关系数 三、相关
一、相关关系的概念
1.变量间的相互关系
◆确定性的函数关系 Y=f (X)
◆不确定性的统计关系—相关关系
Y= f(X)+ε
(ε为随机变量)
◆没有关系
35 30
25
变量间关系的图形描述: 20 15
Y
10
坐标图(散点图)
5
0
0
10
▲相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。
相关系数的检验
为什么要检验? 样本相关系数是随抽样而变动的随机变量,
相关系数的统计显著性还有待检验。 检验的依据:
样本相关系数具有一定的概率分布,必须明确其抽 样分布性质。如果x与y都服从正态分布,在总体相
关系数 0 的假设下,与样本相关系数 r 有关的 t
C 20 15 10 5 0 0
5
10
15
相关关系的描述
相关表:是一种统计表,将一个变量的 若干变量值按从小到大的顺序排列,另 一变量的值与之对应排列。
相关图:又称散点图,将两个变量相对 应的变量值用坐标点的形式描绘出来, 用于表面相关点分布状况的图形。
二、相关系数
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:
(引自《光明日报》刘军/文)
问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗?
这些类型的问题可以运用相关分析与回归分析的 方法去解决。
相关关系与回归分析
很多现象除了自身的变动以外,与其它现象 之间可能有一定的依存关系,这种依存关系 表现为不确定的统计关系,或称为相关关系 。相关关系主要是判断两个或两个以上变量 之间是否存在相关关系,并分析变量间相关 关系的形态和程度。
d i 表示样本单位属于x的等级与 y的等级的级差。
Spearman等级相关系数 为:
rs
1
6 n(n2
di2 1)
Spearman等级相关系数的特性
样本等级相关系数的取值范围:1 rs 1
rs 1 时,说明样本等级完全正相关; rs 1 时, 样本等级完全负相关;
回归分析是对存在的相关关系的现象间数理 化规律的测定。
第7章 相关与回归分析
7.1 相关分析 7.2 一元线性回归分析 7.3 线性回归的显著性检验与回归预测 7.4 多元线性回归分析
学习目标
1、变量间的相关关系与相关系数的计算 2、总体回归函数与样本回归函数 3、线性回归的基本假定 4、一元线性回归参数的估计与检验 5、多元线性回归参数的估计与检验 6、回归预测的方法
统计量服从自由度为n-2的 t 分布:
trn2 1r2~t(n2)
相关系数的检验方法
给定显著性水平 ,
查自由度为 n-2 的临界值 t 2
若 t t 2 ,表明相关系数 r 在统计上是显著
的,应否定 0 而接受 0 的假设;
反之,若 t t 2 ,应接受 0 的假设。
三、 Spearman等级相关系数
当变量不满足正态分布要求或不是数量型变量时, 简单
线性相关系数不宜使用,可以用Spearman等级相关系数
作相关性分析。
对于样本容量为n的变量x 和y ,如果取值都可以分为n
个等级,而且样本的n个单位分别不重复地属于x和y的
不同等级,没有两个单位取相同等级的情况,并且用
Cov(x, y)
Var(x)Var(y)
总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的
总体相关系数是客观存在的特定数值。
rXY
● 样本相关系数
通过x和y 的样本观测值去估计变量x和y的样本相关
系数通常用 r x y 表示
__
__
rXY
rxy
10
0
2
4
6
8
10
● 从变量相关关系变化的方向看 25
20
正相关——变量同方向变化
A 15 10
5
同增同减 (A)
0
0
2
4ห้องสมุดไป่ตู้
6
8
10
12
负相关——变量反方向变化 一增一减 (B)
● 从变量相关的程度看
25
20
B 15 10 5
0
0
2
4
6
8
10
12
完全相关 (B) 不完全相关 (A) 不相关 (C)
35 30 25
(xi x)(yi y)
__
__
(xi x)2 (yi y)2
特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。
相关系数的特点:
相关系数的取值在-1与1之间。 当r=0时,表明x与y没有线性相关关系。 当 0 r 1 时,表明x与y存在一定的线性相
关关系: 若 r 0 表明x与y 为正相关; 若 r 0 表明x与y为负相关。
当 r 1 时,表明x与y 完全线性相关: 若r=1,称x与y 完全正相关; 若r=-1,称x与y 完全负相关。
使用相关系数的注意事项:
▲ x和y 都是相互对称的随机变量,所以
xy yx
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。
20
30
X
2、相关关系的类型
● 从涉及的变量数量看 单相关:2个变变量 复相关(多元相关):3个或3个以上变量
● 从变量相关关系的表现形式看 线性相关——散布图接近一条直线(左图) 非线性相关——散布图接近一条曲线(右图)
25
20
15
10
5
0
0
2
4
6
8
10
12
11.2
11
10.8
10.6
10.4
10.2
相关与回归分析2
实例1: 中国妇女生育水平的决定因素是什么?
妇女生育水平除了受计划生育政策影响以外,还可能 与社会、经济、文化等多种因素有关。 1、影响中国妇女生育率变动的因素有哪些? 2、各种因素对生育率的作用方向和作用程度如何? 3、哪些因素是影响妇女生育率主要的决定性因素? 4、如何评价计划生育政策在生育水平变动中的作用? 5、计划生育政策与经济因素比较,什么是影响生育率的
相关主题