当前位置:文档之家› 《相关与回归分析》PPT课件

《相关与回归分析》PPT课件


精选课件
6
• 回归分析,随着自变量的增加,计算会变得相当复杂, 所以在计算机出现以前,它的应用受到了一定的限制。 随着计算机的不断发展,速度成倍增加,回归分析的复 杂的计算问题已经基本解决。目前世界上有许多能进行 回归分析的统计软件:如SAS、SPSS、S-PLUS、R等 等。
精选课件
7
• 回归分析的方法以至“回归”这个名称的起源,统计史 上一般归功于英国生物学家兼统计学家F.Galton(1822— 1911)。
yi 0 1xi i i iid ~ N (0, 2 )
i 1.2 n
并且称 E y 0 1x 为 Y 关于 X 的回归函数,它在平均意义下表
明了 y 关于 x 之间的一种统计规律性。
精选课件
16
关心的问题:
1. 若根据 观测数据 xi , yi i 1,2n , 求出 未知参数 的点估 计,分别用
• Galton是一个英国绅士科学家。他是一个上层英格兰人, 在剑桥学医。他在开始遗传学研究之前,他探索了非洲大 陆。
精选课件
8
Hale Waihona Puke Galton 富有思想。当时他提出了这样一个问题:如果每代人的身高 服从正态分布,身高是遗传的,那么一代人的身高与后一代人的身高间 会有什么联系呢?后来,他发现父母的身高与他们孩子的身高间存在线 性关系,并且若父母的身高很高,则孩子的身高一般会高于平均水平, 但会矮于他们的父母。Galton 称这一发现为“回归律”。在这个遗传问 题上,Galton 作了进一步的工作。为了描述这一遗传规律,他建立了如 下线性回归模型:
精选课件
11
• 例1.1 合金钢的强度与钢材中碳的含量之间有 密切的关系。为了冶炼出符合要求强度的钢,常 常通过控制钢水中的碳含量来达到目的。为此 需了解它们之间的关系。
• 首先收集了几组不同的碳含量(%)对应的钢的 强度(㎏/㎡)的数据。
精选课件
12
编号 1 2 3 4 5 6 7 8 9 10
X
精选课件
14
分析:这些点分散在一条直线附近,但不全在一条直线上。我们 可认为 y 与 x 之间的关系由 2 部分组成:(1)由于 x 的变化而引起 y
的线性变化的部分记为 0 + 1x ,其中 0 , 1 是未知参数;(2)由其
他随机因素引起的误差部分,记为 。即: y 0 1x 。
第六章
相关与回归分析
精选课件
1
引言
精选课件
2
确定关系和相关关系
• 例如,一个圆的半径与周长可以看成两个变量,而且可以用确定 的函数来描述它们之间的关系。这种关系称之为确定性关系。
• 从平均意义上说,儿童随着年龄的增长,身高增高,但对具体的 个体来说,存在着年龄小的儿童的身高超过年龄大的儿童的可能。 这种不确定性的关系,我们称”相关关系”。
一般情况下,我们总认为 x 是确定性变量,而且是可精确观测或
严格控制的,而 是不可观测的随机误差。通常我们假定随机误差是
相互独立的,服从正态分布。显然,在这样的假定下 y 也是相互独立, 服从正态分布的。
精选课件
15
综合上面所述,对我们所获得的观测数据 xi , yi i 1,2,n
来说,我们可得到如下的一元线性数学模型:
y a bx 服从零均值正态分布
其中 x,y 分别是父母和其孩子的身高。a,b 是回归系数。在本章我 们将会讨论这个回归模型。Galton 的这一思想导致了回归分析的原理。
精选课件
9
一元线性回归
精选课件
10
§1.1 一元线性回归模型
• 回归分析由许多步骤组成。如:数据的收 集、模型的确定、模型的修正等等。我们 这里主要在理论上研究回归模型,包括参 数的估计,模型的检验等等。
x(%) 0.03 0.04 0.05 0.07 0.09 0.10 0.12 0.15 0.17 0.20
精选课件
y(㎏/㎡) 40.50 39.50 41.00 41.50 43.00 42.00 45.00 47.50 53.00 56.00
13
55
50
Y
45
40 0.05
0.10
0.15
0.20
2
i
n
y - - x
i
0
1i
2
i 1
i 1
精选课件
20
由微积分原理中关于极值存在的必要条件有
Q( 0 , 1 ) 0
0 0 ˆ0 ,1 ˆ1
Q( 0 , 1 ) 1
0 0 ˆ0 ,1 ˆ1
精选课件
21
正规方程组
E 0 Var 2
3. 在实际中,有时误差也可能服从其他分布 如:Poisson 分 布,Gamma 分布等等。
精选课件
19
§1.2 参数的最小二乘估计
可以有许多方法获得模型中参数的估计值。这里
讨论最常用的最小二乘法,即使随机误差的平方和达
到最小来取得参数的估计值。
记:
Q
,
0
1
n
在自变量取值给定时,应变量有一定的条件分布。这
个要求使我们能够用数理统计的方法去研究相关变量
之间的关系,这种研究构成了回归分析。
精选课件
4
回归模型
• 一元线性回归模型 • 多元线性回归模型 • 非线性回归模型 • 带示性变量的回归模型
精选课件
5
• 回归分析目前是所有统计分支中应用最广泛的一 门学科之一,它被用于几乎所有的研究领域及工 农业生产,包括产品的统计质量管理,市场预测, 自动控制中数学模型的建立、气象预报、地质勘 探、医学卫生等等。
ˆ0 , ˆ1 表示,则称
y ˆ0 ˆ1x
为 y 关于 x 的一元线性回归方程。 ˆ0 ? ˆ1 ?
精选课件
17
2. 所求得的回归方程的可信度。 3. 若可信,如何用回归方程进行预测和控制。
精选课件
18
补充: 1. 随机误差部分可由多种因素引起。例如,测量误差,或模型 中没有考虑到的某个变量的作用,在例 1.1 中,对Y 有影响的变 量可能还有炉温,其他金属元素的含量如锰,铜等等。 2. 对随机误差有时我们也采用更一般的假定
• 回归分析的目的就是要研究具有相关关系的变量间的统计规律性。
精选课件
3
• 要用数学的方法去描述具有相关关系的变量间的统计 规律性(即建立统计模型),我们需事先对变量做一些 合理的假设。
• 我们要求是:在自变量取值已知的条件下,应变量取
值的不确定性可以通过一定的概率分布来描述。这就
是说,要求在概率论的意义下因变量是一个随机变量,
相关主题