当前位置:文档之家› 双变量回归与相关

双变量回归与相关


各个正态分布的总体方差相等且各次观测
相互独立。这样,公式(9-1)中的 Yˆ 实际上
是 X 所对应 Y 的总体均数 Y|X 的一个样本估
计值,称为回归方程的预测值(predicted value),
而 a 、 b 分别为 和 的样本估计。
精选ppt
19
例9-1 某地方病研究所调查了8名正 常儿童的尿肌酐含量(mmol/24h)如表9-1。 估计尿肌酐含量(Y)对其年龄(X)的回 归方程。
Y|X X
(9 2)
精选ppt
15
精选ppt
16
二、直线回归方程的求法
➢ 残 差 (residual) 或 剩 余 值 , 即实测值Y与假定回归线上
的 估 计 值 Yˆ 的 纵 向 距
离 Y Yˆ 。
➢ 求解a、b实际上就是“合理 地”找到一条能最好地代表
数据点分布趋势的直线。
最小二乘法(least sum of squares)原则:即保证各实 测点至直线的纵向距离的 平方和最小。
4
最初,Galton是将子代身高趋向于种族稳定 的自然现象称之向均数“回归”。
目前,“回归”已成为表示变量之间某种数 量依存关系的统计学术语,并且衍生出“回归方 程”“回归系数”等统计学概念。如研究糖尿病 病人血糖与其胰岛素水平的关系,研究儿童年龄 与体重的关系等。
精选ppt
5
一、线性回归的概念
精选ppt
(X,Y)
17
b lXY lXX
( X X )(Y Y ) (X X )2
aYbX
(9-3)
( 9 - 4 )
式中 lXY 为 X 与 Y 的离均差积和:
l
XY
(X
X
)(Y
Y
)
XY
(
X
)( n
Y
)
(9 5)
精选ppt
18
除了图中所示两变量呈直线关系外,一
般还假定每个 X 对应Y 的总体为正态分布,
第十章
两变量之间关系的分析— —回归与相关
Linear Regression and Correlation
精选ppt
1
问题引出
对两个变量之间关系的研究,例如糖尿病病人的血糖 与胰岛素水平的关系如何?分析资料涉及每个病人的 两个变量值(血糖、胰岛素水平),称为双变量资料 (Bivariate data),记作: (X1,Y1), (X2,Y2), …, (Xn,Yn) 分析目的:研究X和Y之间的数量关系 分析方法:简单线性回归和简单线性相关。
1.由原始数据及散点图(图 9-1) 的观察,两变量间呈直线趋势,故作下 列计算。
2.计算X 、Y 的均数X 、Y ,离均 差平方和lXX 、lYY 与离均差积和lXY 。
精选ppt
22
3.计算有关指标
X X 76 9.5
n8
Y Y 23.87 2.9838 n8
lXX
X 2 ( X ) 2 764 (76)2 42
目的:如果以某个变量X作为自变量,研究另一 个变量Y (应变量)对自变量X的数量依存关 系,就是线性回归。
特点:线性回归关系是统计关系,不同于一般数 学上的X 和Y的函数关系。
精选ppt
6
例9-1 某地方病研究所调查了8名正常儿童的尿 肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y) 对其年龄 < 0,则交点在原
点的下方;
➢ a = 0,则回归直线
通过原点。
0
a<0
a=0 a>0
X
精选ppt
13
2. b为回归系数,即直线的斜率。
➢ b>0,直线从左下方走向
右上方,Y 随 X 增大而 Y
增大;
b>0
➢ b<0, 直线从左上方走 向右下方,Y 随 X 增大
而减小;
b=0
➢ b=0,表示直线与 X 轴
精选ppt
7
表9-1 8名正常儿童的年龄X (岁)与尿肌酐含量 Y (mmol/24h)
编号 1 2 3 4 5 6 7 8 年 龄X 13 11 9 6 8 10 12 7 尿 肌 酐 含 量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
精选ppt
8
精选ppt
双变量直线回归是回归分析中最基本、最简单的一种, 故又称简单回归(simple regression)。
精选ppt
11
直线回归方程的一般表达式为
Yˆ a bX (9 1)
Y ˆ 为各X处Y的总体均数的估计。
精选ppt
12
1.a 为回归直线在 Y 轴上的截距。
➢ a > 0,表示直线与
Y
纵轴的交点在原点的
平行,X 与Y 无直线关系。
0
b<0 X
*b 的统计学意义是:X 每增加(或减少)一个单位,
Y 平均改变的单位数。
精选ppt
14
公式(9-1)称为样本回归方程,它
是对两变量总体间线性关系的一个估计。
根据散点图我们可以假定,对于 X 各个取
值,相应Y 的总体均数 Y|X 在一条直线上
(图 9-2),表示为:
n
8
lYY
Y 2 ( Y )2 72.2683 (23.87)2 1.0462
n
8
( X)( Y)
(76)(23.87)
精选ppt
2
第一节
简单线性回归
Simple Linear regression
精选ppt
3
历史背景:
十九世纪英国人类学家 F.Galton(18221891)在由父亲身高与儿子身高的关系的观察分 析中,提出了著名的“相关”(correlation)与 “回归”(regression)理论。
精选ppt
精选ppt
20
表9-1 8名正常儿童的年龄X (岁)与尿肌酐含量 Y (mmol/24h)
编号 1 2 3 4 5 6 7 8 年 龄X 13 11 9 6 8 10 12 7 尿 肌 酐 含 量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
精选ppt
21
解题步骤
9
在定量描述儿童年龄与其尿肌酐含量 数量上的依存关系时,将年龄称为自变量 (independent variable),用 X 表示;尿肌 酐含量称为应变量(dependent variable), 用 Y 表示。
精选ppt
10
由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而 增大且呈直线趋势,但并非8个散点恰好都在一条直线 上,这与两变量间严格的直线函数关系不同,称为直线 回归(linear regression),其方程叫直线回归方程,以区 别严格意义的直线方程。
相关主题