直线相关与回归分析
此定点也可以是(m,0),(0,n)或(0,0)等,尤以 (0,0)为最常见。 计算公式和实例见第116页。
第六节 直线相关与回归的SAS程序
SAS的CORR过程可用于求变量之间的线性
相关系数及偏相关系数。;
SAS的REG过程可用于各种线性回归分析,
包括多元回归(见第七章),逐步回归和最优 子集回归(见第八章)等。
第六节 多元回归在医学中的应用
1.一。根据较易测得的自变量推算不易测得的应变量 如:用身高, 体重推算体表面积 。 二。确定各自变量xi取不同值时,y的正常值范围
如:建立一个由身高,体重推算心象面积的多元 回归方程,利用此方程就可分别求出身高, 体重取不同 值的组合时,心象面积的正常值范围。 三。预测预报
如:建立心肌梗塞预报方程或脑卒中预报方程。 四。回顾推断 如:推断死亡时间。
第七节 多元回归及相关的SAS程序
求偏相关系数用CORR过程。 求多元回归及相关用REG过程。
第八章 逐步回归及最优子集回归
第一节 逐步回归分析
一.逐步回归分析的基本概念
逐步回归分析的目的是建立“最优”回归方 程。
“最优”回归方程是指包含所有对y有显著作 用的自变量,而不包含对y作用不显著的自变量的 方程。
ˆ y b0 b1 x1 b2 lg( x2 ) b x
2 3 3
第二节 多元回归的计算
1. 计算截距和各偏回归系数。 2. 多元回归方程的显著性检验:
(1)整个方程的显著性检验:用方差分析。 H 0 : 1 2 m 0 H1 : 至少有一个 i不等于0
r=0.7495
回
60
3.2 3.1 3 2.9 2.8 2.7 2.6 2.5 40 45 50 55
回
r=-0.83597
60
65
r
相关系数的计算: x x y y x x 2 y y 2
xxx
x x y y xy x y n
体重
心脏横径
设有n对x,y的观察值,先在直角坐标系中 作散点图,如果散点的分布呈直线趋势,则可设法 求出直线方程。 通常用最小二乘法,依据:各点与该直线的 纵向距离的平方和为最小
先由(6.3)式求得b,再由(6.4)式求得a,就得出 直线回归程。
b ( x x )( y y ) /[ ( x x ) 2 ]
因此在较单纯的情况下,如果x1 ,x2与周围其他变量没 什么关系的话,则用简单相关系数来表示x1 ,x2之间的相 关性是可行的;如果存在着对x1 ,x2关系密切的其他变量, 则r就不能确切地表示x1 ,x2之间的真实关系,这就需要用到 偏相关系数。 所谓偏相关系数指的是当把x1 ,x2以外的其他变量对 它们的影响都扣除掉(或平衡掉)以后, x1 ,x2之间的相关系 数。
( xi xi ) 2 / ( y y ) 2
bi lii / l yy
消除不同单位的影响后,标准偏回归系数的绝对值 越大,该自变量对于应变量的作用越大,但该差别是否 有统计意义,也必须经过检验。
第四节 偏相关系数
相关系数r应称为简单相关系数,因为它只考虑了x1和 x2 之间的相互影响,而未注意到其他变量对x1和x2可能有的影响。 事实上,客观事物间的关系是错综复杂的,变量之间的相 互影响也往往是多种多样的。例如,当存在x1 ,x2 ,x3三个变量时, 如果我们不考虑x3 ,而只对x1 ,x2计算其相关系数r,则这r的 大小往往不反映客观真实情况;如r很大,可能意味着x1 ,x2之 间的关系很密切,但也可能实际上x1 ,x2之间并无什么关系, 而x3却对x1 ,x2能同时发挥很大的影响,我们所看到的较大r值 不过是x3对x1的作用和x3对x2的作用的客观表现而已。反之, x1 ,x2之间算得的一个小r值,也不一定就意味着x1 ,x2之间的关 系确实薄弱,也有可能x1 ,x2之间虽有关联,但此关联性却被 x3对它们的作用所抵消,以致被掩盖了。
b0 :截距 bi:标准偏回归系数
标准偏回归系数表示其他自变量固定的情况下, xi改变一个单位,y平均改变bi个单位。
多元线性回归的应用条件:
1. 独立性:各观察对象间相互独立。 2. 线性:自变量与应变量间的关系为线性。 3. 正态性:自变量取不同值时,应变量的分布为 正态。 4. 方差齐性:自变量取不同值时,应变量的总体 方差相等。 当不符合条件时,可对自变量进行变换。 如:
第二节 相关系数
相关分析的目的在于通过相关系数r来描述和度 量两变量线性联系的程度和方向。 r>0 正相关 图例1
r<0 负相关
r=0 零相关
图例2
图例3
零相关即两变量间无关。
样本相关系数不等于零,并不表示总体相关系 数不等于零,还要作显著性检验。
next
3.7 3.5 3.3 3.1 2.9 2.7 2.5 40 45 50 55
(总例数减1) (自变量个数)
误差自由度:n-2
(总的自由度减去回归自由度)
F 回归均方 / 误差均方
F
U /1 Q /( n 2 )
查方差分析用的F界值表,得P值
df1=1, df2=n-2
例6.2 研究正常男性年龄与运动后最大心率 的关系,求直线回归方程。
ˆ y 302.2684 3.2496 x
tb 5.4078, df 12, P 0.01
U 2404.5954, df1 1 Q 987.4046, df 2 12
F 29.2232, P 0.01
直线回归相关分析的注意事项:
1. 相关分析只是以相关系数来描述两个变量 间线性相关的程度和方向,并不阐明事物间存在 联系的本质,也不是两事物间存在联系的证据。 要阐明两事物间的本质联系,必须凭专业知识从 理论上加以论证。因此,把两个毫无关系的事物 放在一起作相关分析是毫无意义的。同样,作回 归分析也要有实际意义。
(2) 对各偏回归系数的显著性检验: F检验:去掉xj后回归平方和的减少是否显著。 t检验:回归系数除以它的标准误。
第三节 标准偏回归系数
要比较各个自变量对于应变量的作用大小,不能用偏回 归系数,因为各偏回归系数的单位不同。必须把偏回归系 数标准化,化成没有单位的标准偏回归系数,公式为:
bi' bi
X和Y的离均差积和
x x Biblioteka 2 x x
2
2
n
X的离均差平方和
相关系数的显著性检验
H0 : 0
sr
H1 : 0
1 r n2
2
样本相关系 数的标准误
tr
r sr
df n 2
查t界值表, 得P值
例6.1 极谱法和碘量法测定水中溶解氧的含 量,两法的测得值是否有相关性?
医学统计学及其软件包
第六章 直线相关与回归
上海第二医科大学
生物统计教研室
第一节 概述
分析两个变量间的关系常用回归及相关分析的统 计方法。 如两个变量间的关系是线性的,可用直线相关与 回归分析;如两个变量间的关系是非线性的需用非线 性(曲线)回归。 回归分析适用于分析变量间的因果关系;用一个 自变量的值来估计另一个应变量的值。 相关分析用于分析两变量间相互联系的密切程度 及相关方向。
t 检验法:
tb b / sb
sb s y. x /
s x. y
ˆ )2 ( y y
df n 2
(x x)
2
2
样本回归系 数的标准误 剩余标准差
ˆ ( y y) /( n 2)
估计误差平方和
( y y) 2 ( y y ) 2 [ ( x x )( y y )]2 / ( x x ) 2 ˆ
第七章 多元回归及相关
第一节 多元线性回归的基本概念 事物间的相互联系往往是多方面的,在很多情 况下对应变量y 发生影响的自变量往往不止一个 。 多元线性回归的目的就是用一个多元线性回归方 程表示多个自变量和1个应变量间的关系。
ˆ y b0 b1 x1 b2 x2 bi xi bm xm
ˆ y a bx
Y为应变量(dependent variable)
X为自变量(independent variable)
A为截距(intercept) b为回归系数(regression coefficient) 回归系数b表示x每改变一个单位,y平均改变b 个单位。
Y=10x+5
ˆ y =4.22+0.20x
( x x ) 32.63 ( x x ) 93.01 ( x x )( x x ) 54.95
2 1 1
2 2 2
1
1
2
2
r 0.9975
tr 46.82
P 0.01
df 11
两法的测得值有相关(P<0.01)
第三节 直线回归方程
目的:找出描述x与y依存关系的直线方程。
r12,3
表示把x3的作用扣除掉以后x1 和x2的偏相关系数
r12,34 表示把x3和x4的作用扣除掉以后x1 和x2的偏相关系数
偏相关系数可从简单相关系数计算得到,也要作显 著性检验。
第五节 多元相关系数及决定系数
在多元回归中可算得一个多元相关系数,用R表示,它 ˆ 是y与 y 之间的简单相关系数,也可理解为y与自变量组合 之间的相关系数。
二. 逐步回归分析的计算方法 在供选的自变量Xi中,按其对y的作用大小, 由大到小地把自变量逐个引入方程, 每引入一个 自变量就对它作显著性检验,显著时才引入,而 当新的自变量进入方程后, 对方程中原有的自变量 也要作检验,并把作用最小且退化为不显著的自 变量逐个剔出方程。因此,逐步回归的每一步 (引入一个变量或剔除一个变量都称为一步)前 后都要作显著性检验,以保证每次引入新变量前 方程中只包含作用显著的自变量。这样一步步进 行下去, 直至方程中所含自变量都显著而又没有新 的作用显著的自变量可引入方程为止。