直线相关与回归分析
表示把x3的作用扣除掉以后x1 和x2的偏相关系数 表示把x3和x4的作用扣除掉以后x1 和x2的偏相关系数
偏相关系数可从简单相关系数计算得到,也要作显 著性检验。
第五节 多元相关系数及决定系数
在多元回归中可算得一个多元相关系数,用R表示,它 是y与 之间的简单相关系数,也可理解为y与自变量组合 之间的相关系数。
直线回归相关分析的注意事项:
5. 在资料要求上:
相关分析要求两个变量服从双变量正态分布。
回归分析要求因变量服从正态分布,自变量可 以是精确测量和严格控制的变量。如两个变量服 从双变量正态分布,则可以作两个回归方程,用 X推算Y,或用Y推算X。
第五节 过定点的直线回归
医学研究中在拟合直线时,除了要求与观察点 尽量接近外,还常常要求必须经过某定点(m,n)。例 如在光电比色、荧光分析、火焰光度测定以及同位 素测定等实验方法绘制标准直线时就常有这样的要 求。
ห้องสมุดไป่ตู้
二. 逐步回归分析的计算方法
在供选的自变量Xi中,按其对y的作用大小, 由大到小地把自变量逐个引入方程, 每引入一个 自变量就对它作显著性检验,显著时才引入,而 当新的自变量进入方程后, 对方程中原有的自变量 也要作检验,并把作用最小且退化为不显著的自 变量逐个剔出方程。因此,逐步回归的每一步( 引入一个变量或剔除一个变量都称为一步)前后 都要作显著性检验,以保证每次引入新变量前方 程中只包含作用显著的自变量。这样一步步进行 下去, 直至方程中所含自变量都显著而又没有新的 作用显著的自变量可引入方程为止。
此定点也可以是(m,0),(0,n)或(0,0)等,尤以 (0,0)为最常见。
计算公式和实例见第116页。
第六节 直线相关与回归的SAS程序
SAS的CORR过程可用于求变量之间的线性 相关系数及偏相关系数。;
SAS的REG过程可用于各种线性回归分析, 包括多元回归(见第七章),逐步回归和最优 子集回归(见第八章)等。
逐步回归分析方法示意:
y
方程外:
x1、x2 、 x3 、…… xm
方程内自变量 中选择对y作
用最小的xi
剔除
作用最大的自变量
xj
:
引入方程
Xj是否显著
结束
第三节 最优子集回归
回归方程优劣的评价:(P为选入方程的自变量数) 1. 剩余标准差最小: 2. 变异系数最小: 3. 复相关系数最大: 4. 校正R2最大: 5. cp统计量最小
四。回顾推断 如:推断死亡时间。
第七节 多元回归及相关的SAS程序
求偏相关系数用CORR过程。 求多元回归及相关用REG过程。
第八章 逐步回归及最优子集回归
第一节 逐步回归分析
一.逐步回归分析的基本概念 逐步回归分析的目的是建立“最优”回归方
程。 “最优”回归方程是指包含所有对y有显著作
用的自变量,而不包含对y作用不显著的自变量的 方程。
第二节 相关系数
相关分析的目的在于通过相关系数r来描述和度 量两变量线性联系的程度和方向。
r>0 正相关 图例1 r<0 负相关 图例2 r=0 零相关 图例3
零相关即两变量间无关。
样本相关系数不等于零,并不表示总体相关系 数不等于零,还要作显著性检验。
next
回
r=0.7495
回
r=-0.83597
第六节 多元回归在医学中的应用
1.一。根据较易测得的自变量推算不易测得的应变量 如:用身高, 体重推算体表面积 。
二。确定各自变量xi取不同值时,y的正常值范围 如:建立一个由身高,体重推算心象面积的多元
回归方程,利用此方程就可分别求出身高, 体重取不同 值的组合时,心象面积的正常值范围。
三。预测预报 如:建立心肌梗塞预报方程或脑卒中预报方程。
第三节 最优子集回归
把一切可能自变量组合的方程都求出来,然后选出一个符 合最优标准的回归方程。这个方法称为最优子集回归。
y ~x1 y ~x2 y ~x3 y~ x1、x2 y~ x1、x3
y~ x2、x3 y~ x1、 x2 、 x3
最优回归准则: (1)R2最大:只能用于相同个数自变量方程间的比较。 (2)校正R2最大:能用于不同个数自变量方程间的比较。 (3)最小的cp统计量:能用于不同个数自变量方程间的比较。
y
x
最小
回归系数的显著性检验
从样本资料中算得的回归系数b,也有抽样误 差,因此需作显著性检验,检验其是否是回归系 数为零的总体中抽得的。
H0:β=0 H1:β≠0。 当拒绝H0时,可认为x与y间的直线回归方程 有统计学意义。
显著性检验可有两种方法:t 检验法和方差 分析法。
t 检验法:
样本回归系 数的标准误
回归系数b表示x每改变一个单位,y平均改变b 个单位。
Y=10x+5
=4.22+0.20x
体重
心脏横径
设有n对x,y的观察值,先在直角坐标系中 作散点图,如果散点的分布呈直线趋势,则可设法 求出直线方程。
通常用最小二乘法,依据:各点与该直线的 纵向距离的平方和为最小
先由(6.3)式求得b,再由(6.4)式求得a,就得出 直线回归程。
直线相关与回归分析
第一节 概述
分析两个变量间的关系常用回归及相关分析的统 计方法。
如两个变量间的关系是线性的,可用直线相关与 回归分析;如两个变量间的关系是非线性的需用非线 性(曲线)回归。
回归分析适用于分析变量间的因果关系;用一个 自变量的值来估计另一个应变量的值。
相关分析用于分析两变量间相互联系的密切程度 及相关方向。
剩余标准差
估计误差平方和
方差分析法:
Y的总变异
X和Y的线性关系引起的变异 误差引起的变异
回归平方和 误差平方和
总的自由度:n-1
回归自由度:1
误差自由度:n-2 )
(总例数减1) (自变量个数) (总的自由度减去回归自由度
df1=1, df2=n-2 查方差分析用的F界值表,得P值
例6.2 研究正常男性年龄与运动后最大心率 的关系,求直线回归方程。
第四节 偏相关系数
相关系数r应称为简单相关系数,因为它只考虑了x1和 x2 之间的相互影响,而未注意到其他变量对x1和x2可能有的影响 。
事实上,客观事物间的关系是错综复杂的,变量之间的相 互影响也往往是多种多样的。例如,当存在x1 ,x2 ,x3三个变量时 ,如果我们不考虑x3 ,而只对x1 ,x2计算其相关系数r,则这r的 大小往往不反映客观真实情况;如r很大,可能意味着x1 ,x2之 间的关系很密切,但也可能实际上x1 ,x2之间并无什么关系, 而x3却对x1 ,x2能同时发挥很大的影响,我们所看到的较大r值 不过是x3对x1的作用和x3对x2的作用的客观表现而已。反之, x1 ,x2之间算得的一个小r值,也不一定就意味着x1 ,x2之间的关 系确实薄弱,也有可能x1 ,x2之间虽有关联,但此关联性却被 x3对它们的作用所抵消,以致被掩盖了。
因此在较单纯的情况下,如果x1 ,x2与周围其他变量没 什么关系的话,则用简单相关系数来表示x1 ,x2之间的相 关性是可行的;如果存在着对x1 ,x2关系密切的其他变量 ,则r就不能确切地表示x1 ,x2之间的真实关系,这就需要用 到偏相关系数。
所谓偏相关系数指的是当把x1 ,x2以外的其他变量对 它们的影响都扣除掉(或平衡掉)以后, x1 ,x2之间的相关系 数。
多元线性回归的应用条件:
1. 独立性:各观察对象间相互独立。 2. 线性:自变量与应变量间的关系为线性。 3. 正态性:自变量取不同值时,应变量的分布为
正态。 4. 方差齐性:自变量取不同值时,应变量的总体
方差相等。 当不符合条件时,可对自变量进行变换。 如:
第二节 多元回归的计算
1. 计算截距和各偏回归系数。 2. 多元回归方程的显著性检验: (1)整个方程的显著性检验:用方差分析。
相关系数的计算:
X和Y的离均差积和 X的离均差平方和
相关系数的显著性检验
样本相关系 数的标准误
查t界值表, 得P值
例6.1 极谱法和碘量法测定水中溶解氧的含 量,两法的测得值是否有相关性?
两法的测得值有相关(P<0.01)
第三节 直线回归方程
目的:找出描述x与y依存关系的直线方程。
Y为应变量(dependent variable) X为自变量(independent variable) A为截距(intercept) b为回归系数(regression coefficient)
(2) 对各偏回归系数的显著性检验: F检验:去掉xj后回归平方和的减少是否显著。 t检验:回归系数除以它的标准误。
第三节 标准偏回归系数
要比较各个自变量对于应变量的作用大小,不能用偏回 归系数,因为各偏回归系数的单位不同。必须把偏回归系 数标准化,化成没有单位的标准偏回归系数,公式为:
消除不同单位的影响后,标准偏回归系数的绝对值 越大,该自变量对于应变量的作用越大,但该差别是否 有统计意义,也必须经过检验。
第七章 多元回归及相关
第一节 多元线性回归的基本概念
事物间的相互联系往往是多方面的,在很多情 况下对应变量y 发生影响的自变量往往不止一个 。多元线性回归的目的就是用一个多元线性回归 方程表示多个自变量和1个应变量间的关系。
:截距
:标准偏回归系数
标准偏回归系数表示其他自变量固定的情况下, xi改变一个单位,y平均改变bi个单位。
R2称为多元回归方程的决定系数, 即y的变异中可由方 程中的自变量组合所决定的部分。
R2值介于0~1之间,R2越接近1, 说明回归方程的效果 越好。R2越接近0, 说明回归方程的效果越差,即y的变异中 只有很少一部分能由方程中的自变量组合所决定,即使该 方程有显著意义,也不能认为该方程的效果可以令人满意, 启示我们还应进一步寻找其他对y可能有显著作用的变量或 变量组合。R2也可用于检验多元回归方程的显著性 。