9_第九讲_多元统计分析8
如种族与预后的关系研究
白/黄/黑 (赋值 1 2 3 ?) 哑变量赋值: dummy1 白 1 黄 0 黑 0
Ŷ=A + B race
Ŷ=A + B1 dum1+ B2 dum2
dummy2 0 1 0
• 如职业,分四类可用三个哑(伪)变量:
工人 农民 干部 学生
x1 1 0 0 0 x2 0 1 0 0 x3 0 0 1 0
(四)模型中自变量的选择方法
• 所入选方程自变量符合专业知识,应
该恰当:
– 太少会降低估计和预测精度; – 太多会忽略主要矛盾,模型形式过于复 杂,不易理解和解释。
1、自变量的选择原则
• •
原则1:尽可能将回归效果显著的自变 量选入回归方程中; 原则2:尽可能将作用不显著的自变量 则排除在外。
– 予试 – 初筛:单因素分析并设臵纳入标准P<0.2
实例分析
预测变量 抑郁基线评分 年龄 性别 是否有神经过敏症 抑郁过去史 社会支持系统 活动水平 常数项 b 0.267 -0.014 0.165 0.067 0.320 -1.650 0.061 0.52 Beta 0.231 -0.024 0.034 0.077 0.136 -0.095 0.095
ŷ=0.52+0.267x1-0.014x2 +0.165x3+……+0.061x7
•第一自变量基础分,为数值变量资料,回归系 • • •
数为0.267,说明两者呈正向变化关系,基线分 高,终点测量分高。 第二自变量为年龄,估计值为-0.014,说明年龄 越大,抑郁分越低。 第三自变量性别为二分类变量资料,女性定义 为0,男性定义为1,回归系数为0.165,说明男 性抑郁评分平均比女性高0.165分。 社会功能系统为-1.65,说明更多的朋友与探访 次数,将会降低抑郁分。
2、自变量的选择方法
•
逐步选择法:每一次只引入或剔除一 个自变量。该法最为常用。 1) 前进法
2) 后退法 3) 逐步回归法
• • •
1)前进法
回归方程中自变量从无到有、从少到多逐个 引入回归方程。 第一步应变量Y对每个自变量作直线回归,以 回归平方和最大的自变量做F检验,有统计学 意义者,将自变量引入方程;第二步,在此 基础上,考虑纳入第二变量,如此反复。 优缺点:自动去掉高度相关的自变量;后续变 量引入,可能使先进入变量的重要性减弱。
涉及两变量的主要分析方法
独立变量(自变量) 应变量(结果变量) 方法 分类变量 分类变量 2检验 分类变量(二分类) 数值变量 t检验 分类变量(多分类) 数值变量 单因素方差分析 分类变量 数值变量(有截尾值) 生存分析 数值变量 数值变量 直线回归/相关
一、基本概念与背景资料
•临床研究涉及到多个变量,进行分析; •用于分析一个应变量与多个自变量之间的
多元线性回归分析
第九讲
一、基本概念与背景资料
•方法回顾:
–当研究两个数值变量资料变量间是否存在
依存或相关关系时,采用直线相关与回归。 –当结果变量为数值变量资料时,两组比较 假设检验采用t检验。(group/outcome) –当结果变量为二分类变量资料时,两组比 较假设检验用卡方检验。(group/outcome) 均可归纳为研究两个变量方法。
H0:1= 2= 3= 4 =5 =6 =7 =0
H1:各i不为0或不全为0
检验水准=0.05
•用F检验来判断回归方程是否成立,其基
本思想是将总变异分解为: SS总=SS回归+SS剩余 其中SS回归表示在总变异中被X1,X2, X7解释的部分,SS回归越大,表示回归 效果越好;SS剩余表示除X1,X2,X7 等 的影响外剩余部分。
•
• •
•
3)逐步回归法
综合上述两法,进行双向筛选的一种方法。 每引入一个自变量后,对方程中的每一个自 变量做基于偏回归平方和的F检验,看是否 需要剔除一些退化为“不显著”的自变量。 重复这一过程,直至不能剔除为止。 需要设臵检验水准:选入自变量的检验水准 要小于或等于剔除自变量的检验水准。
小技巧
3、考察应用条件
• 样本量足够,一般为自变量个数的5-10倍以上 • 应变量与每个自变量间具有线性关系;应变量
满足独立性(应变量Y观测值相互独立) • 自变量个数与数值可随机变动,也可人为设定, 允许度量衡单位不一致。
• 残差e服从正态分布(0,e)、满足等方差性
Y=0+ 1X1+ 2X2+ 3X3+……+ PXp+e
二)偏回归系数的统计推断
•假设检验:利用t检验、方差分析来检验
上述各自变量的偏回归系数是否为0。 •可信区间:利用 t 分布估计各回归系数 的95%可信区间。
1、假设检验
•方差分析与t检验方法:检验各自变量
的偏回归系数i是否为0。
– 标准回归系数越大,其对应的t值越大。
1)、方差分析法
建立假设:
•其中0为回归方程的常数项,也称截距,意义
•、
1
3、…… p是偏回归系数, 如p 是指Xp以外的其它变量固定的条件下, Xp 每改变一个单位后Y的平均变化量。
2、
•e是除去 p 个自变量对Y影响后的随机误差,
称为残差。
二、多元线性回归分析
识别所有相关变量/框架图
模型描述:选择估计参数及标准误方法 统计推断(假设检验与参数区间估计)
(三)回归效果评估
•外部样本验证:实际测量值/预测估计值 •决定系数判断法:R、R
2
•
对变量各种不同的组合所建立的回归方程进 行比较,以决定系数最大者为最优; 残差系列判断法:CP、AIC值
1、复相关系数 R
•R为应变量的实际测量值与估计预测 值间的相关系数(Y与Ŷ ). •用来度量应变量Y与多个自变量间的线
2、结果解释与说明
• 如何判定各自变量的影响程度?各自变量的 •
度量衡单位与数值离散程度不同,所以不能 直接比较大小。 需要对各自变量进行标准化处理。 ŷ’=a’+ b1’ x1+b2’ x2+b3’ x3+……+bp’ xp 其中b1’、b2’、b3’……bp’为标准偏回归系 数,可以直接比较大小,以反映各变量对因 变量的贡献大小。
自变量筛选与模型优化 模型预测与应用
(一)多元线性回归分析前准备
• 根据研究目的与大量文献阅读,建立
关系框架图,确定应变量及可能的自 变量有哪些。 • 变量赋值与数据录入 • 分析考察应用条件是否满足
1、建模型框架图,识别所有相关变量
X1
XP
应变量Y
X2
X3
2、自变量赋值
•计量资料(必要时可变量变换) •二分类与有序多分类资料 •无序多分类变量及其它:哑变量赋值
Ŷ=a1 + b1 x1, Ŷ=a2 + b2 x2, Ŷ=a3 + b3 x3 Ŷ=A + B1 x1+ B2 x2+ B3 x3
多元线性回归分析的目的
• 定量描述一个结果变量与多个自(独立)变量
之间的线性依存关系,分析研究因素与混杂 因素的纯作用及其交互作用。 • 预测与控制:通过自变量筛选,建立能够 预测结果变量的最佳自变量组合模型。
实例分析
• 上表结果中,抑郁基线评分与抑郁过去
史对终点抑郁分的贡献最大。
偏回归系数与标准偏回归系数
• 回归系数由于各自变量的测量尺度与度
量衡单位不同,不能直接比较用以说明 贡献性大小,只能通过正负符号提示, 其与应变量的变化方向,但可直接应用 于预测(使用外部样本)。 • 标准回归系数,其绝对值的大小说明了贡 献大小;其缺点在于不能直接用于估计 结果变量。
一)、统计描述
ŷ=a + b1x1 + b2x2 + b3x3+……+bpxp
• 同直线回归方程参数估计相同,采用
最小二乘法,首先计算出b1、b2、 b3、……bp,后计算出a,常数项。
实例分析
老年抑郁症已成为老年人口的严重健康问题. 在1997年进行的一项研究中,研究对象为945 名社区居民与100名敬老院老人,年龄全部在70 岁以上。分别使用CIE量表在1990年以及随访 3-4后先后两次测试抑郁症状与主观体验。以 后者测试抑郁分值为应变量,可能的危险因素 包括年龄、性别、抑郁1990年基线分值、社 会关系与支持、活动/运动水平、是否有神经 过敏症等。(1045?)
•校正决定系数:
•决定系数可以用来评价回归方程的优
劣,但随着自变量个数增加,其值也 增加,故需要校正。 只有有意义的自变
量的增加或减少影响该校正系数。该系数 小于决定系数。
1- (n-1)(1- R2)/(n-k-1)
4、 Cp准则
•
5、AIC(赤池准则)
Akaike’s Information Criterion (AIC)
(二)、基本内容
• 统计描述:根据样本信息计算模型参数的估
计值,定量化描述应变量Y与自变量间的数量 依从关系 ŷ=a+b1x1+b2x2+b3x3+……+bpxp
Y=0+ 1X1+ 2X2+ 3X3+……+ PXp+e
• 统计推断:对总体回归方程是否成立及各自
变量的作用大小总体上是否存在,进行假设 检验(t检验、方差分析)与可信区间估计。
1、建立模型
• 建立以干预3-4年后的抑郁分为应变
量,以包括年龄、性别、抑郁基线分 等7个影响因素为自变量的多元线性 回归方程,估计偏回归系数。
预测变量 抑郁基线评分 年龄 性别 是否有神经过敏症 抑郁过去史 社会支持系统 活动水平低 常数项