当前位置：文档之家› 9_第九讲_多元统计分析8

9_第九讲_多元统计分析8

如种族与预后的关系研究
白/黄/黑 (赋值 1 2 3 ?) 哑变量赋值: dummy1 白 1 黄 0 黑 0
Ŷ=A + B race
Ŷ=A + B1 dum1+ B2 dum2
dummy2 0 1 0
• 如职业,分四类可用三个哑（伪）变量：
工人农民干部学生
x1 1 0 0 0 x2 0 1 0 0 x3 0 0 1 0
（四）模型中自变量的选择方法
• 所入选方程自变量符合专业知识，应
该恰当：
– 太少会降低估计和预测精度； – 太多会忽略主要矛盾，模型形式过于复杂，不易理解和解释。
1、自变量的选择原则
• •
原则1：尽可能将回归效果显著的自变量选入回归方程中；原则2：尽可能将作用不显著的自变量则排除在外。
– 予试 – 初筛：单因素分析并设臵纳入标准P<0.2
实例分析
预测变量抑郁基线评分年龄性别是否有神经过敏症抑郁过去史社会支持系统活动水平常数项 b 0.267 -0.014 0.165 0.067 0.320 -1.650 0.061 0.52 Beta 0.231 -0.024 0.034 0.077 0.136 -0.095 0.095
ŷ=0.52+0.267x1-0.014x2 +0.165x3+……+0.061x7
•第一自变量基础分，为数值变量资料，回归系 • • •
数为0.267，说明两者呈正向变化关系，基线分高，终点测量分高。第二自变量为年龄，估计值为-0.014，说明年龄越大，抑郁分越低。第三自变量性别为二分类变量资料，女性定义为0，男性定义为1，回归系数为0.165，说明男性抑郁评分平均比女性高0.165分。社会功能系统为-1.65，说明更多的朋友与探访次数，将会降低抑郁分。
2、自变量的选择方法
•
逐步选择法：每一次只引入或剔除一个自变量。该法最为常用。 1) 前进法
2) 后退法 3) 逐步回归法
• • •
1）前进法
回归方程中自变量从无到有、从少到多逐个引入回归方程。第一步应变量Y对每个自变量作直线回归，以回归平方和最大的自变量做F检验，有统计学意义者，将自变量引入方程；第二步，在此基础上，考虑纳入第二变量，如此反复。优缺点:自动去掉高度相关的自变量；后续变量引入，可能使先进入变量的重要性减弱。
涉及两变量的主要分析方法
独立变量（自变量）应变量(结果变量) 方法分类变量分类变量 2检验分类变量（二分类）数值变量 t检验分类变量（多分类）数值变量单因素方差分析分类变量数值变量（有截尾值）生存分析数值变量数值变量直线回归/相关
一、基本概念与背景资料
•临床研究涉及到多个变量,进行分析； •用于分析一个应变量与多个自变量之间的
多元线性回归分析
第九讲
一、基本概念与背景资料
•方法回顾：
–当研究两个数值变量资料变量间是否存在
依存或相关关系时，采用直线相关与回归。 –当结果变量为数值变量资料时，两组比较假设检验采用t检验。（group/outcome） –当结果变量为二分类变量资料时，两组比较假设检验用卡方检验。(group/outcome) 均可归纳为研究两个变量方法。
H0：1= 2= 3= 4 =5 =6 =7 =0
H1：各i不为0或不全为0
检验水准=0.05
•用F检验来判断回归方程是否成立,其基
本思想是将总变异分解为： SS总=SS回归+SS剩余其中SS回归表示在总变异中被X1，X2， X7解释的部分，SS回归越大，表示回归效果越好；SS剩余表示除X1，X2，X7 等的影响外剩余部分。
•
• •
•
3）逐步回归法
综合上述两法，进行双向筛选的一种方法。每引入一个自变量后，对方程中的每一个自变量做基于偏回归平方和的F检验，看是否需要剔除一些退化为“不显著”的自变量。重复这一过程，直至不能剔除为止。需要设臵检验水准：选入自变量的检验水准要小于或等于剔除自变量的检验水准。
小技巧
3、考察应用条件
• 样本量足够,一般为自变量个数的5-10倍以上 • 应变量与每个自变量间具有线性关系；应变量
满足独立性(应变量Y观测值相互独立) • 自变量个数与数值可随机变动，也可人为设定, 允许度量衡单位不一致。
• 残差e服从正态分布(0,e)、满足等方差性
Y=0+ 1X1+ 2X2+ 3X3+……+ PXp+e
二）偏回归系数的统计推断
•假设检验：利用t检验、方差分析来检验
上述各自变量的偏回归系数是否为0。 •可信区间：利用 t 分布估计各回归系数的95%可信区间。
１、假设检验
•方差分析与t检验方法：检验各自变量
的偏回归系数i是否为0。
– 标准回归系数越大，其对应的t值越大。
1）、方差分析法
建立假设：
•其中0为回归方程的常数项,也称截距,意义
•、
1
3、…… p是偏回归系数，如p 是指Xp以外的其它变量固定的条件下， Xp 每改变一个单位后Y的平均变化量。
2、
•e是除去 p 个自变量对Y影响后的随机误差，
称为残差。
二、多元线性回归分析
识别所有相关变量/框架图
模型描述：选择估计参数及标准误方法统计推断（假设检验与参数区间估计）
（三）回归效果评估
•外部样本验证：实际测量值/预测估计值 •决定系数判断法：R、R
2
•
对变量各种不同的组合所建立的回归方程进行比较，以决定系数最大者为最优；残差系列判断法：CP、AIC值
１、复相关系数 R
•R为应变量的实际测量值与估计预测值间的相关系数（Y与Ŷ ）. •用来度量应变量Y与多个自变量间的线
2、结果解释与说明
• 如何判定各自变量的影响程度？各自变量的 •
度量衡单位与数值离散程度不同，所以不能直接比较大小。需要对各自变量进行标准化处理。 ŷ’=a’+ b1’ x1+b2’ x2+b3’ x3+……+bp’ xp 其中b1’、b2’、b3’……bp’为标准偏回归系数，可以直接比较大小，以反映各变量对因变量的贡献大小。
自变量筛选与模型优化模型预测与应用
（一）多元线性回归分析前准备
• 根据研究目的与大量文献阅读，建立
关系框架图，确定应变量及可能的自变量有哪些。 • 变量赋值与数据录入 • 分析考察应用条件是否满足
1、建模型框架图,识别所有相关变量
X1
XP
应变量Y
X2
X3
2、自变量赋值
•计量资料(必要时可变量变换) •二分类与有序多分类资料 •无序多分类变量及其它：哑变量赋值
Ŷ=a1 + b1 x1, Ŷ=a2 + b2 x2, Ŷ=a3 + b3 x3 Ŷ=A + B1 x1+ B2 x2+ B3 x3
多元线性回归分析的目的
• 定量描述一个结果变量与多个自(独立)变量
之间的线性依存关系,分析研究因素与混杂因素的纯作用及其交互作用。 • 预测与控制：通过自变量筛选，建立能够预测结果变量的最佳自变量组合模型。
实例分析
• 上表结果中，抑郁基线评分与抑郁过去
史对终点抑郁分的贡献最大。
偏回归系数与标准偏回归系数
• 回归系数由于各自变量的测量尺度与度
量衡单位不同，不能直接比较用以说明贡献性大小，只能通过正负符号提示，其与应变量的变化方向，但可直接应用于预测（使用外部样本）。 • 标准回归系数,其绝对值的大小说明了贡献大小；其缺点在于不能直接用于估计结果变量。
一）、统计描述
ŷ=a + b1x1 + b2x2 + b3x3+……+bpxp
• 同直线回归方程参数估计相同，采用
最小二乘法，首先计算出b1、b2、 b3、……bp，后计算出a，常数项。
实例分析
老年抑郁症已成为老年人口的严重健康问题. 在1997年进行的一项研究中，研究对象为945 名社区居民与100名敬老院老人,年龄全部在70 岁以上。分别使用CIE量表在1990年以及随访 3-4后先后两次测试抑郁症状与主观体验。以后者测试抑郁分值为应变量,可能的危险因素包括年龄、性别、抑郁1990年基线分值、社会关系与支持、活动/运动水平、是否有神经过敏症等。(1045?)
•校正决定系数：
•决定系数可以用来评价回归方程的优
劣，但随着自变量个数增加，其值也增加，故需要校正。只有有意义的自变
量的增加或减少影响该校正系数。该系数小于决定系数。
1- (n-1)(1- R2)/(n-k-1)
4、 Cp准则
•
5、AIC（赤池准则）
Akaike’s Information Criterion (AIC)
（二）、基本内容
• 统计描述：根据样本信息计算模型参数的估
计值，定量化描述应变量Y与自变量间的数量依从关系 ŷ=a+b1x1+b2x2+b3x3+……+bpxp
Y=0+ 1X1+ 2X2+ 3X3+……+ PXp+e
• 统计推断：对总体回归方程是否成立及各自
变量的作用大小总体上是否存在，进行假设检验（t检验、方差分析）与可信区间估计。
1、建立模型
• 建立以干预3-4年后的抑郁分为应变
量，以包括年龄、性别、抑郁基线分等7个影响因素为自变量的多元线性回归方程，估计偏回归系数。
预测变量抑郁基线评分年龄性别是否有神经过敏症抑郁过去史社会支持系统活动水平低常数项

e商务文档

9_第九讲_多元统计分析8

相关文档推荐：