当前位置:文档之家› 变量选择与lasso-logistic

变量选择与lasso-logistic



x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
回归系数反常的原因
数据中有离群值或者异常值
自变量的观察范围太窄,或 者方差太小
自变量直接存在复共线性 一样般本的含多量重不线够性,回或归者或自者变L量ogistic 回归中,样本规模至少是自变量个 数数的量1过0倍多以上
LASSO
LASSO(套索)
Least absolute shrinkage and selection operator 1996年,Tibshirani提出 可以将变量的系数进行压缩并使某些回归系数为0,实现变量选择
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
后退法基本思想
1.选定一个标准(P=0.2)
x4
0.5010896
0.0095479
52.48
x1
0.5066342
0.0119867
42.27
0.000 0.000
逐步向后法
逐步后退法区别于后退法:
每剔除一个变量,都要对在模型外的变量进行检 验,对符合入组标准的变量要逐一选入,然后再考虑 剔变量。(pe=0.15,pr=0.151)
全因素已经在方程中,是否删除X3?
选 岭回归 LASS 主成O 分 偏回最归小 二乘回

当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
逐步回归
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
x1
0.4742083
0.0263443 18.00

x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
X2,X4,X1已经在方程中,是否增加X3?
方程

变量
x3
回归系数
0.1381413
标准误SE
t
P
0.1077999
1.28
0.210
方程中还剩X2,X4,X1,是否删除X2?
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
对剔除的X2,X3做回归分析
方程
变量
回归系数
标准误SE
t
(12)
x2
...
x3
...
...
...
...
...
P
>0.150 >0.150
注意:
1.没有最好的方程:可以多选几个标准,比较在不同标准下所得到的 结果 2.有重要临床意义的自变量可以固定于方程中,对剩下的变量进行逐 步回归 3.逐步回归必须与专业知识相结合
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
lambda.lse
将选取的变量纳 入logistic模型
发现结直肠癌淋 巴结转移的危险 因素,构建模型 并在测试队列中 进行验证
LASSO的实现过程
软件:R软件 “glmnet”包
变量选择结果
最终从34个变量中选入16 个变量
利用选择出的17个变量构建Logsitic模型
16个变量进入Logistic模型,表现出 统计学意义的有:慢性下呼吸道疾 病、胃肠减压、深镇静比例分组、 液体负荷平衡、康复锻炼、床头抬 高90°、每日均有压力控制通气、肠 外营养、前免疫抑制剂、雾化吸入、 前纤支镜
数据和研究方法
研究人群及变量
曾经切除手术的结直 肠癌病人 原始队列:326人 测试队列:200人 变量:年龄、性别、 术前组织分级、CEA、 CT成像、血液检查、 淋巴结转移情况等
lambda.min
利用LASSO方法进行 特征选择
软件:R 利用LASSO从数据集 中选择预测变量 150个中选取了24个
逐步向前
逐步向后
向后法不适用 与n<p的情况
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止

x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
X4,X1已经在方程中,是否继续增加/删除?
方程
变量
回归系数
标准误SE
t
P
(11)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
对剔除的X3做单因素回归
结果对比
结果不同的原因: 逐步法是将单因素分析有意义的变量纳入再进行分析;而lasso-logistic是纳入lasso所
选择的变量。
x1
0.4742083
0.0263443
18.00

x2
2.2628200
相关主题