当前位置：文档之家› 变量选择与lasso-logistic

变量选择与lasso-logistic

⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中，增加哪个变量好？
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
回归系数反常的原因
数据中有离群值或者异常值
自变量的观察范围太窄，或者方差太小
自变量直接存在复共线性一样般本的含多量重不线够性，回或归者或自者变L量ogistic 回归中，样本规模至少是自变量个数数的量1过0倍多以上
LASSO
LASSO（套索）
Least absolute shrinkage and selection operator 1996年，Tibshirani提出可以将变量的系数进行压缩并使某些回归系数为0，实现变量选择
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
逐步向前法
逐步向前法区别于前进法：每选入一个变量，都要对已在模型中的变量进行检验，
对低于剔除标准的变量要逐一剔除，然后再考虑选变量。（pe=0.15,pr=0.151,forward）
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
后退法基本思想
1.选定一个标准（P=0.2)
x4
0.5010896
0.0095479
52.48
x1
0.5066342
0.0119867
42.27
0.000 0.000
逐步向后法
逐步后退法区别于后退法：
每剔除一个变量，都要对在模型外的变量进行检验，对符合入组标准的变量要逐一选入，然后再考虑剔变量。(pe=0.15,pr=0.151)
全因素已经在方程中，是否删除X3？
选岭回归 LASS 主成O 分偏回最归小二乘回
归
当变量数过多时，逐步法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
逐步回归
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析，并探讨自变量纳入模型时的适
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
X1,X2,X4在方程中，删除哪个变量好？
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
x1
0.4742083
0.0263443 18.00
⑨
x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
X2,X4,X1已经在方程中，是否增加X3？
方程
③
变量
x3
回归系数
0.1381413
标准误SE
t
P
0.1077999
1.28
0.210
方程中还剩X2,X4,X1，是否删除X2？
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
对剔除的X2,X3做回归分析
方程
变量
回归系数
标准误SE
t
(12)
x2
...
x3
...
...
...
...
...
P
>0.150 >0.150
注意：
1.没有最好的方程：可以多选几个标准，比较在不同标准下所得到的结果 2.有重要临床意义的自变量可以固定于方程中，对剩下的变量进行逐步回归 3.逐步回归必须与专业知识相结合
X2已经在方程中，增加哪个变量好？
方程变量回归系数标准误SE t
⑤
x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161
⑥
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
lambda.lse
将选取的变量纳入logistic模型
发现结直肠癌淋巴结转移的危险因素，构建模型并在测试队列中进行验证
LASSO的实现过程
软件：R软件 “glmnet”包
变量选择结果
最终从34个变量中选入16 个变量
利用选择出的17个变量构建Logsitic模型
16个变量进入Logistic模型，表现出统计学意义的有：慢性下呼吸道疾病、胃肠减压、深镇静比例分组、液体负荷平衡、康复锻炼、床头抬高90°、每日均有压力控制通气、肠外营养、前免疫抑制剂、雾化吸入、前纤支镜
数据和研究方法
研究人群及变量
曾经切除手术的结直肠癌病人原始队列：326人测试队列：200人变量：年龄、性别、术前组织分级、CEA、 CT成像、血液检查、淋巴结转移情况等
lambda.min
利用LASSO方法进行特征选择
软件：R 利用LASSO从数据集中选择预测变量 150个中选取了24个
逐步向前
逐步向后
向后法不适用与n<p的情况
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量（常数项除外）
3.按照自变量对y的贡献大小由大到小依次挑选进入方程（假设检验的P值越小
贡献越大） 4.每选入一个变量进入方程，则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准，没有自变量可被引入方程为止
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中，增加哪个变量好？
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
X4,X1已经在方程中，是否继续增加/删除？
方程
变量
回归系数
标准误SE
t
P
（11）
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
对剔除的X3做单因素回归
结果对比
结果不同的原因：逐步法是将单因素分析有意义的变量纳入再进行分析；而lasso-logistic是纳入lasso所
选择的变量。
x1
0.4742083
0.0263443
18.00
⑨
x2
2.2628200

e商务文档

变量选择与lasso-logistic

相关文档推荐：