当前位置:文档之家› 变量选择与lasso-logistic

变量选择与lasso-logistic

逐步向前
逐步向后
向后法不适用 与n<p的情况
7
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止
变量筛选
逐步回归与LASSO
凤鸣岐山 2019年4月10日
1
背景及方法
2
为什么进行变量选择?
1.排除不重要和无关变量,提取有用特征 2.当模型中的变量过多时,可能会出现过拟合 3.防止多重共线性削弱模型的解释能力 4.增强模型的稳定性和准确性
3
方法
变量选 择
子集选 择法 系数压 缩法
降维法
最优子
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
14
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t


x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
18
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17

x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
10
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t

x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
x1
0.4742083
0.0263443
18.00

x2
2.2628200
0.2109613
10.73
x4
0.0816762
逐集步法筛
选 岭回归 LASS 主成O 分 偏回最归小 二乘回

当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
4
逐步回归
5
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
9
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
x1
0.4742083
0.0263443 18.00

x2
2.2628200
0.210961310.73x40.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
11
X2,X4,X1已经在方程中,是否增加X3?
17
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t

x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161

x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
1.选定一个标准(P=0.2)
2.开始所有变量均在方程中 3.按自变量对y的贡献大小由小到大依次剔除变量 4.每剔除一个变量,则重新计算方程内各变量对y的贡献 5.直到方程内变量均达到入选标准,没有自变量可被剔除为止
13
全因素已经在方程中,是否删除X3?
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
8
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
15
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
12
后退法基本思想
16
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
宜尺度,及自变量间的必要的一些变量变换 • 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选 • 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项
6
逐步筛选
前进法 后退法 逐步回归
自动去除高度相关 变量
只考虑自变量进入 模型时是否有意义 考虑到自变量的组 合作用,选中的数 量一般比前进法多 自变量过多或者某 些高度相关,会导 致错误的结果
相关主题