当前位置:文档之家› boost-机器学习与深度学习入门-黄海广博士整理PPT

boost-机器学习与深度学习入门-黄海广博士整理PPT

特征增益的均值 特征分裂时的平均覆盖样本数
线性特征生成
new_feature= model.apply(X_train)
大学
谢谢!
x<4.5
8.95
x<3.5
6.83Βιβλιοθήκη x<2.56.56
5.63
5.82
机器学习基础-Gradient boosting Tree
损失函数的负梯度在当前模型的 值作为提升树的残差的近似值来 拟合回归树
机器学习基础-Gradient boosting Tree
机器学习基础-XGBoost
机器学习基础-XGBoost
机器学习基础-集成学习
Stacking
将训练好的所有基模型对训 练基进行预测,第j个基模型 对第i个训练样本的预测值将 作为新的训练集中第i个样本 的第j个特征值,最后基于新 的训练集进行训练。同理, 预测的过程也要先经过所有 基模型的预测形成新的测试 集,最后再对测试集进行预 测。
机器学习基础-Boosting Tree
C为常数,J为叶子节点
机器学习基础-Boosting Tree
前向分步算法:
机器学习基础-Boosting Tree
机器学习基础-Boosting Tree
s
1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
m(s) 15.72 12.07 8.36 5.78 3.91 1.93 8.01 11.73 15.74
xx研究院
机器学习与深度学习入门
黄海广
2019年6月
机器学习基础-决策树


长相
不帅
家庭背景

不好

人品

不好
上进心


不能

不能
机器学习基础-决策树
150个鸢尾花样本进行分类,特征为花萼的 长度和宽度
粗垂直线表示根节点的决策边界(深度0):花瓣长度= 2.45厘米 。由于左侧区域是纯净的(仅Iris-Setosa),因此无法进一步拆分 。 •然而,右侧区域是不纯的,因此深度为1的右侧节点将其分割成花 瓣宽度= 1.75厘米(由虚线表示)。由于max_depth设置为2,因 此决策树会在那里停止。 •但是,如果将max_depth设置为3,那么两个深度为2的节点将各 自添加另一个决策边界(由点虚线表示)。
机器学习基础-Boosting Tree
x<6.5
6.24
8.91
x<3.5
-0.52
0.22
x<6.5
x<3.5
8.91
5.72
6.46
机器学习基础-Boosting Tree
x<6.5
0.15
-0.22
x<4.5
-0.16
0.11
x<6.5
0.07
-0.11
x<2.5
-0.15
0.04
x<6.5

1,2,5,6,7,15

机器学习基础-集成学习
Bagging
从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型 预测的结果进行综合产生最终的预测结果:
机器学习基础-集成学习
Boosting
训练过程为阶梯状,基 模型按次序一一进行训 练(实现上可以做到并 行),基模型的训练集 按照某种策略每次都进 行一定的转化。对所有 基模型预测的结果进行 线性综合产生最终的预 测结果:
机器学习基础-决策树
信息熵
条件熵 ID3 信息增益 C45 信息增益率
A是特征,i是特征取值
CART 基尼指数 基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。
机器学习基础-CART
有 4,8,9,10,11,12

房子
无 1,2,3,5,6,7,13,14,15
工作
3,13,14
机器学习基础-XGBoost
1,2,3 4,5,6
7,8,9
机器学习基础-XGBoost
机器学习基础-XGBoost
分数越小,代表这个树的结构越好
为什么要推导? 为什么要二阶泰勒展开?
机器学习基础-XGBoost
XGBOOST 与特征
特征重要性评估 model.get_fscore() 特征作为分裂节点的次数
相关主题