当前位置：文档之家› boost-机器学习与深度学习入门-黄海广博士整理PPT

boost-机器学习与深度学习入门-黄海广博士整理PPT

特征增益的均值特征分裂时的平均覆盖样本数
线性特征生成
new_feature= model.apply(X_train)
大学
谢谢！
x<4.5
8.95
x<3.5
6.83Βιβλιοθήκη x<2.56.56
5.63
5.82
机器学习基础-Gradient boosting Tree
损失函数的负梯度在当前模型的值作为提升树的残差的近似值来拟合回归树
机器学习基础-Gradient boosting Tree
机器学习基础-XGBoost
机器学习基础-XGBoost
机器学习基础-集成学习
Stacking
将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。
机器学习基础-Boosting Tree
C为常数，J为叶子节点
机器学习基础-Boosting Tree
前向分步算法：
机器学习基础-Boosting Tree
机器学习基础-Boosting Tree
s
1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
m(s) 15.72 12.07 8.36 5.78 3.91 1.93 8.01 11.73 15.74
xx研究院
机器学习与深度学习入门
黄海广
2019年6月
机器学习基础-决策树
帅
能
长相
不帅
家庭背景
好
不好
能
人品
好
不好
上进心
有
能
不能
无
不能
机器学习基础-决策树
150个鸢尾花样本进行分类，特征为花萼的长度和宽度
粗垂直线表示根节点的决策边界（深度0）：花瓣长度= 2.45厘米。由于左侧区域是纯净的（仅Iris-Setosa），因此无法进一步拆分。 •然而，右侧区域是不纯的，因此深度为1的右侧节点将其分割成花瓣宽度= 1.75厘米（由虚线表示）。由于max_depth设置为2，因此决策树会在那里停止。 •但是，如果将max_depth设置为3，那么两个深度为2的节点将各自添加另一个决策边界（由点虚线表示）。
机器学习基础-Boosting Tree
x<6.5
6.24
8.91
x<3.5
-0.52
0.22
x<6.5
x<3.5
8.91
5.72
6.46
机器学习基础-Boosting Tree
x<6.5
0.15
-0.22
x<4.5
-0.16
0.11
x<6.5
0.07
-0.11
x<2.5
-0.15
0.04
x<6.5
是
1,2,5,6,7,15
否
机器学习基础-集成学习
Bagging
从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：
机器学习基础-集成学习
Boosting
训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果：
机器学习基础-决策树
信息熵
条件熵 ID3 信息增益 C45 信息增益率
A是特征，i是特征取值
CART 基尼指数基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。
机器学习基础-CART
有 4,8,9,10,11,12
是
房子
无 1,2,3,5,6,7,13,14,15
工作
3,13,14
机器学习基础-XGBoost
1,2,3 4,5,6
7,8,9
机器学习基础-XGBoost
机器学习基础-XGBoost
分数越小，代表这个树的结构越好
为什么要推导？为什么要二阶泰勒展开？
机器学习基础-XGBoost
XGBOOST 与特征
特征重要性评估 model.get_fscore() 特征作为分裂节点的次数

e商务文档

boost-机器学习与深度学习入门-黄海广博士整理PPT

相关文档推荐：