当前位置：文档之家› 集成学习

集成学习

其他叫法： Gradient Tree Boosting GBRT (Gradient BoostRegression Tree) 梯度提升回归树 MART (MultipleAdditive Regression Tree) 多决策回归树 Tree Net决策树网络
集成学习
Bagging (bootstrap aggregation )
集成学习
2.组合时，如何选择学习器？考虑准确性和多样性准确性指的是个体学习器不能太差，要有一定的准确度；多样性则是个体学习器之间的输出要具有差异性
集成学习
3.怎样组合弱分类器？
组合策略：（1）平均法（2）投票法（3）学习法
集成学习
（1）平均法对于数值类的回归预测问题
思想：对于若干个弱学习器的输出进行平均得到最终的预测输出。 •简单平均法 •加权平均法
1 T H（x） hi ( x) T i 1
H（x) wi hi ( x)
i 1
T
其中wi是个体学习器hi的权重，通常有wi≥0,
w
i 1
T
i
1
集成学习（2）投票法对于分类问题的预测思想：多个基本分类器都进行分类预测，然后根据分类结果用某种投票的原则进行投票表决，按照投票原则使用不同投票法。一票否决、一致表决、少数服从多数阈值表决：首先统计出把实例x划分为Ci和不划分为 Ci的分类器数目分别是多少，然后当这两者比例超过某个阈值的时候把x划分到Ci。
集成学习
在概率近似正确（PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，如果正确率很高，那么就称这个概念是强可学习（strongly learnable）的。如果正确率不高，仅仅比随即猜测略好，那么就称这个概念是弱可学习（weakly learnable）的。
后来证明强可学习与弱可学习是等价的
解决的问题：
1.弱分类器之间是怎样的关系？ 2.组合时，如何选择学习器？ 3.怎样组合弱分类器？
集成学习
解决的问题 1. 弱分类器之间是怎样的关系？
第一种就是所有的个体学习器都是一个种类的，或者说是同质的。第二种是所有的个体学习器不全是一个种类的，或者说是异质的。
Bootstrap方法是非常有用的一种统计学上的估计方法。 Bootst rap是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。Bootstrap是一种有放回的重复抽样方法，抽样策略就是简单的随机抽样。
Bagging 扩展变体
随机森林（random forest 简称RF）
随机森林：决策树+bagging=随机森林
集成学习综述
基本思想
简单平均对于回归预测（数值）加权平均基础分类器组合策略
简单投票对于分类预测（类别）加权投票学习法
集成学习 Boosting
Adaboost
Adboost+决策树=提升树
决策树+Gradient Boosting=GBDT
集成学习方法 Bagging 随机森林（决策树）（决策树）
偏差刻画了学习算法本身的拟合能力 Boosting思想，对判断错误的样本不停的加大权重，为了更好地拟合当前数据，所以降低了偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。 boosting是把许多弱的分类器组合成一个强的分类器。 Bagging主要是降低方差度量了同样大小的数据集的变动所导致的学习性能的变化。刻画了数据扰动所造成的影响。 Bagging思想，随机选择部分样本来训练处理不同的模型，再综合来减小防方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。 bagging是对许多强（甚至过强）的分类器求平均
集成学习（3）学习法之前的方法都是对弱学习器的结果做平均或者投票，相对比较简单，但是可能学习误差较大。代表方法是Stacking 思想：不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，分为2层。第一层是用不同的算法形成T个弱分类器，同时产生一个与原数据集大小相同的新数据集，利用这个新数据集和一个新算法构成第二层的分类器。
ID3(信息增益) c4.5（信息增益率） CART（基尼系数）
Stacking 模型评价方差&偏差
集成学习：简单直观的例子
对实例进行分类
对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能
※定义：集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。
集成学习
集成学习
主要学习方法：根据个体学习器的生成方式，目前的集成学习方法大致可分为两类， • Boosting：个体学习器间存在强依赖关系，必须串行生成的序列化方法；串行：下一个分类器只在前一个分类器预测不够准的实例上进行训练或检验。 • Bagging：个体学习器间不存在强依赖关系，可同时生成的并行化方法。并行：所有的弱分类器都给出各自的预测结果，通过组合把这些预测结果转化为最终结果。
集成学习
ห้องสมุดไป่ตู้
Boosting
重赋权法：即在训练过程的每一轮中，根据样本分布为每一个训练样本重新赋予一个权重。对无法接受带权样本的基学习算法，则可以通过重采样法来处理，即在每一轮的学习中，根据样本分布对训练集重新进行采样，在用重采样而来的样本集对基学习器进行训练。
代表算法： Adboost 决策树+adboost=提升树 GBDT（Gradient BoostDecision Tree）梯度提升决策树决策树+Gradient Boosting=GBDT
Bagging的策略： - 从样本集中用Bootstrap采样选出n个样本 - 在所有属性上，对这n个样本建立分类器（CART or SVM or ...） - 重复以上两步m次，i.e.build m个分类器（CART or SVM or ...） - 将数据放在这m个分类器上跑，最后vote看到底分到哪一类
集成学习
从偏差-方差分解的角度偏差(bias) ：描述的是预测值的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差(variance) ：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。
集成学习
Boosting主要关注降低偏差
ID3(信息增益) c4.5（信息增益率） CART（基尼系数）
Stacking 模型评价方差&偏差
集成学习综述
基本思想
简单平均对于回归预测（数值）加权平均基础分类器组合策略
简单投票对于分类预测（类别）加权投票学习法
集成学习 Boosting
Adaboost
Adboost+决策树=提升树
决策树+Gradient Boosting=GBDT
集成学习方法 Bagging 随机森林（决策树）（决策树）

e商务文档

集成学习

相关文档推荐：