当前位置:文档之家› 集成学习

集成学习

其他叫法: Gradient Tree Boosting GBRT (Gradient BoostRegression Tree) 梯度提升回归树 MART (MultipleAdditive Regression Tree) 多决策回归树 Tree Net决策树网络
集成学习
Bagging (bootstrap aggregation )
集成学习
2.组合时,如何选择学习器? 考虑准确性和多样性 准确性指的是个体学习器不能太差,要有一定的准 确度; 多样性则是个体学习器之间的输出要具有差异性
集成学习
3.怎样组合弱分类器?
组合策略: (1)平均法 (2)投票法 (3)学习法
集成学习
(1)平均法 对于数值类的回归预测问题
思想:对于若干个弱学习器的输出进行平均得到最终 的预测输出。 •简单平均法 •加权平均法
1 T H(x) hi ( x) T i 1
H(x) wi hi ( x)
i 1
T
其中wi是个体学习器hi的权重,通常有wi≥0,
w
i 1
T
i
1
集成学习 (2)投票法 对于分类问题的预测 思想:多个基本分类器都进行分类预测,然后根据分 类结果用某种投票的原则进行投票表决,按照投票原 则使用不同投票法。 一票否决 、一致表决 、 少数服从多数 阈值表决:首先统计出把实例x划分为Ci和不划分为 Ci的分类器数目分别是多少,然后当这两者比例超过 某个阈值的时候把x划分到Ci。
集成学习
在概率近似正确(PAC)学习的框架中,一个概念(一个类), 如果存在一个多项式的学习算法能够学习它, 如果正确率很高,那么就称这个概念是强可学习(strongly learnable)的。 如果正确率不高,仅仅比随即猜测略好,那么就称这个概 念是弱可学习(weakly learnable)的。
后来证明强可学习与弱可学习是等价的
解决的问题:
1.弱分类器之间是怎样的关系? 2.组合时,如何选择学习器? 3.怎样组合弱分类器?
集成学习
解决的问题 1. 弱分类器之间是怎样的关系?
第一种就是所有的个体学习器都是一个种类的,或 者说是同质的。 第二种是所有的个体学习器不全是一个种类的,或 者说是异质的。
Bootstrap方法是非常有用的一种统计学上的估计方法。 Bootst rap是对观测信息进行再抽样,进而对总体的分布特性进行统计 推断。Bootstrap是一种有放回的重复抽样方法,抽样策略就是 简单的随机抽样。
Bagging 扩展变体
随机森林(random forest 简称RF)
随机森林:决策树+bagging=随机森林
集成学习综 述
基本思想
简单平均 对于回归预 测(数值) 加权平均 基础分类器组 合策略
简单投票 对于分类预 测(类别) 加权投票 学习法
集成学习 Boosting
Adaboost
Adboost+决策树=提升树
决策树+Gradient Boosting=GBDT
集成学习方 法 Bagging 随机森林 (决策树) (决策树)
偏差刻画了学习算法本身的拟合能力 Boosting思想,对判断错误的样本不停的加大权重,为了更 好地拟合当前数据,所以降低了偏差,因此Boosting能基于 泛化性能相当弱的学习器构建出很强的集成。 boosting是把许多弱的分类器组合成一个强的分类器。 Bagging主要是降低方差 度量了同样大小的数据集的变动所导致的学习性能的变化。 刻画了数据扰动所造成的影响。 Bagging思想,随机选择部分样本来训练处理不同的模型, 再综合来减小防方差,因此它在不剪枝决策树、神经网络 等易受样本扰动的学习器上效果更明显。 bagging是对许多强(甚至过强)的分类器求平均
集成学习 (3)学习法 之前的方法都是对弱学习器的结果做平均或者投票, 相对比较简单,但是可能学习误差较大。 代表方法是Stacking 思想:不是对弱学习器的结果做简单的逻辑处理,而 是再加上一层学习器,分为2层。 第一层是用不同的算法形成T个弱分类器,同时产生 一个与原数据集大小相同的新数据集,利用这个新数 据集和一个新算法构成第二层的分类器。
ID3(信息增益) c4.5(信息增 益率) CART(基尼 系数)
Stacking 模型评价 方差&偏差
集成学习:简单直观的例子
对实例进行分类
对多个分类器的分类结果 进行某种组合来决定最终 的分类,以取得比单个分 类器更好的性能
※定义:集成学习是使用一系列学习器进行 学习,并使用某种规则把各个学习结果进行 整合从而获得比单个学习器更好的学习效果 的一种机器学习方法。 如果把单个分类器比作一个决策者的话,集 成学习的方法就相当于多个决策者共同进行 一项决策。
集成学习
集成学习
主要学习方法: 根据个体学习器的生成方式,目前的集成学习方法大 致可分为两类, • Boosting:个体学习器间存在强依赖关系,必须串 行生成的序列化方法; 串行:下一个分类器只在前一个分类器预测不够准 的实例上进行训练或检验。 • Bagging:个体学习器间不存在强依赖关系,可同 时生成的并行化方法。 并行:所有的弱分类器都给出各自的预测结果,通 过组合把这些预测结果转化为最终结果。
集成学习
ห้องสมุดไป่ตู้
Boosting
重赋权法:即在训练过程的每一轮中,根据样本分布为每一个 训练样本重新赋予一个权重。对无法接受带权样本的基学习算 法,则可以通过重采样法来处理,即在每一轮的学习中,根据 样本分布对训练集重新进行采样,在用重采样而来的样本集对 基学习器进行训练。
代表算法: Adboost 决策树+adboost=提升树 GBDT(Gradient BoostDecision Tree)梯度提升决策树 决策树+Gradient Boosting=GBDT
Bagging的策略: - 从样本集中用Bootstrap采样选出n个样本 - 在所有属性上,对这n个样本建立分类器(CART or SVM or ...) - 重复以上两步m次,i.e.build m个分类器(CART or SVM or ...) - 将数据放在这m个分类器上跑,最后vote看到底分到哪一类
集成学习
从偏差-方差分解的角度 偏差(bias) :描述的是预测值的期望与真实值之间的差 距。偏差越大,越偏离真实数据,如下图第二行所示。 方差(variance) :描述的是预测值的变化范围,离散程 度,也就是离其期望值的距离。方差越大,数据的分 布越分散,如下图右列所示。
集成学习
Boosting主要关注降低偏差
ID3(信息增益) c4.5(信息增 益率) CART(基尼 系数)
Stacking 模型评价 方差&偏差
集成学习综 述
基本思想
简单平均 对于回归预 测(数值) 加权平均 基础分类器组 合策略
简单投票 对于分类预 测(类别) 加权投票 学习法
集成学习 Boosting
Adaboost
Adboost+决策树=提升树
决策树+Gradient Boosting=GBDT
集成学习方 法 Bagging 随机森林 (决策树) (决策树)
相关主题