类器进行投票。
他适用于不稳定的学习过程,即数据集的一个小变动会产生大的差别,例如决策树、多层感知器。
6. Boosting 方法:它能提高弱分类器的性能。
它是带权值的抽样,改变数据对象的权值,分类好的数据给与小权值,分类不好的数据给与大权值,最终集成分类结果用加权投票的方法。
7. 一些经验: a 如果分类器不稳定用 bagging。
b 如果分类器稳定且简单用 boosting。
c 如果分类器稳定且复杂用随机注入。
d 如果数据有很多类,但是分类器只能处理两个类时,用错误纠正编码。
8. 为什么集成学习有效: a 从统计学角度来说当假设空间很大时,有可能有一些假设有着相同的精度,单一的学习器只能找出他们中的一个假设。
然而集成多个假设就有可能找到最可能的假设。
b 从计算角度来讲,很多单一学习算法都只能找到一个局部最优假设,当数据集很大时,可能很难找到一个最优假设,集成学习可以从多个起始点去局部逼近,这样就有可能得到一个全局最优的假设。
c 从表示角度来说,很多情况下最好的假设并不存在于假设空间中,当用集成方法对多个假设空间加权集成时就有可能突破假设空间找到最符合的假设。
第十一章聚类分析 1. 什么叫聚类分析:从给定对象中找出一些簇,使在同一簇中的对象要相似,类与类之间的对象要不相似。
我们希望类内部越紧越好,类之间界限要越明显越好。
2. 聚类的三类方法和其代表算法思想: a 分层聚类:簇之间是一个嵌套的形式,没有必要定义有多少个类,需要几个都可以。
且他可以定义多个含义,具体含义和问题有关。
两种方法:聚合方法:每个数据点都看为一个类,两两合并直到合并为一个类。
分裂方法:将所有的对象看做一个簇,分类直到每个类里包含一个点时停下。
此方法一旦将两个簇合并后就不能再更改,它也没有定义一个明确的目标函数,即不是全局最优化;每种方法都有各种缺点。
b 分区聚类:一个数据对象只属于一个簇。
K-means:1. 随机选择 k 个点作为初始中心点。
2. 计算每个点到不同中心点的距离,将点划分到几个簇里。
3. 重新计算每个簇的中心点。
4. 重复簇的划分直到簇的分布基本不变时停止。
c 基于密度的聚类:对类的定义不同,他认为类是由一些密集的点组成,这些密集的点被一些稀疏的点分开。
DBSCAN:认为类是基于密度的,它认为一个簇是由密度连接的点组成的最大的集合。
3. 层次局类中计算距离的方法: a 两簇之间的最近距离:可以划分大小不同的类;对噪声和例外点敏感。
b 两簇之间的最远距离:
对噪声和例外点不是那么敏感单不易划分大小相差很大的类。
c 组内平均距离:对噪声不是很敏感但是偏爱球形类。
d 中心点之间的距离。
11 / 13
null
置信度阈值。
置信度具有后件反弹调性,前提是他们都是从同一频繁项集中生成的。
9. 生成频繁项集的其他方法: a 项集格遍历:一般到特殊(频繁项集的最大长度不是太长)、特殊到一般(对发现稠密事务中最大频繁项集有用)、双向(加快确定频繁项集的边界)。
b 等价类。
c 宽度优先与深度优先。
10. FP 算法的基本思想: a 使用一种称作 FP 树的紧凑数据结构组织数据,并直接从该结构中提取频繁项集。
b FP 树是一种输入数据的压缩表示,它通过逐个读入事务然后将各事务映射到 FP 树中,路径可能有重叠,重叠越多表示越紧凑,越节省空间,从而达到压缩数据的目的。
c 递归地将树划分为一系列子树,在子树重生成频繁项集。
13 / 13。