优选智能决策理论与方法
A2
-1 1 -1
1
0
010111 1011
-1
1
0 1 1 0 1 1 1 1 0 -1
0 1 1 1 1 1 1 1 1 -1
机器学习—归纳学习:决策树
❖ 概念学习系统CLS(Hunt):从一颗空的决策树出发,添加新 的判定结点来改善原来的决策树,直到该决策树能够正确地 将训练实例分类为止。
产生根节点T,T包含所有的训练样本; 如果T中的所有样本都是正例,则产生一个标有“1”的节点作
Re d(v) Apple(v) | Re d(v) Blue(v) Apple(v) 将合取转为析取规则
Re d(v) Circle(v) Apple(v) | Re d(v) Circle(v) Apple(v)
机器学习—归纳学习:泛化
爬升概念树规则:通过爬升概念树,低层概念被较高层 概念替代。设A表示信息系统中的某个属性如Animal, a,b,…分别为对象u,v,…在属性A上的取值,若s是概念树 上a,b,…的父结点,则基于概念树爬升的泛化规则表示为:
假设以随机变量A作为决策树根的测试属性,A具有k个 不同的离散值v1,v2,…,vk,它将X划分为k个子集,且假设 第j个子集中包含Pj个正例,Nj个反例,则第j个子集的信 息熵为I(Pj,Nj)。
机器学习—归纳学习:决策树
以A为测试属性的期望信息熵为
E(A)
k j 1
Pj N j PN
I (Pj , N j )
A(u) a
A(v)
b
|
(x)L(x) s
Nick等人给出了一种面向属性的归纳算法。
❖ 过度泛化问题
当某个属性被爬升至过高的概念层会导致冲突的产生,
这种现象称为过度泛化。克服过度泛化必须有相应的终
止泛化算法的策略。
机器学习—归纳学习:泛化
哺乳类
动物
鸟类
第1层 第2层
食肉类
蹄类
飞禽类
走禽类
值,F(v)均成立: F(a) F(b) | (v)F(v)
机器学习—归纳学习:泛化
消除条件规则:一个合取条件可看作是对满足此概念的 可能实例集的一个约束。消除一个条件,则该概念被泛 化。
Re d(v) Circle(v) Apple(v) | Re d(v) Apple(v)
添加选项:通过添加更多条件,使得有更多的实例满足 概念而使该概念泛化。该规则特别有用的方式是通过扩 展某个特定概念的取值范围而增加选项。
机器学习—归纳学习:决策树
T
A0
1
0
T1
T2
A1
A1
1 T11
A2
0 T12
-1
1 T21 1
0 -1 T22
1
0
T111 T112
-1
1
机器学习—归纳学习:决策树
❖ ID3算法(Quinlan):ID3算法对CLS做了两方面的改进:(1) 增加窗口技术;(2)以信息熵的下降速度(信息增益)作为测试 属性选择标准。
为T的子节点,并结束; 如果T中的所有样本都是反例,则产生一个标有“-1”的节点作
为T的子节点,并结束; 选择一个属性A(如何选?),根据该属性的不同取值v1,v2,…,vn将
T中的训练集划分为n个子集,并根据这n个子集建立T的n个子 节点T1,T2,…,Tn,并分别以A=vi作为从T到Ti的分支符号; 以每个子节点Ti为根建立新的子树。
机器学习—归纳学习:决策树
A0 A1 A2 A3 类 A0 A1 A2 A3 类
0 0 0 0 -1 1 0 0 0 -1 0 0 0 1 -1 1 0 0 1 -1
A0
1
0
0 0 1 0 -1 1 0 1 0 -1
A1
A1
0 0 1 1 -1 1 0 1 1 -1
1
01 0
010011 1001
优选智能决策理论与方法
机器学习
❖ 机器学习是从模拟人类的学习行为出发,研究客观 世界和获取各种知识与技能的一些基本方法(如归 纳、泛化、特化、类比等),并借助于计算机科学 与技术原理建立各种学习模型,从根本上提高计算 机智能和学习能力。研究内容是根据生理学、认知 科学对人类学习机理的了解,建立人类学习的计算 模型或认知模型;发展各种学习理论和学习方法, 研究通用的学习算法并进行理论上的分析;建立面 向任务且具有特定应用的学习系统。
机器学习—归纳学习:泛化
❖ 归纳学习是指从给定的关于某个概念的一系列已知 的正例和反例中归纳出一个通用的概念描述。
❖ 泛化(Generalization)是用来扩展一假设的语义信息, 使其能够包含更多的正例。泛化所得到的结论并不 总是正确的。
❖ 常用泛化方法:
将常量转为变量规则:对于概念F(v),如果v的某些取值 a,b,…使F(v)成立,则这些概念可被泛化为:对于v的所有
第3层
虎
印度豹 长颈鹿 斑马 信天翁 鹰
驼鸟 企鹅 第4层
机器学习—归纳学习:决策树
❖ 决策树学习是以实例为基础的归纳学习算法。所谓决策树是 一个类似流程图的树结构,其中树的内结点对应属性或属性 集,每个分枝表示检验结果(属性值),树枝上的叶结点代表 所关心的因变量的取值(类标签),最顶端的结点称为根结点。
信息增益 :设决策树根结点的样本数据为X={x1,x2,…,xn}, 称X的两个训练子集PX(对应类标签为1)和NX (对应类标 签为-1)为正例集和反例集,并记正例集和反例集的样本 数分别为P和N,则样本空间的信息熵为
I (P, N) P log( P ) N log( N ) PN PN PN PN
❖ 决策树学习采用自顶向下的递归方式,在决策树的内部结点 进行属性值比较并根据不同的属性值判断从该结点向下的分 支,在叶结点得到结论。从根结点到每个叶结点都有唯一的 一条路径,这条路径就是一条决策“规则”。
❖ 当经过一批训练实例集的训练产生一颗决策树,那么该决策 树就可以根据属性的取值对一个未知实例集进行分类。所有 的决策树都有一等价的ANN表示;也可用SVM实现相同的 功能。
窗口技术:对于训练集很大的情形可选择其某个子集(称 为窗口)构造一棵决策树,如果该决策树对训练集中的其 它样本的判决效果很差,则扩大窗口,选择不能被正确 判别的样本加入到窗口中,再建立一个新的决策树,重 复这个过程得到最终的决策树,显然不同的初始窗口会 产生不同的决策树。
机器学习—归纳学习:决策树