当前位置：文档之家› 优选智能决策理论与方法

优选智能决策理论与方法

A2
-1 1 -1
1
0
010111 1011
-1
1
0 1 1 0 1 1 1 1 0 -1
0 1 1 1 1 1 1 1 1 -1
机器学习—归纳学习：决策树
❖ 概念学习系统CLS(Hunt)：从一颗空的决策树出发，添加新的判定结点来改善原来的决策树，直到该决策树能够正确地将训练实例分类为止。
产生根节点T，T包含所有的训练样本；如果T中的所有样本都是正例，则产生一个标有“1”的节点作
Re d(v) Apple(v) | Re d(v) Blue(v) Apple(v) 将合取转为析取规则
Re d(v) Circle(v) Apple(v) | Re d(v) Circle(v) Apple(v)
机器学习—归纳学习：泛化
爬升概念树规则：通过爬升概念树，低层概念被较高层概念替代。设A表示信息系统中的某个属性如Animal， a,b,…分别为对象u,v,…在属性A上的取值，若s是概念树上a,b,…的父结点，则基于概念树爬升的泛化规则表示为：
假设以随机变量A作为决策树根的测试属性，A具有k个不同的离散值v1,v2,…,vk，它将X划分为k个子集，且假设第j个子集中包含Pj个正例，Nj个反例，则第j个子集的信息熵为I(Pj,Nj)。
机器学习—归纳学习：决策树
以A为测试属性的期望信息熵为
E(A)
k j 1
Pj N j PN
I (Pj , N j )
A(u) a
A(v)
b
|
(x)L(x) s
Nick等人给出了一种面向属性的归纳算法。
❖ 过度泛化问题
当某个属性被爬升至过高的概念层会导致冲突的产生，
这种现象称为过度泛化。克服过度泛化必须有相应的终
止泛化算法的策略。
机器学习—归纳学习：泛化
哺乳类
动物
鸟类
第1层第2层
食肉类
蹄类
飞禽类
走禽类
值，F(v)均成立： F(a) F(b) | (v)F(v)
机器学习—归纳学习：泛化
消除条件规则：一个合取条件可看作是对满足此概念的可能实例集的一个约束。消除一个条件，则该概念被泛化。
Re d(v) Circle(v) Apple(v) | Re d(v) Apple(v)
添加选项：通过添加更多条件，使得有更多的实例满足概念而使该概念泛化。该规则特别有用的方式是通过扩展某个特定概念的取值范围而增加选项。
机器学习—归纳学习：决策树
T
A0
1
0
T1
T2
A1
A1
1 T11
A2
0 T12
-1
1 T21 1
0 -1 T22
1
0
T111 T112
-1
1
机器学习—归纳学习：决策树
❖ ID3算法(Quinlan)：ID3算法对CLS做了两方面的改进：(1) 增加窗口技术；(2)以信息熵的下降速度(信息增益)作为测试属性选择标准。
为T的子节点，并结束；如果T中的所有样本都是反例，则产生一个标有“-1”的节点作
为T的子节点，并结束；选择一个属性A(如何选?)，根据该属性的不同取值v1,v2,…,vn将
T中的训练集划分为n个子集，并根据这n个子集建立T的n个子节点T1,T2,…,Tn，并分别以A=vi作为从T到Ti的分支符号；以每个子节点Ti为根建立新的子树。
机器学习—归纳学习：决策树
A0 A1 A2 A3 类 A0 A1 A2 A3 类
0 0 0 0 -1 1 0 0 0 -1 0 0 0 1 -1 1 0 0 1 -1
A0
1
0
0 0 1 0 -1 1 0 1 0 -1
A1
A1
0 0 1 1 -1 1 0 1 1 -1
1
01 0
010011 1001
优选智能决策理论与方法
机器学习
❖ 机器学习是从模拟人类的学习行为出发，研究客观世界和获取各种知识与技能的一些基本方法（如归纳、泛化、特化、类比等），并借助于计算机科学与技术原理建立各种学习模型，从根本上提高计算机智能和学习能力。研究内容是根据生理学、认知科学对人类学习机理的了解，建立人类学习的计算模型或认知模型；发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析；建立面向任务且具有特定应用的学习系统。
机器学习—归纳学习：泛化
❖ 归纳学习是指从给定的关于某个概念的一系列已知的正例和反例中归纳出一个通用的概念描述。
❖ 泛化(Generalization)是用来扩展一假设的语义信息，使其能够包含更多的正例。泛化所得到的结论并不总是正确的。
❖ 常用泛化方法：
将常量转为变量规则：对于概念F(v)，如果v的某些取值 a,b,…使F(v)成立，则这些概念可被泛化为：对于v的所有
第3层
虎
印度豹长颈鹿斑马信天翁鹰
驼鸟企鹅第4层
机器学习—归纳学习：决策树
❖ 决策树学习是以实例为基础的归纳学习算法。所谓决策树是一个类似流程图的树结构，其中树的内结点对应属性或属性集，每个分枝表示检验结果(属性值)，树枝上的叶结点代表所关心的因变量的取值(类标签)，最顶端的结点称为根结点。
信息增益：设决策树根结点的样本数据为X={x1,x2,…,xn}，称X的两个训练子集PX(对应类标签为1)和NX (对应类标签为-1)为正例集和反例集，并记正例集和反例集的样本数分别为P和N，则样本空间的信息熵为
I (P, N) P log( P ) N log( N ) PN PN PN PN
❖ 决策树学习采用自顶向下的递归方式，在决策树的内部结点进行属性值比较并根据不同的属性值判断从该结点向下的分支，在叶结点得到结论。从根结点到每个叶结点都有唯一的一条路径，这条路径就是一条决策“规则”。
❖ 当经过一批训练实例集的训练产生一颗决策树，那么该决策树就可以根据属性的取值对一个未知实例集进行分类。所有的决策树都有一等价的ANN表示；也可用SVM实现相同的功能。
窗口技术：对于训练集很大的情形可选择其某个子集(称为窗口)构造一棵决策树，如果该决策树对训练集中的其它样本的判决效果很差，则扩大窗口，选择不能被正确判别的样本加入到窗口中，再建立一个新的决策树，重复这个过程得到最终的决策树，显然不同的初始窗口会产生不同的决策树。
机器学习—归纳学习：决策树

e商务文档

优选智能决策理论与方法

相关文档推荐：