当前位置:文档之家› 第七章 决策表属性约简

第七章 决策表属性约简

第七章 信息表属性约简 基于Rough集理论的知识获取,主要是通过对原始决策表的约简,在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对决策表进行约简(简化),包括属性约简和值约简。本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进行系统分析,并介绍几种有效的属性约简算法。

7.1决策表属性约简概述 一个决策表就是一个决策信息系统,表中包含了大量领域样本(实例)的信息。在第四章中,我们曾经对决策规则进行了讨论,决策表中的一个样本就代表一条基本决策规则,如果我们把所有这样的决策规则罗列出来,就可以得到一个决策规则集合,但是,这样的决策规则集合是没有什么用处的,因为其中的基本决策规则没有适应性,只是机械地记录了一个样本的情况,不能适应新的、其他的情况。为了从决策表中抽取得到适应度大的规则,我们需要对决策表进行约简,使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的样本,这样得到的决策规则就具有较高的适应性。 根据定义2.1-1,我们可以进一步讨论决策表中属性的必要性和相应的约简算法。 定义7.1-1 设U是一个论域,P是定义在U上的一个等价关系簇,RP。如果IND(P-{R})=IND(P),则称关系R在P中是绝对不必要的(多余的);否则,称R在P中是绝对必要的。 绝对不必要的关系在知识库中是多余的,如果将它们从知识库中去掉,不会改变该知识库的分类能力。相反,若知识库中去掉一个绝对必要的关系,则一定改变知识库的分类能力。 定义7.1-2 设U为一个论域,P为定义在U上的一个等价关系簇,RP。如果每个关系RP在P中都是绝对必要的,则称关系簇P是独立的;否则,称P是相互依赖的。 对于相互依赖的关系簇来说,其中包含有冗余关系,可以对其约简;而对于独立的关系簇,去掉其中任何一个关系都将破坏知识库的分类能力。 定义7.1-3 设U为一个论域,P为定义在U上的一个等价关系簇,P中所有绝对必要关系组成的集合,称为关系簇P的绝对核,记作CORE(P)。 定义7.1-4 设U为一个论域,P、Q为定义在U上的两个等价关系簇,且QP。 如果 (1) IND(Q)=IND(P); (2) Q是独立的; 则称Q是P的一个绝对约简。 如果知识Q是知识P的绝对约简,那么,U中通过知识P可区分的对象,同样可以用知识Q来区分。 在讨论决策表信息系统约简的时候,一个条件属性A就对应着一个等价关系(也称不分明关系或不可分辨关系),即在条件属性A上取值的相等关系,它对论域U形成一个划分U/A。决策表的所有条件属性形成条件属性集合(P)对论域U的划分U/P,同时,决策属性集D={d}也对论域形成一个划分U/D。这两个划分形成了条件属性和决策属性在对论域样本分类上的知识。属性约简的目标就是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性D有相同的分类能力。这就是相对约简的概念。 定义7.1-5 设U为一个论域,P、Q为定义在U上的两个等价关系簇,Q的P正域记为POSP(Q),定义为: QUXPXQPOSP/)()(。

定义7.1-6 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若POSP(Q)=POS(P-{r})(Q),则称r为P中相对于Q可省略的(不必要的),简称P中Q可省略的;否则,称r为P中相对于Q不可省略的(必要的)。 定义7.1-7 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P中的每一r都是P中Q不可省略的,则称P为(相对于)Q独立的。 定义7.1-8 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P的Q独立子集S(SP)有POSs(Q)=POSP(Q),则称S为P的Q约简。 可以记P的所有Q约简关系簇为REDQ(P)。 定义7.1-9 设U为一个论域,P、Q为定义在U上的两个等价关系簇,P的所有Q不可省略原始关系簇称为P的Q核,记为COREQ(P)。 定义7.1-10 设U为一个论域,P、Q为定义在U上的两个等价关系簇,如果POSP(Q)=U,则称论域U是P上相对于Q一致的。 定理7.1-1 设U为一个论域,P、Q为定义在U上的两个等价关系簇,REDQ(P)为P的所有Q约简关系簇,COREQ(P)为P的Q核,则COREQ(P)=REDQ(P)。 下面再给出在可变精度Rough集模型相应的属性集之间依赖、独立,以及约简的定义(定义7.1-11至定义7.1-13)。

定义7.1-11 如果),()},{(DCKDaCK,则称属性a是属性集C中相对于决策属性D是依赖的;否则称属性a是属性集C中相对于决策属性D是独立的。 定义7.1-12 如果存在条件属性集B(BC)的真子集E,使得

),(),(DBKDEK,则称B相对于决策属性D是依赖的;否则,

称B相对于决策属性D是独立的。 定义7.1-13 决策表条件属性集合C的相对约简C’是条件属性集合C相对于决策属性D的最大的对立子集。 下面通过实例对决策表的约简问题加以说明。 如表7.1-1所示的一个关于气象信息的决策表系统。

表7.1-1 关于气象信息的决策表系统 U 条件属性 决策属性(d) Outlook(a1) Temperature(a2) Humidity(a3) Windy(a4)

1 Sunny Hot High False N 2 Sunny Hot High True N 3 Overcast Hot High False P 4 Rain Mild High False P 5 Rain Cool Normal False P 6 Rain Cool Normal True N 7 Overcast Cool Normal True P 8 Sunny Mild High False N 9 Sunny Cool Normal False P 10 Rain Mild Normal False P 11 Sunny Mild Normal True P 12 Overcast Mild High True P 13 Overcast Hot Normal False P 14 Rain Mild High True N 令Q=决策属性集={d},P=条件属性全集={a1,a2,a3,a4},则 IND(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}}, IND(Q)={{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}}, POSP(Q)=U, 因此,论域U是P上相对于Q一致的,这说明该决策表是完全确定的决策表,决策表中不包含不一致信息(样本)。 IND(P-{a1})={{1,3},{2},{4,8},{5,9},{6,7},{10},{11},{12,14}, {13}}, IND(P-{a2})={{1,8},{2},{3},{4},{5,10},{6},{7},{9},{11},{12},{13}, {14}}, IND(P-{a3})={{1},{2},{3,13},{4,10},{5},{6},{7},{8},{9},{11},{12}, {14}}, IND(P-{a4})={{1,2},{3},{4,14},{5,6},{7},{8},{9},{10},{11},{12}, {13}}, 从而, POS(P-{a1})(Q)={2,5,9,10,11}, POS(P-{a2})(Q)=U=POSP(Q), POS(P-{a3})(Q)=U=POSP(Q), POS(P-{a4})(Q)={1,2,3,7,8,9,10,11,12,13}, 由此可知,属性a2、a3是相对于决策属性d可省略的,但不一定可以同时省略。而属性a1和a4是相对于决策属性d不可省略的, COREQ(P)={a1, a4}, 进一步, IND(P-{ a2, a3})={{1,8,9},{2,11},{3,13},{4,5,10},{6,14},{7,12}}, POS(P-{a2,a3})(Q)={3,4,5,6,7,10,12,13,14}, 故属性a2是条件属性集P-{a3}相对于决策属性d不可省略的,属性a3是也条件属性集P-{a2}相对于决策属性d不可省略的。条件属性集{a1,a3,a4}和{a1,a2,a4}为相对于决策属性集Q={d}独立的, REDQ(P)={{a1,a3,a4},{a1,a2,a4}}, COREQ(P)=REDQ(P)={a1,a3,a4}{a1,a2,a4}={a1,a4}。 去掉表7.1-1中的决策属性列,可以得到一个如表7.1-2所示的信息系统。 令P=属性全集={a1,a2,a3,a4},根据前面的计算可知 IND(P)IND(P-{ai}), i=1,2,3,4。 即,在表7.1-2所示的信息系统中,所有的属性都是绝对必要的,去掉任何属性都会改变系统中的知识。 由此,我们可以看出,要根据决策表中的数据信息分析得到条件属性对决策属性的分类(判定)规则,需要研究条件属性集合相对于决策属性的相对约简。 在智能数据分析研究中,原始的决策表信息系统中的知识(条件属性)并不是同等重要的,甚至其中某些条件属性是冗余的。冗余属性的存在,一方面是对资源的浪费(需要存储空间和处理时间);另一方面,也干扰人们作出正确而简洁的决策。所谓决策表的属性约简,就是要在保持条件属性相对于决策属性的分类能力不变的条件下,删除其中不必要的或不重要的属性。一般来讲,一个决策表的条件属性对于决策属性的相对约简不是唯一的,即对同一个决策表可能存在多个相对约简。因为属性约简的目的是导出关于决策表的决策规则,约简中属性的多少直接影响着决策规则的繁简和性能。因此,人们往往期望找到具有最少条件属性的约简,即最小约简。然而,S K M Wong和W Ziarko已经证明了找出一个决策表的最小约简是NP-hard问题。导致NP-hard问题的主要原因是属性的组合爆炸问题。

表7.1-2 关于气象信息的信息表系统 U Outlook(a1) Temperature(a2) Humidity(a3) Windy(a4) 1 Sunny Hot High False 2 Sunny Hot High True 3 Overcast Hot High False 4 Rain Mild High False 5 Rain Cool Normal False 6 Rain Cool Normal True 7 Overcast Cool Normal True 8 Sunny Mild High False 9 Sunny Cool Normal False 10 Rain Mild Normal False 11 Sunny Mild Normal True 12 Overcast Mild High True 13 Overcast Hot Normal False 14 Rain Mild High true

相关主题