当前位置：文档之家› 粗糙集理论介绍解析

粗糙集理论介绍解析

取不同的属性组合,可得不同的等价关系（粒度)为： IND（R1）＝{{x1,x3,x7}, {x2,x4}, {x5,x6,x8}} IND（R1,R2）＝{{x1}, {x2}, {x3,x7}, {x4}, {x5}, {x6}, {x8}}
基本概念（4）集合的上近似、下近似和边界区
一个对象a是否属于集合X根据现有知识来判断，可分为三种情况：
粗糙集理论的基本观点
粗糙集理论是建立在分类机制的基础上的，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分，每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库，将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。
属性a加入C，对于分类U/IND(D)的重要程度定义为： SGF(a, C, D)=γC(D)-γC-{a}(D)
有属性a 的依赖度没有属性a的依赖度
例5. 属性的重要性计算
表4
令C＝{A1,A2},D={A5}
有POSC(D)＝{4,5,7}
U 1 2 3 4 5 6 7 8
A1 0 1 1 0 1 1 1 0
1）a肯定属于集合X
2) a可能属于也可能不属于集合X
3) a肯定不属于集合X
返回
Let U为论域（非空对象集合），I为U中的一组等价关系，
Then
•集合X关于I的下近似（Lower approximation）是由那些根据现有
知识判断肯定属于X的对象所组成的最大集合，有时也称为X的正区（positive region），记做POS（X）
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3},{p4},{p6}}
集合X的下近似为集合X的上近似为集合X的负区为集合X的边界区为
I*(X)=POS(X)={p1,p3,p6} I*(X)＝{p1,p2,p3,p5,p6} NEG(X)={p4} BND(X)= {p2,p5}
Outline：
粗糙集理论的基本概念
粗糙集理论的应用（规则挖掘和属性约简）
其他
基本概念
1 信息系统，决策表
2 知识 3 等价关系，不可分辨关系与基本集
4 下、上近似
正区域，负区域，边界域 5 粗糙度 6 粗糙隶属函数
基本概念（1）
信息系统
信息系统是四元组(U,Q,V,f). 其中 U是对象集合 Q是属性集合（包括条件属性C和决策属性 D)，
令C＝{A1,A2}, D={A5}
依据属性A1、A2，可得到 U/IND（D）： {{1,8},{2,6},{3},{4},{5,7}}
正区域为：{4},{5,7}
So， POSC(D)＝ POS{A1,A2}({A5})＝{4,5,7}
γQ(P)=3/8=0.375 返回
属性的重要性
不同属性对于决定条件属性和决策属性之间的依赖关系起着不同的作用
使用两个属性进行划分的情况
加入第二个属性
负区域
正区域(下近似)
边界区域
上近似
综合表示
返回
基本概念（5）粗糙度下近似、上近似及边界区等概念称为可分辨区，刻化了一个边界含糊 (vague)集合的逼近特性。粗糙程度按右边公式计算。式中|＃|表示集合的基数或势，对有限集合表示集合中所包含的元素个数。
返回
2. 基于粗糙集的数据约简
不可分辨关系近似集（下近似和上近似）属性的依赖度属性的重要性冗余属性属性约简
返回
属性的依赖度
利用两个属性集合D、C之间的相互依赖程度，确定在决策属性D之下的条件属性集合C的重要性即，决策属性集合D 对条件属性集合C的依赖程度用如下定义来表示：
| POSC ( D) | C ( D) |U |
example
POSc(D)是属性集C在U/IND(D)中的正区域。
例4. 属性依赖度的计算
U 1 2 3 4 5 6 7 8 A1 0 1 1 0 1 1 1 0 A2 0 0 1 2 2 0 2 0 A3 1 2 1 1 1 1 2 2 A4 0 1 0 1 0 0 1 1 A5 0 1 0 1 1 0 1 1
粗糙集理论的历史
20世纪70 年代, 波兰数学家Z. Pawlak 和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究. 1982. Z.Pawlak发表论文“Rough Set”.宣告 RS的诞生 1991. Z.Pawlak出版著作“Rough Sets: Theoretical Aspects of Reasoning about Data ” 1992. 召开首次国际研讨会,应用专集. 之后得到飞速发展, 在数据挖掘, 模式识别, 粗糙逻辑等方面取得较大进展.
RULE1：IF （肌肉痛＝是)and(体温＝高） THEN 患有流感 RULE2：IF （肌肉痛＝是)and(体温＝很高） THEN 患有流感
RULE3：IF （肌肉痛＝是)and(体温＝正常） THEN 没患流感
RULE4：IF （肌肉痛＝否)and(体温＝高） THEN 可能
可以处理不完整的数据的体现
例2的粗糙度
＝2/5
返回
基本概念（6）粗糙隶属函数（Rough membership function)
含糊集合没有清晰的边界，即，根据论域中现有知识无法判定某些元素是否属于该集合。在RS中，不确定（uncertainty）这个概念是针对元素隶属于集合的程度而言。
例2中，I为属性{R1}上构成的等价关系时，x1对集合Ｘ的粗糙隶属函数为：2/3
X={X1,X2,X3,X4}
Then，there are: I*(x)={x2，x4} 回 I*(x)={x1，x3，x7，x2，x4} 回
近似的示意图
假定有一个信息系统, 有两个属性. 属性一有5个值, 属性二有6个值. 现在有一个要近似的集合(X), 在图中用红色的圆表示.
仅使用第一个属性进行划分的情形. 正区域为空. 蓝色区域为负区域.
负区得到的： RULE4：IF （头疼＝否）and（肌肉痛＝是)and(体温＝正常） THEN 没患流感
边界区得到的：
RULE5：IF （头疼＝是）and（肌肉痛＝否)and(体温＝高） THEN 可能
以“肌肉痛＋体温”为例：
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3,p6},{p4}}
A2 0 0 1 2 2 0 2 0
A3 1 2 1 1 1 1 2 2
A4 0 1 0 1 0 0 1 1
A5 0 1 0 1 1 0 1 1
γC(D)=3/8=0.375 if a＝A1，then γC-{a}(D)＝ γ{A2}(D)=3/8
X U
•集合X关于I的上近似（Upper approximation）是由所有与X相交
非空的等效类I（x）的并集，是那些可能属于X的对象组成的最小集合。
如果上下近似是相等的, 则这是一个精确集合, 否则它是一个粗糙集, 其中下近似称为该概念的正区域, 上下近似的差称为边界。上近似以外的区域称为负区域（Negative region），记为NEG（x）。
粗糙集理论：能处理具有不精确性和不确定性的知
识
等各种理论和方法
模糊集和基于概率方法，有时需要一些数据的附加信息或先验知识, 如模糊隶属函数,基本概率指派函数和有关统计概率分布等, 而这些信息有时并不容易得到粗糙集无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的
A4 0 1 0 1 0
返回
基本概念（2）：知识
RS中，知识被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的能力。那些根据事务的特征差别将其分门别类的能力都可以看作是某种“知识”。论域中相互间不可分辨的对象组成的集合。是组成知识的颗粒（granule）。知识是有粒度的. 粒度越小, 能精确表达的概念越多. 粒度的形式表示:不可分辨关系/等价类. 粒度是知识的最小单位。
so
例2：（表2）
R1(颜色)
X1 X2 红蓝
回24
R2(形状)
圆形方形
R3(体积)
小大
class
1 1
X3
X4 X5 X6 X7 X8
红
蓝黄黄红黄
三角形
三角形圆形方形三角形三角形
小
小ቤተ መጻሕፍቲ ባይዱ小小大大
1
1 2 2 2 2
等价类IND(R1)={{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
（表4－3）
病例 P1 头疼否肌肉体疼温是高流感是
Step1. 寻找不可分辨关系： “头疼”：{p2,p3,p5},{p1,p4,p6}
“肌肉痛”：{p1,p3,p4,p6},{p2,p5}
“体温”：{p1,p2,p5},{p3,p6},{p4} “头疼＋肌肉痛”： {p1,p4,p6},{p2,p5},{p3} “头疼＋体温”： {p1},{p2,p5},{p3},{p4},{p6} “肌肉痛＋体温”： {p1},{p2,p5},{p3,p6},{p4} “头疼＋肌肉痛＋体温”：
基本集：由论域中相互间不可区分的对象组成的集合，是组成论域知识的颗粒。
返回
例1 一玩具积木的集合如下表描述（表1）
X1 X2 X3 X4 X5 X6 X7 X8 R1(颜色) 红蓝红蓝黄黄红黄 R2(形状) 圆形方形三角形三角形圆形方形三角形三角形 R3(体积) 小大小小小小大大
V是属性的值域
f是一种映射，反应对象集合之间的值

e商务文档

粗糙集理论介绍解析

相关文档推荐：