当前位置：文档之家› 粗糙集理论介绍

粗糙集理论介绍

粗糙集理论介绍
问题的提出：知识的含糊性
术语的模糊性，如高矮数据的不确定性，如噪声知识自身的不确定性，如规则的前后件间的依赖关系不完全可靠不完备性，数据缺失
由此，提出了包括
概率与统计、证据理论：理论上还难以令人信服，
不能处理模糊和不完整的数据
模糊集合理论：能处理模糊类数据，但要提供隶属
函数（先验知识）
so
例2：（表2）
R1(颜色) R2(形状) R3(体积) class
X1
红
圆形
小
1
X2
蓝
方形
大
1
X3
红
三角形
小
1
X4
蓝
三角形
小
1
X5
黄
圆形
小
2
X6
黄
方形
小
2
X7
红
三角形
大
2
X8
黄
三角形
大
2
等价类IND(R1)={{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
X={X1,X2,X3,X4}
Step2. 针对各个属性下的初等集合寻找下近似和上近似。
以“头疼＋肌肉痛＋体温”为例，设集合X为患流感的人的集合，I为3个属性构成的一个等效关系： {p1},{p2,p5},{p3},{p4},{p6}，则
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3},{p4},{p6}}
粗糙集在数据挖掘中的应用基于粗糙集的数据约简
返回
1. 粗糙集在数据挖掘中的应用
粗糙集对不精确概念的描述是通过上、下近似这两个精确概念来表示的。
粗糙集理论的的数学基础：假定所研究的每一个对象都涉及到一些信息（数据、知识），如果对象由相同的信息描述，那么它们就是相似的或不可区分的。
Example 例3 含6个流感病例的表
对于任何一个属性集合P，不可分辨关系用IND表示，定义如下： IND(P)＝{(x,y) U×U:f(x,a)=f(y,a), aP}
不可分辨关系就是U上的等价关系
基本集：由论域中相互间不可区分的对象组成的集合，是组成论域知识的颗粒。
返回
例1 一玩具积木的集合如下表描述（表1）
R1(颜色) R2(形状) R3(体积)
311100 402111 512101 610100
正区域为：{4},{5,7} So， POSC(D)＝ POS{A1,A2}({A5})＝{4,5,7}
712211 800211
γQ(P)=3/8=0.375
返回
属性的重要性
不同属性对于决定条件属性和决策属性之间的依赖关系起着不同的作用
属性a加入C，对于分类U/IND(D)的重要程度定义为： SGF(a, C, D)=γC(D)-γC-{a}(D)
下近似得到的：
RULE1：IF （头疼＝否）and（肌肉痛＝是)and(体温＝高） THEN 患有流感 RULE2：IF （头疼＝是）and（肌肉痛＝是)and(体温＝很高） THEN 患有流感 RULE3：IF （头疼＝否）and（肌肉痛＝是)and(体温＝很高） THEN 患有流感负区得到的： RULE4：IF （头疼＝否）and（肌肉痛＝是)and(体温＝正常） THEN 没患流感边界区得到的： RULE5：IF （头疼＝是）and（肌肉痛＝否)and(体温＝高） THEN 可能
if a＝A1，then γC-{a}(D)＝ γ{A2}(D)=3/8 if a＝A2，then γC-{a}(D)＝ γ{A1}(D)=0
SO,
SGF(A1, C, D)=0 SGF(A2, C, D)=3/8 说明属性A2比属性A1更重要
返回
冗余属性
对于属性集D和R，属性a属于R，如果 POSR(D)= POSR-{a}(D)，
粗糙度与粗糙隶属函数
vague（粗糙度）：用来描述集合，指集合的边界不清楚
uncertainty（粗糙隶属函数）：描述元素，指某个元素是否属于某集合是不确定的。
返回
粗糙集理论的基本概念粗糙集理论的应用（规则挖掘和属性约简）其他
粗糙集的应用
是一种刻划不完整性和不确定性的数学工具，能有效地分析不精确，不一致，不完整等各种不完备的信息，还可以对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律
例2的粗糙度＝2/5
返回
基本概念（6）粗糙隶属函数（Rough membership function)
含糊集合没有清晰的边界，即，根据论域中现有知识无法判定某些元素是否属于该集合。在RS中，不确定（uncertainty）这个概念是针对元素隶属于集合的程度而言。
例2中，I为属性{R1}上构成的等价关系时，x1对集合Ｘ的粗糙隶属函数为：2/3
集合X的下近似为 I*(X)=POS(X)={p1,p3,p6} 集合X的上近似为 I*(X)＝{p1,p2,p3,p5,p6} 集合X的负区为 NEG(X)={p4} 集合X的边界区为 BND(X)= {p2,p5}
Step3. 获取规则
根据上面的分析可得出关于属性“头疼＋肌肉痛＋体温”的规则：
论域中相互间不可分辨的对象组成的集合。是组成知识的颗粒（granule）。知识是有粒度的. 粒度越小, 能精确表达的概念越多. 粒度的形式表示:不可分辨关系/等价类. 粒度是知识的最小单位。
返回
基本概念（3）不可分辨关系与基本集
不可分辨关系IND(P)/等价关系：分类过程中，相差不大
的个体被归于同一类，他们的关系就是不可区分关系。
ห้องสมุดไป่ตู้
Outline：
粗糙集理论的基本概念粗糙集理论的应用（规则挖掘和属性约简）其他
基本概念
1 信息系统，决策表 2 知识 3 等价关系，不可分辨关系与基本集 4 下、上近似
正区域，负区域，边界域 5 粗糙度 6 粗糙隶属函数
基本概念（1）信息系统
信息系统是四元组(U,Q,V,f). 其中 U是对象集合 Q是属性集合（包括条件属性C和决策属性 D)， V是属性的值域 f是一种映射，反应对象集合之间的值
以“肌肉痛＋体温”为例：
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3,p6},{p4}}
RULE1：IF （肌肉痛＝是)and(体温＝高） THEN 患有流感 RULE2：IF （肌肉痛＝是)and(体温＝很高） THEN 患有流感 RULE3：IF （肌肉痛＝是)and(体温＝正常） THEN 没患流感 RULE4：IF （肌肉痛＝否)and(体温＝高） THEN 可能
粗糙集理论的历史
20世纪70 年代, 波兰数学家Z. Pawlak 和一些波兰科学院,波兰华沙大学的逻辑学家们,一起从事关于信息系统逻辑特性的研究. 1982. Z.Pawlak发表论文“Rough Set”.宣告 RS的诞生 1991. Z.Pawlak出版著作“Rough Sets: Theoretical Aspects of Reasoning about Data ” 1992. 召开首次国际研讨会,应用专集. 之后得到飞速发展, 在数据挖掘, 模式识别, 粗糙逻辑等方面取得较大进展.
X1
红
圆形
小
X2
蓝
方形
大
X3
红
三角形
小
X4
蓝
三角形
小
X5
黄
圆形
小
X6
黄
方形
小
X7
红
三角形
大
X8
黄
三角形
大
取不同的属性组合,可得不同的等价关系（粒度)为： IND（R1）＝{{x1,x3,x7}, {x2,x4}, {x5,x6,x8}} IND（R1,R2）＝{{x1}, {x2}, {x3,x7}, {x4}, {x5}, {x6}, {x8}}
粗糙集理论：能处理具有不精确性和不确定性的知
识
等各种理论和方法
模糊集和基于概率方法，有时需要一些数据的附加信息或先验知识, 如模糊隶属函数,基本概率指派函数和有关统计概率分布等, 而这些信息有时并不容易得到
粗糙集无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的
（表4－3）
病头肌肉体流例疼疼温感
P1 否是高是
P2 是否高是
P3 是
是
很高
是
Step1. 寻找不可分辨关系： “头疼”：{p2,p3,p5},{p1,p4,p6} “肌肉痛”：{p1,p3,p4,p6},{p2,p5} “体温”：{p1,p2,p5},{p3,p6},{p4} “头疼＋肌肉痛”：
粗糙集理论的基本观点
粗糙集理论是建立在分类机制的基础上的，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分，每一被划分的集合称为概念。
粗糙集理论的主要思想是利用已知的知识库，将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。

C
(
D)

|
POS C |U
( |
D)
|
POSc(D)是属性集C在U/IND(D)中的正区域。 example
例4. 属性依赖度的计算令C＝{A1,A2}, D={A5}
U A1 A2 A3 A4 A5 依据属性A1、A2，可得到
100100
U/IND（D）：
210211
{{1,8},{2,6},{3},{4},{5,7}}
基本概念（4）集合的上近似、下近似和边界区
一个对象a是否属于集合X根据现有知识来判断，可分为三种情况：

e商务文档

粗糙集理论介绍

相关文档推荐：