当前位置：文档之家› 粗糙集

粗糙集

分辨矩阵与分辨函数

由于应用之前粗糙集理论对知识系统进行约简计算量过于巨大，所以我们引入分辨矩阵与分辨函数来对知识系统进行约简
设S=(U,R,V,f)为一信息系统，R=C∪D是属性集合，自己C={ai|i=1,2,...,m} 和D={d}分别为条件属性集合决策属性集，U={x1,x2,...,xn}为论域，ak(xj) 是样本xj在属性ak上的取值。定义系统的分辨矩阵为M(S)=[mi的扩展模型

用属性相似关系代替等价关系
定义Sa(vi,vj)=1-|vi-vj|/|amax-amin|称为属性相似度，指定a的相似阈值为t(a), 当Sa(vi,vj)≥t(a)时认为vi,vj在属性a上相似。

可变精度粗糙模型
定义
1 Card ( X Y ) / Card ( X ) Card ( X ) 0 C( X , Y ) 0 Card ( X ) 0
属性值的离散化

用粗糙集进行数据处理具有无需先验知识，可从数据中获取知识生成决策规则的优点，然而由于其对应的数据应该是分散的，所以应用粗糙集处理连续型数据需要先进行离散化处理，而数据处理的结果也会对运用粗糙集处理数据的结果的精度产生影响。下面介绍几种离散化算法。
（1）等距离划分法：在每个属性上，根据用户给定的参数来把属性值简单的划分为距离相等的断点段，不考虑每个断点段中属性值个数的多少。假设某个属性的最大数属性值为xmax，最小属性值为xmin，用户给定的参数为k，则断点间隔为δ=（xmax-xmin）/k,为此得到此属性上的断点为xmin+iδ,i=0,1,...,k。这些断点间距离相等。
f M ( S ) {mij ,1 i, j n, mij }
U/R a b c d
1 0 0 0 0
2 0 2 1 1
3 0 1 0 0
4 1 2 1 2
5 1 0 0 1
6 1 2 1 2
U/R={{1},{2},{3},{4,6},{5}} U/a={{1,2,3},{4,5,6}} U/b={{1,5},{2,4,6},{3}} U/c={{1,3,5},{2,4,6}} U/a={{1,3},{2,5},{4,6}}

R=C∪D为属性集，其中C为条件属性集，D为决策属性集
Vc Vd V为属性值，V c C d D
f：f(x,r)→v
可分辨关系

在信息系统里面，我们只能通过已知的属性集判断两个物体是否可分辨，比如若只有颜色一个属性，则我们认为所有黑色的东西之间是不可分辨的，我们将论域U按属性R进行划分，使得任何一个集合中的两个元素不可分辨，任何不同两个集合中的元素可分辨，记这样的划分为Ind(R)
1 1
2
3
4
5
6
2
3 4 5 6
b,c,d
b a,b,c,d a,d a,b,c,d b,c,d a,d a,b,c a,d a,b,c,d a,b,d a,b,c,d b,c,d b,c,d
它的分辨函数fM(S) =(b∨c∨d)∧(b)∧(a∨b∨c∨d)∧(a∨d)∧(a∨b∨c∨d) ∧(b∨c∨d)∧(a∨d)∧(a∨b∨c)∧(a∨d)∧(a∨b∨c∨d) ∧(a∨b∨d)∧(a∨b∨c∨d)∧(b∨c∨d)∧(b∨c∨d) =b∧(a∨d) =ab∨bd b为R的核，{a,b}和{b,d}是R的两个约简。
（2）Naive Scaler算法：对于每一个属性a进行如下过程: 第一步：根据a(x)的值，从小到大排列实例x。第二步：从上到下扫描，设xi和xj代表相邻实例：如果 a(xi)=a(xj),则继续扫描；如果d(xi)=d(xj)，即决策相同，则继续扫描，否则，得到一个新断点C,C=(a(xi)=a(xj))/2。
C（X,Y）是将X归类于Y的错误分类率。对于给定的错误分类率β X Y ，当且仅当C(X,Y)≤β。通过错误分类率这个概念我们（0≤β<0.5）定义重新定义X的上下近似集
R X X i (C( X i , X ) , i 1,2,...,k ) R X X i (C( X i , X ) 1 , i 1,2,...,k )
总结

粗糙集在对数据进行处理的过程相比较其他的方法，能够自然地对数据的重要性进行评价，并产生一个客观的判断系统。然而是否能有效运用粗糙集仍很大程度上取决于对初始数据的处理。同时粗糙集对于海量数据的处理上仍存在不足，本身的大量运算加上没有成熟的算法使得我们离运用粗糙集解决实际问题还有很大的距离。在使用的过程中需要与其他方法结合来更好地处理问题。
则r称为P中Q可省的。若P中无Q可省元素，则称P是相对于Q独立的。当P-{r}相对于Q独立，则P-{r}为P的Q相对约简。P的所有Q约简的交集成为P的Q的核。同样有
CoreQ (P) Re dQ (P)
一个用来帮助理解的例子
U={1，2，3，4，5，6，7，8},R={R1，R2，R3} U/R1={{1，2，3，4},{5，6，7，8}} U/R2={{1，2，4，7},{2，6},{5，8}} U/R3={{1，5，8},{2，3，4},{6，7}} U/Q={{1，2，3},{2，5，6},{7，8}} U/R={{1},{2},{3},{4},{5},{6},{7},{8}} U/(R1,R2)={{1,2},{3},{4},{5,8},{6},{7}} U/(R1,R3)={{1},{2,3,4},{5,8},{6,7}} U/(R2,R3)={{1},{2},{3},{4},{5},{6},{7},{8}}
粗糙度

对于样本子集 X ，我们需要弄清楚它究竟是什么样的，即里面的元素究竟有什么属性。而由于知识R受限，当X的边界域不为空时，我们并不能完整地通过 Ind(R)描述 X ，此时就需要通过粗糙度度量R对X描述的精确程度。
R (X )
Card ( R ( X )) Card ( R ( X ))
（2）等频率划分算法：根据用户给定的参数k把m个对象分成段，每段中有m/k个对象。假设某个属性的最大属性值为xmax，最小属性值为xmin，用户给定的参数为k，则需要将这个属性在所有实例上的取值从小到大进行排列，然后平均划分为k段，即得到断点集。每两个相邻断点之间所包含属性值的个数是相等的。
粗糙集
主讲人：彭俊沛
粗糙集讲的是什么？

对于给定范围的对象（论域U）和已知的知识（条件属性C及属性值V）来进行分类，并以此进行判断（决策属性）
样本苹果香菜
是否是水果是否
是否可食用是是
信息系统

信息系统S={U,R,V,f}
U={x1，x2,x3...}被称为论域，是我们所研究的全体样本的集合
U 1
R C
X /
升学与成绩的关系
U / R {{1,6},{2},{3,5},{4}}
U / X {{2,3,5,6},{1,4}} {X1 , X 2 }
2
3 4 5 6
B
A D A C
+
+ / + +
Pos( X 1 ) {2,3,5}
Bnd( X 1 ) {1,6}
Neg( X1 ) Pos( X 2 ) {4}
V {水果，蔬菜 } {红，绿，黄 }
上近似和下近似
R ( X ) {x U , [ x]R X } R ( X ) {x U ,[ x]R X }
正域： Pos( X ) R ( X ) 边界：Bnd( X ) R ( X ) R ( X ) 负域：Neg( X ) U R ( X )
ak C , ak ( xi ) ak ( x j ) D( xi ) D( x j ) mi , j i, j 1,2,3,...,n , D( xi ) D( x j )
对于每一个分辨矩阵M(S)对应唯一的分辨函数fM(S)，它实际上是一个布尔函数其定义为：信息系统S的分辨函数是一个具有M元变量的布尔函数，它是（∨mij）的和取，而（∨mij）是矩阵项中的各元素的析取，即
相对约简
在研究问题或作出决定的过程中，我们往往只需要考虑与我们所关系的目标所相关的“知识”，所以我们引入相对约简的概念。对论域U上的两个等价关系P,Q,定义Q的P正域为：
PosP (Q) P ( X )( X U / Q)
rP 若设P和Q为论域U上的等价关系，
PosP (Ind(Q)) Pos( P{r}) ( Ind(Q))
易知粗糙度是个介于0跟1之间的量，当粗糙度小于1时，我们称集合X相对于R是粗糙的，而粗糙度也可以认为是在等价关系R下逼近集合X的精度。
知识的约简
如果对属性R及 r R 有 Ind( R) Ind( R {r})
则属性r对描述体域U是多余的，此时我们称r在等价关系R中是可省的。如果R中不存在可省略属性，则称R是独立的。若 Q P ，Q独立，且Ind(Q)=Ind(P)则称Q是P的一个约简.P的约简记为Red(P).而P中所有不可省关系的集合称为P的核，由定义我们有 Core( P) Re d ( P)

e商务文档

粗糙集

相关文档推荐：