粗糙集
分辨矩阵与分辨函数
由于应用之前粗糙集理论对知识系统进行约简计算量过于巨大,所以 我们引入分辨矩阵与分辨函数来对知识系统进行约简
设S=(U,R,V,f)为一信息系统,R=C∪D是属性集合,自己C={ai|i=1,2,...,m} 和D={d}分别为条件属性集合决策属性集,U={x1,x2,...,xn}为论域,ak(xj) 是样本xj在属性ak上的取值。定义系统的分辨矩阵为M(S)=[mi的扩展模型
用属性相似关系代替等价关系
定义Sa(vi,vj)=1-|vi-vj|/|amax-amin|称为属性相似度,指定a的相似阈值为t(a), 当Sa(vi,vj)≥t(a)时认为vi,vj在属性a上相似。
可变精度粗糙模型
定义
1 Card ( X Y ) / Card ( X ) Card ( X ) 0 C( X , Y ) 0 Card ( X ) 0
属性值的离散化
用粗糙集进行数据处理具有无需先验知识,可从数据中获 取知识生成决策规则的优点,然而由于其对应的数据应该 是分散的,所以应用粗糙集处理连续型数据需要先进行离 散化处理,而数据处理的结果也会对运用粗糙集处理数据 的结果的精度产生影响。下面介绍几种离散化算法。
(1)等距离划分法:在每个属性上,根据用户给定的参数来把属性值 简单的划分为距离相等的断点段,不考虑每个断点段中属性值个数的多 少。假设某个属性的最大数属性值为xmax,最小属性值为xmin,用户给 定的参数为k,则断点间隔为δ=(xmax-xmin)/k,为此得到此属性上的断 点为xmin+iδ,i=0,1,...,k。这些断点间距离相等。
f M ( S ) {mij ,1 i, j n, mij }
U/R a b c d
1 0 0 0 0
2 0 2 1 1
3 0 1 0 0
4 1 2 1 2
5 1 0 0 1
6 1 2 1 2
U/R={{1},{2},{3},{4,6},{5}} U/a={{1,2,3},{4,5,6}} U/b={{1,5},{2,4,6},{3}} U/c={{1,3,5},{2,4,6}} U/a={{1,3},{2,5},{4,6}}
R=C∪D为属性集,其中C为条件属性集,D为决策属性集
Vc Vd V为属性值,V c C d D
f:f(x,r)→v
可分辨关系
在信息系统里面,我们只能通过已知的属性集判断两个物 体是否可分辨,比如若只有颜色一个属性,则我们认为所 有黑色的东西之间是不可分辨的,我们将论域U按属性R进 行划分,使得任何一个集合中的两个元素不可分辨,任何 不同两个集合中的元素可分辨,记这样的划分为Ind(R)
1 1
2
3
4
5
6
2
3 4 5 6
b,c,d
b a,b,c,d a,d a,b,c,d b,c,d a,d a,b,c a,d a,b,c,d a,b,d a,b,c,d b,c,d b,c,d
它的分辨函数fM(S) =(b∨c∨d)∧(b)∧(a∨b∨c∨d)∧(a∨d)∧(a∨b∨c∨d) ∧(b∨c∨d)∧(a∨d)∧(a∨b∨c)∧(a∨d)∧(a∨b∨c∨d) ∧(a∨b∨d)∧(a∨b∨c∨d)∧(b∨c∨d)∧(b∨c∨d) =b∧(a∨d) =ab∨bd b为R的核,{a,b}和{b,d}是R的两个约简。
(2)Naive Scaler算法:对于每一个属性a进行如下过程: 第一步:根据a(x)的值,从小到大排列实例x。 第二步:从上到下扫描,设xi和xj代表相邻实例:如果 a(xi)=a(xj),则继续扫描;如果d(xi)=d(xj),即决策相同,则继续扫描,否 则,得到一个新断点C,C=(a(xi)=a(xj))/2。
C(X,Y)是将X归类于Y的错误分类率。对于给定的错误分类率β X Y ,当且仅当C(X,Y)≤β。通过错误分类率这个概念我们 (0≤β<0.5)定义 重新定义X的上下近似集
R X X i (C( X i , X ) , i 1,2,...,k ) R X X i (C( X i , X ) 1 , i 1,2,...,k )
总结
粗糙集在对数据进行处理的过程相比较其他的方法,能够 自然地对数据的重要性进行评价,并产生一个客观的判断 系统。然而是否能有效运用粗糙集仍很大程度上取决于对 初始数据的处理。同时粗糙集对于海量数据的处理上仍存 在不足,本身的大量运算加上没有成熟的算法使得我们离 运用粗糙集解决实际问题还有很大的距离。在使用的过程 中需要与其他方法结合来更好地处理问题。
则r称为P中Q可省的。若P中无Q可省元素,则称P是相对于Q独 立的。当P-{r}相对于Q独立,则P-{r}为P的Q相对约简。P的 所有Q约简的交集成为P的Q的核。同样有
CoreQ (P) Re dQ (P)
一个用来帮助理解的例子
U={1,2,3,4,5,6,7,8},R={R1,R2,R3} U/R1={{1,2,3,4},{5,6,7,8}} U/R2={{1,2,4,7},{2,6},{5,8}} U/R3={{1,5,8},{2,3,4},{6,7}} U/Q={{1,2,3},{2,5,6},{7,8}} U/R={{1},{2},{3},{4},{5},{6},{7},{8}} U/(R1,R2)={{1,2},{3},{4},{5,8},{6},{7}} U/(R1,R3)={{1},{2,3,4},{5,8},{6,7}} U/(R2,R3)={{1},{2},{3},{4},{5},{6},{7},{8}}
粗糙度
对于样本子集 X ,我们需要弄清楚它究竟是什么样的,即 里面的元素究竟有什么属性。而由于知识R受限,当X的边 界域不为空时,我们并不能完整地通过 Ind(R)描述 X ,此 时就需要通过粗糙度度量R对X描述的精确程度。
R (X )
Card ( R ( X )) Card ( R ( X ))
(2)等频率划分算法:根据用户给定的参数k把m个对象分成段,每段 中有m/k个对象。假设某个属性的最大属性值为xmax,最小属性值为xmin, 用户给定的参数为k,则需要将这个属性在所有实例上的取值从小到大 进行排列,然后平均划分为k段,即得到断点集。每两个相邻断点之间 所包含属性值的个数是相等的。
粗糙集
主讲人:彭俊沛
粗糙集讲的是什么?
对于给定范围的对象(论域U)和已知的知识(条件属性C及属性值V) 来进行分类,并以此进行判断(决策属性)
样本 苹果 香菜
是否是水果 是 否
是否可食用 是 是
信息系统
信息系统S={U,R,V,f}
U={x1,x2,x3...}被称为论域,是我们所研究的全体样本的 集合
U 1
R C
X /
升学与成绩的关系
U / R {{1,6},{2},{3,5},{4}}
U / X {{2,3,5,6},{1,4}} {X1 , X 2 }
2
3 4 5 6
B
A D A C
+
+ / + +
Pos( X 1 ) {2,3,5}
Bnd( X 1 ) {1,6}
Neg( X1 ) Pos( X 2 ) {4}
V {水果,蔬菜 } {红,绿,黄 }
上近似和下近似
R ( X ) {x U , [ x]R X } R ( X ) {x U ,[ x]R X }
正域: Pos( X ) R ( X ) 边界:Bnd( X ) R ( X ) R ( X ) 负域:Neg( X ) U R ( X )
ak C , ak ( xi ) ak ( x j ) D( xi ) D( x j ) mi , j i, j 1,2,3,...,n , D( xi ) D( x j )
对于每一个分辨矩阵M(S)对应唯一的分辨函数fM(S),它实际上是一个布尔 函数其定义为:信息系统S的分辨函数是一个具有M元变量的布尔函数, 它是(∨mij)的和取,而(∨mij)是矩阵项中的各元素的析取,即
相对约简
在研究问题或作出决定的过程中,我们往往只需要考虑与我 们所关系的目标所相关的“知识”,所以我们引入相对约简 的概念。对论域U上的两个等价关系P,Q,定义Q的P正域为:
PosP (Q) P ( X )( X U / Q)
rP 若 设P和Q为论域U上的等价关系,
PosP (Ind(Q)) Pos( P{r}) ( Ind(Q))
易知粗糙度是个介于0跟1之间的量,当粗糙度小于1时, 我们称集合X相对于R是粗糙的,而粗糙度也可以认为是在 等价关系R下逼近集合X的精度。
知识的约简
如果对属性R及 r R 有 Ind( R) Ind( R {r})
则属性r对描述体域U是多余的,此时我们称r在等价关系R中 是可省的。如果R中不存在可省略属性,则称R是独立的。若 Q P ,Q独立,且Ind(Q)=Ind(P)则称Q是P的一个约简.P的 约简记为Red(P).而P中所有不可省关系的集合称为P的核, 由定义我们有 Core( P) Re d ( P)