当前位置:文档之家› 粗糙集理论及其应用综述

粗糙集理论及其应用综述

控制理论与应用CONTROL THEORY & APPLICATIONS1999年 第16卷 第2期 Vol.16 No.2 1999粗糙集理论及其应用综述*韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制A Survey on Rough Set Theory and Its ApplicationHan Zhenxiang, Zhang Qi and Wen Fushuan(Department of Electrical Engineering,Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注.2 粗糙集理论的基本概念(Basic concepts of rough set theory)2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定我们具有关于论域的某种知识,并使用属性(attribute)及其值(value)来描述论域中的对象.例如:空间物体集合U具有“颜色”、“形状”这两种属性,“颜色”的属性值取为红、黄、绿,“形状”的属性值取为方、圆、三角形.从离散数学的观点看,“颜色”、“形状”构成了U上的一族等效关系(equivalent relation).U中的物体,按照“颜色”这一等效关系,可以划分为“红色的物体”、“黄色的物体”、“绿色的物体”等集合;按照“形状”这一等效关系,可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合;按照“颜色+形状”这一合成等效关系,又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”…等集合.如果两个物体同属于“红色的圆物体”这一集合,它们之间是不可分辨关系(indiscernibility relation),因为描述它们的属性都是“红”和“圆”.不可分辨关系的概念是RS理论的基石,它揭示出论域知识的颗粒状结构.2.2 粗糙集合的下逼近、上逼近、边界区和粗糙隶属函数(Lower and upper approximation of rough set,boundary region and rough membership function) 给定一个有限的非空集合U称为论域,R为U上的一族等效关系.R将U划分为互不相交的基本等效类,二元对K=(U,R)构成一个近似空间(approximation space).设X为U 的一个子集,a为U中的一个对象,[a]R表示所有与a不可分辨的对象所组成的集合,即由a决定的等效类.当集合X能表示成基本等效类组成的并集时,则称集合X是可以精确定义的;否则,集合X只能通过逼近的方式来刻划.集合X关于R的下逼近(lower approximation)定义为:R*(X)实际上是由那些根据已有知识判断肯定属于X的对象所组成的最大的集合,也称为X的正区(positive region),记作POS(X).由根据已有知识判断肯定不属于X的对象组成的集合称为X的负区(negative region).记作NEG(X). 集合X关于R的上逼近(upper approximation)定义为R*(X)是由所有与X相交非空的等效类[a]R的并集,是那些可能属于X的对象组成的最小集合.显然,R*(X)+NEG(X)=论域U.集合X的边界区(boundary region)定义为:BN(X)为集合X的上逼近与下逼近之差.如果BN(X)是空集,则称X关于R是清晰的(crisp);反之如果BN(X)不是空集,则称集合X为关于R的粗糙集(rough set).图1为粗糙集概念的示意图.下逼近、上逼近及边界区等概念刻划了一个不能精确定义的集合的逼近特性.逼近精度定义为式中|R*(X)|表示集合R*(X)的基数或势(cardinality),对有限集合来说表示集合中所包含元素的个数.显然,0≤αR(X)≤1,如果αR(X)=1,则称集合X相对于R是清晰的;αR(X)<1,则称集合X相对于R是粗糙的.αR(X)可认为是在等效关系R下逼近集合X的精度.图1 粗糙集概念示意图Fig.1 Sketch map for concepts of rough setRS理论中定义了粗糙隶属函数(rough membership function).通过使用不可分辨关系,定义元素a对集合X的粗糙隶属函数如下显然0≤μR X≤1,粗糙隶属函数也可以用来定义集合X的上、下逼近和边界区. 现举例说明粗糙集的概念.论域U及等效关系R={R1,R2}采用如下定义: U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10}, U/R1={{x1,x2,x3,x4},{x5,x6,x7,x8,x9,x10}}, U/R2={{x1,x2,x3},{x4,x5,x6,x7},{x8,x9,x10}}, U/R={{x2,x3},{x4},{x5,x6,x7},{x8,x9,x10}}.则关于集合X={x1,x2,x3,x4,x5}的逼近为POS(X)={x4},NEG(X)={x8,x9,x10},BN(X)={x1,x2,x3,x5,x6,x7}.{x4}是集合X的正区,因为x4肯定属于X;{x8,x9,x10}肯定不属于X,因此为X的负区;{x1, x2,x3,x5,x6,x7}是否属于X在等效关系R下无法确定,构成了X的边界区.2.3 决策表、约简与核(Decision table,reduct and core) RS理论中应用决策表来描述论域中对象.它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性.属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类.表1为一张决策表,论域U有5个对象,编号1~5,{a,b,c}是条件属性集,d为决策属性.对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果.约简(reduct)定义为不含多余属性并保证分类正确的最小条件属性集.一个决策表可能同时存在几个约简,这些约简的交集定义为决策表的核(core),核中的属性是影响分类的重要属性.表1化简后得到了两个约简:{a,c}和{b,c},见表2和表3.它们维持了与原有条件属性集{a,b,c}相同的分类能力.{c}是核,表明c是影响分类的重要属性.表1 决策表Table1 Decision tableU a b c d1102122102321234122151203表2 约简{a,c}Table2 Reduct{a,c}U a c d1121220232235103表3 约简{b,c}Table3 Reduct{b,c}U b c d10*12102312342215203 从另一个角度看,决策表中每一个对象都蕴含着一条分类规则,决策表实际上也是一组逻辑规则的集合.例如表1中的对象1蕴含的规则是a1b0c2d1.化简决策表的过程也就是抽取分类规则的过程.表2中对象4在去掉属性b后与对象1蕴含相同的分类规则,为避免重复而被除去.约简中的规则还可进一步化简,删除那些与分类无关的次要属性.表3第一行中的“*”表示属性c的取值不重要,即只要b=0,d一定为1(b0d1). “约简”和“核”这两个概念很重要,是RS方法的精华.RS理论提供了搜索约简和核的方法.计算约简的复杂性随着决策表的增大呈指数增长,是一个典型的NP完全问题,当然实际中没有必要求出所有的约简.引入启发式的搜索方法如遗传算法[10]有助于找到较优的约简,即所含条件属性最少的约简.3 粗糙集理论的特点(Features of rough set theory) 1)RS不需要先验知识.模糊集和概率统计方法是处理不确定信息的常用方法,但这些方法需要一些数据的附加信息或先验知识,如模糊隶属函数和概率分布等,这些信息有时并不容易得到.RS分析方法仅利用数据本身提供的信息,无须任何先验知识. 2)RS是一个强大的数据分析工具.它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达;能识别并评估数据之间的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则知识,特别适于智能控制. 3)RS与模糊集分别刻划了不完备信息的两个方面[5]:RS以不可分辨关系为基础,侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合本身的含混性(vagueness).从RS的观点看,粗糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合逼近.有关RS和模糊集内在联系的阐述及模糊粗糙集(fuzzy-rough set)的概念,请参见文[6~8].RS和证据理论也有一些相互交叠之处[9],在实际应用中可以相互补充.4 粗糙集理论的应用(Applications of rough set theory) RS理论的生命力在于它具有较强的实用性,从诞生到现在虽然只有十几年的时间,但已经在许多领域取得了令人鼓舞的成果. 1)股票数据分析.文[11]应用RS方法分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可. 2)模式识别.文[12]应用RS方法研究了手写字符识别问题,提取出了特征属性. 3)地震预报.文[13]研究了地震前的地质和气象数据与里氏地震级别的依赖关系. 4)冲突分析.文[14]应用RS方法建立了反映以色列、巴勒斯坦、约旦、埃及、叙利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型. 5)从数据库中知识发现(knowledge discovery in database,KDD)[15,16].KDD又称数据发掘(data mining),是当前人工智能和数据库技术交叉学科的研究热点之一.RS方法现已成为KDD的一种重要方法,其导出的知识精练且更便于存储和使用. 6)粗糙控制(rough control)[17~23].RS根据观测数据获得控制策略的方法被称为从范例中学习(learning from examples),属于智能控制的范畴.基本步骤是:把控制过程中的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来,形成决策表,然后对其分析化简,总结出控制规则[17,18].形式为:IF Condition=N满足THEN 采取Decision=M.RS方法是一类符号化分析方法,需要将连续的控制变量离散化,为此Pawlak Z提出了粗糙函数(rough function)的概念[19],为粗糙控制打下了理论基础.文[20,21]应用粗糙控制研究了“小车—倒立摆系统”这一经典控制问题,取得了较好的结果.在过程控制领域,文[22]应用RS方法成功地提取出了水泥窑炉的控制规则.粗糙控制的优点是简单迅速、实现容易,不需要象Fuzzy控制那样进行模糊化和去模糊化.因此在特别要求控制器结构与算法简单的场合,采取粗糙控制较为合适.另外,由于控制算法完全来自观测数据本身,其决策和推理过程可以很容易被检验和证实.一种新的有吸引力的控制策略“模糊-粗糙控制(fuzzy-rough control)”正悄然兴起,其主要思路是利用RS获取模糊控制规则. 7)医疗诊断.RS方法根据以往的病例归纳出诊断规则,用来指导新的病例.现有的人工预测早产的准确率只有17%~38%,应用粗糙集理论则可提高到68%~90%[1]. 8)专家系统(ES).RS抽取规则的特点,为构造ES知识库提供了一条崭新的途径[24]. 9)人工神经元网络(ANN).训练时间过于漫长的固有缺点是制约ANN实用化的因素之一.文[25]应用RS化简神经网络训练样本数据集,在保留重要信息的前提下消除了多余的数据,使训练速度提高了4.77倍,获得了较好的效果.文[26,27]将RS与ANN结合起来,充分利用RS处理不确定性的特长以增强ANN的信息处理能力. 10)决策分析[28~30].RS的决策规则是在分析以往经验数据的基础上得到的.RS允许决策对象中存在一些不太明确、不太完整的属性,弥补了常规决策方法的不足.希腊工业发展银行ETEVA应用RS理论协助制订信贷政策,是RS多准测决策方法的一个成功范例. RS理论的应用领域还包括:近似推理[31,32]、软件工程数据分析[33]、图象处理[34]、材料科学中的晶体结构分析[35]、预测建模[36,37]、结构建模[38]、投票分析[39]、电力系统[40,42]等.RS在我国的研究刚刚起步,有关文献还不多[43~44].5 结束语(Conclusion) 虽然RS至今只有十几年的发展历史,但取得的研究成果是令人瞩目的.它是一种较有前途的软计算方法,为处理不确定性信息提供了有力的分析手段[45].我们相信RS具有广阔的发展空间,今后会在更多的实际领域中发挥作用. 致谢 波兰华沙工业大学计算机科学研究所(Institute of Computer Science,Warsaw University of Technology)的Zdzislaw Pawlak教授和Bozena Skalska博士赠送了部分研究报告,在此向他们表示感谢.*国家自然科学基金资助项目(59777011).本文作者简介: 韩祯祥 1930年生.浙江大学教授,博士生导师.研究领域为软计算方法及其在电力系统中的应用. 张 琦 1971年生.浙江大学在读博士生.研究方向为粗糙集理论在电力系统中的应用. 文福拴 1965年生.浙江大学教授,博士生导师.研究领域为软计算方法在电力系统中的应用.作者单位:浙江大学电机系.杭州,310027参考文献(References) 1 Pawlak Z et al. Rough munications of ACM,1995,38(11):89-95 2 Pawlak Z.Rough sets.International Journal of Information and Computer Science,1982, (11):341-356 3 Pawlak Z.Rough set-theoretical aspects of reasoning about data.Dordrecht:Kluwer Academic Publishers,1991 4 Slowinski R.Intelligent decision support-handbook of applications and advances of the rough sets theory.Dordrecht:Kluwer Academic Publishers,1992 5 Pawlak Z.Vagueness and uncertainty-a rough set putational Intelligence,1995,11(2):227-232 6 Wygralak M.Rough sets and fuzzy sets-some remarks on interrelations.Fuzzy Sets and Systems,1989,29(3):241-243 7 Nanda S et al.Fuzzy rough sets.Fuzzy Sets and Systems,1992,45(2):157-160 8 Banerjee M and Pal S K.Roughness of a fuzzy rmation Sciences,1996,93(3,4):235-246 9 Skowton A et al.From rough set theory to evidence theory.Advances in the Dempster Shafer Theory of Evidence.New York:John Wiley & Sons Inc.,1994,193-236 10 Jakub W.Finding minimal reducts using genetic algorithm.Institute of Computer Science Reports,Warsaw University of Technology,Warsaw,1995 11 Golan R and Ziarko W.Methodology for stock market analysis utilizing rough set theory. Proc.of IEEE/IAFE Conference on Computational Intelligence for Financial Engineering,New Jersey,1995,32-40 12 Nejman D. A rough set based method of handwritten numerals classification.Institutc of Computer Science Reports,Warsaw University of Technology,Warsaw,1994 13 Teghem J et al. Use of rough sets method to draw premonitory factors for earthquakes by emphasizing gas geochemistry.In:Intelligent Decision Support-Handbook of applications and Advances of the Rough Sets Theory.Dordrecht:Kluwer Academic Publishers,1992,165-179 14 Deja R.Conflict model with negotiations.In:Institute of Computer Science Reports. Warsaw University of Technlolgy,Warsaw,1995 15 Hu Xiaohua et al.Mining knowledge rules from databases-a rough set approach.Proc.of IEEE International Conference on Data Engineering,Los Alamitos,1996,96-105 16 Tsumoto Sh et al.Extraction of domain knowledge from databases based on rough set theory.IEEE International Conference on Fuzzy Systems,New Jersey,1996,748-754 17 Sienkiewicz J.Rough set and rough function approaches to the control algorithm reconstruction.Institute of Computer Science Reports,Warsaw University of Technology, Warsaw,1996 18 Mrozek A et al.Methodology of rough controller synthesis.Proc.of IEEE International Conference on Fuzzy Systems,New Jersey,1996,1135-1139 19 Pawlak Z.Rough sets,rough relations and rough functions.FundamentaInformaticae,1996,27(2,3):103-108 20 Plonka L and Mrozek A.Rule-based stabilization of the inverted pendulum. Computational Intelligence,1995,11(2):348-356 21 Czogala E et al.Idea of a rough fuzzy controller and its application to the stabilization of a pendulum-car system.Fuzzy Sets and systems,1995,72(1):61-73 22 Mrozek A.Rough sets and dependency analysis among attributes in computer implementations of expert's inference models.International Journal of Man-Machine Studies,1989,30(4):457-473 23 Arima M et al. Fuzzy logic and rough sets controller for HVAC systems.Proc.of IEEE WESCANEX Communications,Power,and Computing,New York,1995,133-138 24 Tsumoto S et al. Automated discovery of medical expert system rules from clinical databases based on rough sets.Proc.of Second International Conf.on Knowledge Discovery and Data Mining,USA,1996,63-72 25 Jelonek J et al. Rough set reduction of attributes and their domains for neural networks. Computational Intelligence,1995,11(2):339-347 26 Peng C et al.Multi-valued neural network and the knowledge acquisiti on method by the rough sets for ambiguous recognition problem.Proc.of the IEEE In ternational Conference on Systems,Man and Cybernetics,Beijing,1996,736-740 27 Yasdi bining rough sets learning and neural learning-method to deal with uncertain and imprecise information.Neurocomputing,1995,7(1):61-84 28 Slowinski R.Rough set approach to decision analysis.AI Expert,March 1995,19-25 29 Pawlak Z.Rough set approach to knowledge-based decision support.Institute of Computer Science Reports,Warsaw University of Technology,Warsaw,1995 30 Slowinski R et al.Rough set sorting of firms according to bankruptcy risk.In:Applying Multiple Criteria aid for Decision to Environment Management,Dordrecht:Kluwer Academic Publishers,1994,339-357 31 Slowinski R et al. Rough set reasoning about uncertain data.Fundamenta Informaticae,1996,27(2,3):229-243 32 Parsons S et al. A rough set approach to reasoning under uncertainty.Journal of Exprimental and Theoretical AI,1995,7(2):175-193 33 Ruhe G and Gesselschaft F.Rough set based data analysis in goal-oriented software measurement.Proc.of IEEE International software Metrics Symposium,Los Alamitos,1996,10-19 34 Wojcik Z et al.Application of rough sets for edge enhancing image filters.Proc.of IEEE International Conference on Image Processing,Los Alamitos,1994,525-529 35 Jackson A et al.Rough sets applied to materials data.Acta Materialia,1996,44(11):4475-4484 36 Collette T and Szladow e rough sets and spectral data for building predictive models of reaction rate constants. Applied Spectroscopy,1994,48(11):1379-1386 37 Aijun A et al. Discovering rules for water demand prediction-an enhanced rough set approach.Engineering Applications of Artificial Intelligence,1996,9(6):645-653 38 Wojcik Z et al.Structural modeling using rough sets.Proc.of IEEE International Conference on Fuzzy Systems,New Jersey,1996,761-766 39 Nurmi H et al. Probabilistic,fuzzy and rough concepts in social choice.European Journal of Operational Research,1996,95(2):264-277 40 Lambert-Torres G et al. Data Mining into a Control Center Database via Rough Set Techniques.Proc.of the International Conference on Intelligent Systems Applications to Power Systems (ISAP'97),Seoul,1997,246-250 41 Zhang Q,Han Z X and Wen F S.A new approach for fault diagnosis in power systems based on rough set theory.Proceedings of APSCOM'97,Hong Kong,1997,597-602 42 张琦,韩祯祥,文福拴.一种基于粗糙集方法的电力系统故障诊断/警报处理的新方法.中国电力,1998,31(4):32-38 43 王珏,苗夺谦,周育键.关于Rough Set理论与应用的综述.模式识别与人工智能,1996,9(4):337-344 44 曾黄麟.粗集理论及其应用.重庆:重庆大学出版社,1998 45 Ewa Orlowska(ed.).Incomplete information-rough set analysis.New York:Physica-Verlag,1998本文于1997年9月3日收到.1998年11月18日收到修改稿.。

相关主题