一、立论依据(包括项目的研究意义和必要性、国内外研究现状和发展趋势分析,并附主要参考文献及出处。
)知识发现(Knowledge Discovery,KD)[1,2,3,4]是介于统计学、人工智能、数据库理论与技术等领域的一个非常活跃的交叉、新兴研究与应用领域,在金融、电信和市场销售等行业具有很好的应用前景,将成为未来几年内对工业产生深远影响的关键技术之一。
随着信息化的不断深入,商业数据库正在以一个空前的速度增长,积累的数据呈现出高维、海量、异构[5]和分布[6,7,8]等新特征。
因此,实际应用要求数据挖掘系统具有更好的针对性和适应性:如在挖掘得到的知识规模过大的情况下能对结果进行有效剪枝;当数据源中数据有噪音或丢失的情况下,仍能得到可接受的挖掘结果等。
传统的数据挖掘理论、方法与模型难以满足新的应用需求,数据挖掘面临着新的挑战[9,10]。
统计学是收集、分析、表述和解释数据的科学;它通过对反映客观现实的有关数据的分析,用统计数字来描述客观对象的现存状况以及各种内部关系、外部联系、发展变化趋势等,为人们提供确切的、定量化的认识,作为判断与决策的依据。
在数据挖掘作为研究课题正式提出之前,统计分析技术一直是人们进行数据处理的主要手段。
但是随着社会信息化水平的不断提高,面对大规模的数据、总体漂移等问题的出现,传统的统计分析方法在有些方面显得力不从心。
由于学科相隔、交流不够导致涉及知识发现研究领域的人员主要是计算机及相关学科,其它专业的研究者相对较少;另一方面,统计学的发展没有和信息技术紧密结合,统计学在充分利用数学工具来完善理论的过程中,没有实时地关注信息领域对数据分析工具要求的变化,致使最新的统计方法由于缺乏相应的算法实现,从而在信息领域没有得到充分的施展。
因此,国内外有些研究者考虑将具备较完善的理论基础和很强的数学背景的统计方法与其它数据挖掘技术结合加以灵活运用[11,12],以更好地解释数据:如1997年美国统计学会ASA和美国人工智能学会AAAI共同举办了第三届DM&KDD国际会议(KDD’97);中国人民大学统计学系数据挖掘中心的研究人员也积极开展了统计学和数据挖掘相结合方面的研究。
所以如何有效地结合统计技术和其它数据挖掘技术推动知识发现研究的快速发展引起了国内外研究者的普遍关注。
有效地描述数据、知识及其关系,并对知识进行合理评价的方法、手段是实现知识发现的基础[13,14,15]。
在这一领域的研究中,统计分析方法的引入具有重要的意义,如:利用统计相关性分析可在挖掘过程中对模式进行剪枝、对所发现知识的质量进行评价度量;由Pawlak于1982年提出的具有严格数学性质的粗集理论(Rough Sets)是一种研究不确定知识和数据的理论方法,该方法可以用于发现不确定数据或噪声数据间的内在联系;将粗糙集与贝叶斯网络模型(Bayesian Network)用于知识的表示与提取方面,相比其它许多仅能表示有限种知识的模型,有很大的优势[16,17];其它还有如多元统计分析方法(Multivariable Analysis)等,每一种方法具有各自的特点和应用范围。
本课题将统计分析理论、方法与信息领域对数据分析工具的需求有机地结合起来,一方面为统计学理论研究的发展提供了新的动力,为统计分析方法应用于实际提供了更多的表现形式。
另一方面,统计分析方法应用于知识发现过程,使得数据、知识有了更多的形式化表示工具;选择、设计恰当的应用于知识发现过程的统计分析工具、模型可以解决面向大规模数据库的知识发现过程中遇到的数据溢出、数据不完整等问题。
因此,将具有成熟理论基础的统计分析方法和其它数据挖掘技术相结合,可以提高知识发现过程的效率、改善所发现知识的质量,更好地为应用决策提供准确、有效的信息和知识。
本课题的研究具有重要的理论意义和现实意义。
参考文献:[1] Dallas EJohnson.Applied Multivariate Methods for Data Analysts[M]. Duxbury Press,2005[2] 丁军,高学东.粗糙集理论在个性化需求挖掘中的应用[J].信息技术与信息化,2007,2:56-58,68[3] 李延来,蒲云,姚建明.MC下基于粗糙集的个性化需求挖掘模型[J].统计与决策,2006,10(期):19-22[4] JiaWei Han, Micheline, Kamber. Data Mining - concepts and techniques [M]. San Francisco,CA: High Education Press, Morgan Kaufman Publishers,2001.[5] W.J.Frawley,G.Piatetsky,C.Shapiro et al. Knowledge Discovery in Databases: An Overview[A]. In Piatetsky-Shapiro, W.J.Frawley eds. Knowledge Discovery in Databases[C]. Menlo Park, California: AAAI Press/The MIT Press,1991:1-27.[6] U.Fayyad, G.Piatetsky-Shapim, R.Smyth. From Data Mining to Knowledge Discovery: An Overview[A]. In: U.Fayyad ed. Advances in Knowledge Discovery and Data Mining[C]. Menlo Park, California:AAAI Press, 1996:1-34.[7] R.Uthorosamy. From Data mining to Knowledge Discovery: Current Challenges and Future Directions[a]. In: U.Fayyad ed. Advances inKnowledge Discovery and Data Mining[C]. Menlo Park, California:AAAI Press, 1996:561-569.[8] 叶飞跃,王建东,庄毅.基于超结构的分布式系统的关联规则挖掘算法[J].小型微型计算机系统,2004,25(12):2143-2147.[9] Vincent Dho, Beat Wuthrich. Distributed Mining of Classification Rules[J]. Knowledge and information,2002,4:1-30.[10] S.Stolfo, Jam. Java Agent for Meta-learning over Distributed Databases[A]. In Proceedings 3rd Int Conf on Knowledge Discovery and Data Mining[C]. Menlo Park, CA:AAAI Press,1997:74-81.[11] 吉根林,杨明,赵斌等.基于DDMINER分布式数据库系统中频繁项目集的更新[J].计算机学报,2003,26(10):1387-1392.[12] R.Agrawal, R.Srikant. Privacy-Preserving Data Mining[A]. In Proceedings of the 2000 ACM SIGMOD Conference on Management of Data[C]. Dallas:ACM, May 2000:439-450.[13] C.Clifton, M.Kantarcioglu, J.Vaidya. Defining Privacy for Data Mining. H.Kargupta, A.Joshi, K.Sivakumar eds. National Science Foundation Workshop on Next Generation Data Mining[R]. Baltimore, MD, Nov.2002:126-133.[14] J.Arguello, S.Chakravarthy. Extensions to Decision Tree Algorithm for Classification and Data Mining in Large Databases[A]. In the Proceedings of XIII Simposio Brasiliero de Banco De Dados,Oct.1998:69-84.[15] M.Z.Ashrafi, D.Taniar, K.Smith. ODAM: An Optimized Distributed Association Rule Mining Algorithm[J]. IEEE Distributed Systems Online, 2004,5(3):1-18.[16] R.Wille. Restructuring Lattice Theory: An Approach Based on Hierarchies of Concepts[A]. In: Rival I(Eds.).Dordrecht:Reidel,1982:445-470.[17]谢志鹏,刘宗田.概念格与关联规则发现[J].计算机研究与发展,2000,37(12):1415-21.[18] Young Park.Software retrieval by samples using concept analysis[J].The Journal of Systems and Software,2000,54:179-183. [19] 汪丁丁.互补性、概念格、塔尔斯基不动点定理[J].经济研究,2001,11:84-95.[20] 陈世权,程里春.模糊概念格.模糊系统与数学[J].2002,16(4):12-18.二、研究方案1、总体思路、研究目标、研究内容和拟解决的关键问题:课题申请人及课题组成员近年来一直从事于知识发现、统计分析等相关领域的研究,具备了相关方向的工作积累;对本课题进行预研之后,形成了明确的研究思路和方法:拟采取理论创新与实验及实践验证相结合的研究思路,力争在理论上有创新、在验证方面有实验和实践应用保障。
具体的研究目标如下:本课题将首先对不同的统计相关分析方法理论、粗糙集理论、贝叶斯模型理论等进行定性分析研究,建立与特定类型知识发现任务之间的内在联系;在此基础,结合已有研究进展,建立关联规则兴趣度度量模型,粗糙集和贝叶斯网络扩展模型,并进一步用实验定量验证模型在提高知识发现效率与知识质量方面的有效性。