面向领域的数据驱动的数据挖掘一个新的理解数据挖掘抽象:最近,在计算机、通讯、数据存储技术、高通量数据采集技术上的进步使得收集和存储令人难以置信的海量数据成为可能。
为从数据库中发现大量知识创造了前所未有的机遇。
数据挖掘是一种为处理大量的数据提供了新的理论,技术和工具的新兴领域的计算智能,例如:数据分析、决策等等。
有许多研究人员从事于设计有效的数据挖掘技术、方法和算法。
不幸的是,大多数的数据挖掘研究人员把重心放在了发展数据挖掘的模式和方法上,只有一小部分致力于数据挖掘的基本问题。
本文中我们会提出一个新的数据挖掘的理解,那就是面向领域的数据驱动的数据挖掘(3DM)模型。
数据驱动的数据挖掘算法在我们的实验室开发出来同时提出来以显示她的有效性。
1.介绍数据挖掘是被我们从巨大的数据集总获取知识的渴望刺激的产物。
它使用机器学习,统计和可视化技术去发现数据中的知识,并且以一种很容易为用户理解和使用的形式表现出来。
许多数据挖掘方法是基于机器学习算法、统计方法的扩展、组合和调整和知识的提取和抽象。
在过去的二十年里,许多技术被应用在数据挖掘中,例如人工神经网络,模糊集,粗糙集,决策树,遗传算法,最近邻方法,基于统计规则归纳法,线性回归,线性预测编码等等。
对于数据挖掘的研究有很多观点。
现有的大量研究可以被粗略的分为三种观点,不管在数据挖掘的研究中采取的哪种观点,大多数的数据挖掘人员对发展数据挖掘模式和方法的技术问题投入的大量的精力,只有少数的人关注数据挖掘的基本问题。
什么是数据挖掘?数据挖掘的产物是什么?我们这数据挖掘中在做什么?我们在数据挖掘中应该遵守的规则是什么?数据领域专家的先验知识和知识丰富的头脑直接的关系式什么?为了回答以上问题,我们需要研究数据挖掘的过程。
首先,大量相关的研究已经被证实,一个三层的概念框架被Yao提出,它包括哲学层,技术层和应用层。
这个框架的层代表了知识利用的理解,发现和区分。
Peng为数据挖掘和知识的发现领域提出了一个系统框架,它的目的就是区分数据挖掘领域和知识发现。
此外,国际上还举办了有关数据挖掘基础的研讨会。
遗憾的是,仍然没有被完全认可和没有争议的答案对于之前提到的问题。
在本文中,我们将会对基于概念上的数据挖掘模式提出一种新的理解。
我们的答案将会是“数据挖掘是知识转型的一个过程”。
我们工作中关于数据挖掘技术的最经的成果也会给以介绍以展示3DM模式的合理性。
2、面向领域的数据驱动的数据挖掘模式2.1 数据驱动的数据挖掘数据挖掘是对数据中隐含的之前未知的潜在的有用知识的非一般的提取。
知识可以以许多不同的方式表现出来,对于编码知识有很多种形式,最简单的格式或许是象征性的格式像公式、法则、定理等。
对于人们来说以这种格式来理解和应用是很简单的,这些格式经常被用在书籍、论文甚至专业系统中,书籍也是针对于编码知识的人造格式。
近期在计算机、通信,数字存储技术,以及高吞吐量的数据采集技术上的进步使得收集和存储令人难以置信的大量的数据成为可能。
在很多领域都有大量的数据产生,每天许多自然现象、法则甚至人类的经验都被记录在数据库中。
不幸的是人们无法读到、理解或者用到这些数据中包含的知识。
因此我们认为,在数据挖掘过程中,知识以一种人类无法理解的数据形式被转化成另外一种难以理解的抽象格式如规则、公式、定理等等。
在数据挖掘中不会有新的知识产生,也就是说,我们只是在不产生新知识的过程中把知识从一种形式转化为另外一种形式。
并且,在不同的系统中对于知识的转化有许多种渠道和方式。
Fig.l是知识转化过程中的一个插曲。
从Fig.l,人们可以看到数据挖掘只是一种知识转化过程对于从数据形式到抽象形式的知识转化。
因此,在数据挖掘过程没有新的知识产生。
基于数据挖掘的这种理解,我们可以得到Fig.2的基于数据挖掘的数据转化框架。
从Fig.2我们可以发现,知识可以被编辑成自然形式、数据形式、抽象形式和神经连接形式。
那就是说,数据可以存储在自然世界系统、数据系统、或者生物神经网络系统。
知识以任何一种形式表示都有有一些内涵,那就是P/s。
在不同形式中的知识应该有一些联系,为了保证在数据挖掘过程中知识不会被改变,知识的内涵应该在知识的转化过程中保持不变。
否则,在知识的转化过程中就会产生一些错误。
在数据挖掘过程中,数据形式的知识的内涵不能改变。
这个信息应该为数据挖掘的算法提供一些指导,他同样有助于我们在数据挖掘过程中保持数据形式的知识不会发生改变。
因此,为了保持知识在数据挖掘过程中不发生改变,我们需要了解一些数据形式的知识的内涵,并且在保持不变的同时用他去控制数据挖掘过程,这是数据驱动数据挖掘的关键点。
设计数据驱动数据挖掘算法的过程如下:步骤1:选择一种对于被学习的领域问题来说合适的典型的知识代表形式。
步骤2:选择一些知识的内涵可以以数据形式和典型形式衡量的。
步骤3:以数据形式和典型形式衡量知识的内涵。
步骤4:利用内容区控制数据挖掘过程并保持不变。
知识的内容可以以两种不同的系统来衡量,数据系统和抽象系统,这也许是一个问题。
以数据形式和抽象形式衡量的结果是可以比较的吗?如果不是,我们怎么知道在数据挖掘过程中他有没有改变呢?因此,需要提出一种可比对于选择的内容进行较衡量的方法。
也就是说,我们需要建立一些数据形式和抽象时间知识内容的联系。
22 用户驱动(域驱动)数据挖掘许多真实世界的数据挖掘任务,例如资本市场的数据挖掘,高度的约束前提和面向领域。
因此,它旨在可操作的知识发现,可以以负担的起的重要基础执行适当的行动。
在最近几年,一些针对于这类工作的域驱动或者说用户驱动数据挖掘方法已经得到发展。
张、曹、林为资本市场的金融数据挖掘提出了域驱动的深度模式发掘框架。
姚、赵也利用颗粒网络提出了交互式用户为导向的分类方法。
Kuntz、Guillet、Lehn和Briand为了发现关联规则开发出了以人为本的过程,用户被认为是一种引导通过适应良好的接口驱动挖掘算法。
Han和Lakshmanan把基于制约和多维挖掘融合到一个框架里,为有效和高效的数据分析与挖掘提供了一个互动的探索环境。
为了创造词汇知识的基础,Patrick,Palko,Munro和Zappavigna 提出了一个半自动的方法,采用训练从一个有丰富经验的用户去识别词典文本流中的结构元素。
Dorado,Pedrycz和Izquierdo利用一些问题分类领域的知识作为训练程序的一部分在语义的图像分类中。
用户驱动或者说域驱动,数据挖掘方法有一些共同的基础概念:1、一个用户驱动数据挖掘程序是基于约束的。
2、在一个用户驱动程序中用户的兴趣被考虑到。
3、在一个用户驱动程序中域专家之前的经验是必要的。
4、在一个用户驱动程序中用户和机器的交互是必要的。
2.3 有向域数据驱动数据挖掘数据驱动数据挖掘和用户驱动(或者域驱动)之间会冲突吗?它们可以融入到一个系统里吗?我们在这章讨论这些问题!在一个数据库管理系统中,不同的用户可以根据自己的视图操作整个数据库系统中不同的数据。
如果数据是以一种知识收集格式获取的,数据库也可以被当做一种知识基础收集。
因此,不同的用户可以找到并使用整个知识基础对不同任务的不同子集。
那就是说,通过他们的视图,一个用户可以以数据的形式利用知识的子集并且把他从数据形式变成另外一种需要的形式。
每一个用户都可以进行知识转变仍然以一种数据驱动方法。
在一域驱动数据挖掘过程中,用户的兴趣、约束和早期的领域知识都很重要。
用户和机器间的合作是必要的。
数据挖掘过程可能被用户控制。
由于这个原因,这种挖掘过程的知识资源包括数据和用户,不仅仅数据。
因此,早期的领域知识同样是数据挖掘过程的资源。
一个用户对数据挖掘过程的控制同样被当做一种数据挖掘过程的动态输入被采用。
这样,一个数据挖掘过程不仅仅从数据中也从人中采集知识。
数据不是知识的唯一资源,插图Fig.3就是这种想法。
从以上讨论,我们知道域驱动数据挖掘和数据驱动数据挖掘不冲突。
它们可以融入一个系统中,为了提高例如面向领域数据驱动数据挖掘过程仍然有很多工作要做,1.设计一种格式编译早期域知识。
2.设计一种格式为特殊的任务编译用户的兴趣和限制。
3.设计一种格式编译用户的控制。
4.设计一种数据驱动数据挖掘方法可以把数据早期域知识,用户的兴趣,用户的限制,用户的控制收集在一起当做它的输入。
这里,最初的数据,针对特殊任务的早期域知识,用户兴趣和限制可以被当做一个3DM系统的静态输入进行收集,增长数据和用户控制当做它的动态输入。
3 数据驱动数据挖掘方法基于知识的不确定行根据以上对3DM模式的讨论,数据挖掘是知识转化的过程和在这个过程中知识的属性应该保持不变。
因此,知识的属性可以为设计数据挖掘算法库提供一些指导。
知识的不确定性是知识的一种重要属性,wang测量并比较知识的不确定性分别以数据形式在决策表和象征性的方式在决策规则。
这证明了从决策表中的局部少量确定性可以表现出决策表的不确定性并且可以控制规则的产生进程。
为了证实3DM模式在此文提议的有效行,我们提出了一些数据驱动数据挖掘方法,例如,数据驱动的默认规则生成算法中,数据驱动决策树预剪枝运算法则和从概念格子框架数据驱动知识的获取。
在这些数据挖掘方法中,知识不确定性被当做一种知识特性使用来控制数据挖掘过程。
在数据驱动的默认规则生成算法中,根据一个决策表的条件属性集,决策表的条件等级并且要首先计算对决策表局部最小值的确定a(a 是对决策表局部最小值的确定)。
因此,a作为阈值使用Skowron的命题默认规则生成算法来生成一个规则系统。
使用22型UCI数据传输转换器,我们测试了数据驱动的默认规则生成算法。
实验结果表明,当从l到a的降低时随着门槛的降低,正确识别率迅速增加,然而,在门槛从a到0的进一步增长之后,正确识别率发生一些变化。
在本规则生成过程,从一个生成较少规则的数据集中,得到了较高的正确识别率。
根据一个决策树定义的不确定性,可以在数据驱动的决策树中学习算法基于知识的不确定性,全局确定性决策表与一个给定的条件属性作为分裂属性选择的度量,并控制其预剪枝过程决策树的生长。
如果一个条件类用于生成决策树节点的确定性不低于本树节点的决策表的全局确定性,我们应该停止进一步分裂这个节点并且为它生成一个叶子节点。
换句话说,如果一个用来生成决策树节点的条件类的确定性大于参考其分裂属性的决策表的父节点的完全确定性,这个节点可以被当做叶子节点采用。
用这种方法创建的决策树有很高的精确性但是树会很小。
使用14型UCI数据传输转换器,我们测试了基于知识的不确定性的数据驱动的决策树学习算法,它与预剪枝算法j-pruning和后剪枝方法减少错误修剪的比较。
实验结果证明这种算法有更高的测试准确性并且相对于算法j-pruning和REP产生了更小的树。