当前位置:文档之家› 浅析数据挖掘技术的发展及应用

浅析数据挖掘技术的发展及应用

科 信J息l科{学 浅析数据挖掘技术的发展及应用 赵芳 马玉磊 (1、新乡学院计算机与信息工程学院,河南新乡453000 2、新乡学院继续教育学院,河南新乡453000) 摘要:由于数据挖掘在各行业中的广泛应用,因而该技术引起了人们的普遍关注,介绍了数据挖掘的分类方法和目前采用较普遍的一些数据 挖掘方法.分析、总结了数据挖掘技术在商业、Web挖掘、科学研究等几个主要领域的应用情况,综合论述了数据挖掘未来的发展趋势。 关键词:数据挖掘;Web挖掘;应用;综述 1概述 随着信息技术的高速发展,数据库应用的规 模、范围和深度空前发展,人们迫切需要一种自动 地和智自幽 将待处理的数据转化为有用的信息和 知识的方法,从而达到为决策服务的目的。在这种 情况下,数据挖掘技术应运而生。数据挖掘是—个 从大量有噪声、不完整数据中提取出有意义模式知 识的过程。所提取、挖掘的数据对象可以是数据库 或数据仓库内容,也可以是其它数据源内容。数据 领域,这其中主要涉 及:数旧荤系统、数据仓库、统计学、机器学习、数据 可观化 检索和奇睦能}{算等。数据挖掘是一 ,这其中主要包 律发现系统BACON、经验公式发现系统 3.4统计分析方法 利用统计学原理对数据库中的数据进行分 析,能得到各种不同的统计信息和知识,它是一门 独立的学科,也作为数据挖掘的一大类方法,包括: 常用统计、相关分析、回归分析、差异分析、聚类分 析、判断分析。 3-5模糊数学方法 模糊性是客观存在的,当系统的复杂性越高, 其精度的复杂性越高,其精确化能力便越低,这就 意味着模糊性越强。利用模糊集合理论进行数据挖 掘的方法有:模糊模式识别、模糊聚类、模糊分类和 模糊关联规则等。 、数据 3_6可视化技术 挖掘、椁萌潮 锕 田【}{未S蝴出。 2数据挖掘的分类 数据挖掘可按数据库类型、挖掘对象、挖掘任 务、挖掘方法与技术以及应用等rI介方面进行分类 四。 数据挖掘最开始是从关系数据库中挖掘知识 发展起来的,随着数据库类型的不断增加,现有:关 系数据挖掘、模蝴数据挖掘、历史数据挖掘、空间数 挖掘的对象分,除了数据库数据挖掘外,还有文本 、Web数据挖掘。 按挖掘任务分类有:关联规则挖掘、序列模式 挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘 和预测数据挖掘等类型。各类数据挖掘任务不同, 采用的方法和技术也将会不同。 3数据挖掘方法 数据挖掘方法是由人工智能、机器学习的方 法发展而来,结合传统的统计分析法、模糊数学方 法以及科学计算可视化技术、以及数据库为研究对 象,形成数据挖掘的方法。 l归纳学习方法 归纳学习方法是目前重点研究的方向之一, 研究成男 多。从采用自饨 E看,分为两大类:信 息论方法和集合论方法。信息论方法是利用信息论 示形式是决策讨,所以—般文献中称它为决策树方 法 该类方法的实用效果好,影响较大。信息论方 法中较有特色的方法有以下几种:ID3等方法、I— BLE方法、集合论方法、概念树方法、粗糙集方法、 覆盖正例排斥反例方法。 3.2仿生物技术 仿生物技术典型的方法是神经网络方法和遗 传算:法。这两类 磁已经形吲 的到 琳系 它 巨大的作用,我们将它们 归并为仿生物技术类。 33公式发现 在工程和科学数据库中对若干数据项进行 算的相应的数学公式。常见的彳 物理定 可视化技术是—种图形显示技术。例如,把数 据库中多维数据变成多种图形,这对于揭示数据中 内在本质以及分布规律起到很强的作用。对数据挖 掘过程可视化,并进行人机交互可提高数据挖掘的 效果。可视化方法有以下几种:提取nl何图元、绘 制、显示和演放 。 4数据挖掘的应用 数据挖掘研究具有广泛的应用前景,因为数 据挖掘产生的知识可以用于决策支持、信息管理、 科学研究等许多领域。数据挖掘技术与各个行业的 有机结合体现了其蓬勃的生命力,而这种趋势正在 以前所未有的速度继续向前发展。 4.I在电信业中的应用 在激烈的电信市场竞争和迅速的业务扩张 中,可以利用数据挖掘技术的帮助来理解商业行 为、确定电信模式、捕捉盗用行为、更好的利用资源 和提高服务质量。 42在金融领域中的应用 多数银行和金融机构产生的金融数据通常比 较完整、可靠,这对系统 相当有利。在具体的应用中,采用多维数据分析来 使用数据可视化、分类、 聚类分析、序列模式分析等工具侦破洗黑钱和其他 金融犯罪行为。 4B在零售业中的应用 零售业是数据挖掘的主要应用领域,零售数 据挖掘有助亏 分顾客群体,使用分类技术和聚类 技术,可以更精确地挑选出潜在的顾客,识别顾客 的购买行为,发现顾客购买模式和趋势,进行关联 分析,以便更好地进行货架摆没等等。 4.4在工业生产的应用 工业生产领域是数据挖掘应用摄有潜力的应 片j领域之一。在生产工业领域,大部分工厂都积累 了大量的实际生产数据,这些数据大多以数据库、 数据文件、生产记录等形式存在,它们蕴涵了与生 产设备、生产过程卡H关的许多规律性知识和生产决 策、操作人员 曝作决策和控制经验。由于缺乏必 要 9数拊分析和处理工具,这些数据中的大部分闲 置。数据挖掘在该铽域的应用将使这! 魁 极为可观的作用。 4.5在生物与医学的应用 数据挖掘在生物信息学中已经被广泛应用, 兴未艾。网络彰 粥}掘和生物信息学中传统的獭据 挖掘相比,有许多不同之处。生物信息学中的数据 析,试图找出某种规律。而网络数据挖掘更多是利 用网络技术、网页源代码租—些语青语义学的知识 析、提炼、挖掘,再返回给用户结果。经过网络数据 挖掘处理过的结果比用户直接从网上查询得到的 结果更精练,更符合用户查询的要求。 5数据挖掘的发展趋势 曼1改进数据挖掘算法。现有的数据挖掘算法 由于历史原因存在种种缺陷,为了提高数据挖掘系 统舸用性、可扩展性、高效性,我们需要对—些数 据挖掘算法进行改进,需要探壕新的挖掘算法,以 适应新知识环境下的数据挖掘。 5.2 Web挖掘。随着计算机硬件和软件的升 级,web数据的结构也将会发生变化,数据量将会 更多更复杂。有关web内容挖掘、Web日志挖擗和 53数据挖掘中的隐私保护与信息安全。任何 事情都有其两面性,数据挖掘领域也不例外。在挖 掘数据产生财富的同时,随之产生的就是隐私 世舞棼 和信息安全问题。 结束语 数据挖掘技术 领域,商业利益强大驱动力将会不停地促进它的发 展。每年都有新的数据挖掘方法和漠型问世,人们 对它的研究正日益广泛和深^。尽管如此,数据挖 掘技术仍然面II缶着许多问题和挑战:如数据挖掘方 法的效率有待提高 以解决异质数据集的!!i臼瞻}挖掘问题;动态数揍}乖咖 识的数据挖掘;网络与分布式环境下的数据挖掘 等;今年来多媒体数据库发展很快,面向多媒体数 据库的挖掘技术和软件今后将成为研究开发的热 点。 参考文献 f1】旷海蓝.基于粗糙基理论的数据挖掘算法研究口)l 长沙:长沙理工大学,2006. [2】田苗苗.数据挖掘之决策树方法概述口l计算机与 现代化,2oo4 . [3】胡永刚.数据挖掘中可视化教术综述Ⅱl计算机与 现在化.2ooa(1o). 『4J(加)韩家炜,堪博著,范明,孟小峰泽数据挖掘概 念与技术(第二版),北京:机械工业出版社. 2O07.03. 

64—

相关主题