当前位置:文档之家› 数据分析与数据挖掘研究

数据分析与数据挖掘研究

数据分析与数据挖掘研究
1404091036 吉慧慧 软件工程(1)班
摘要:随着信息技术的迅速发展,数据库的规模不断扩大,产生了大量的数据。
但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查
询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术
处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由
此应运而生。本文主要介绍了数据挖掘的基本概念、数据挖掘的过程、数据挖掘
所需的工具、数据挖掘的任务、数据挖掘未来的研究方向、数据挖掘的应用领域
和未来发展所面临的一些问题。

关键字:数据挖掘 数据挖掘工具 QUEST DBMiner 网站数据挖掘 研究方向
应用领域

数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两
回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研
究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以
从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得
到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容
易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数
据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师
把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由
于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折
扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应
运而生。

数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在
对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目
前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”
兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处
理而出现的。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的
关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学
研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析
处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效
率。
数据挖掘技术
一:数据挖掘的概念
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平
凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者
分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发
生的行为。数据挖掘的过程也叫知识发现的过程。

二:数据挖掘的过程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有
效的、可实用的信息,并使用这些信息做出决策或丰富知识。

三:数据挖掘的工具
在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问
世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。

下面是两种数据挖掘工具:
(1)QUEST
(2)DBMiner

数据挖掘未来的研究方向和热点
一:数据挖掘未来的研究方向
当前,数据挖掘研究方兴未艾,其研究与开发的总体水平相当于数据库技术
在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言
等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。预计在本世纪数据
挖掘的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:

(1)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,
也便于在知识 发现的过程中进行人机交互;
(2)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许
会像SQL语 言一样走向形式化和标准化;
(3)研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建
立数据挖掘服 务器,并且与数据库服务器配合,实现WebMining;

数据库
数据挖掘
工具
可视化工


(4)处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或
者是结构比较 独特。为了处理这些复杂的数据,就需要一些新的和更好的分析
和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复
杂数据准备的一些工具和软件。
(5)加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文
本数据、图形 数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 交
互式发现和知识的维护更新。

二:分析
随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务
网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸
引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争
更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞
争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方
案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因
素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文
件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、
购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网
站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要
比您的竞争对手更了解客户。

三:电子商务网站数据挖掘
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客
户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来
自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。
但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表
上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的
表现数据中来推测客户的背景信息,进而再加以利用。

就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差
别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式
有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站
进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专
门用于网站挖掘的软件。
数据挖掘的应用领域
数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(data
mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超
级市场)等商业领域。数据挖掘不仅是面向特定数据库的简单检索查询调用,而
且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实
际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动
进行预测。
(1)在科学研究中应用
(2)在商业上的应用
(3)在金融上的应用
(4)在医学上的应用

数据挖掘面临的问题和挑战
数据挖掘应从以下三方面加以考虑,一是用数据挖掘解决什么样的商业问
题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。

结束语
数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和广
阔市场潜力的新兴学科之一。随着信息技术和数据库技术的不断发展,各行各业
的人们掌握了大量的数据,在竞争日益激烈的现今社会里,如何迅速有效的获得
隐藏在数据之后的有用的知识信息,成为众多企业决策者和管理者的当务之急。
数据挖掘是一门综合性的学科,其中用到了数据仓库。数理统计。计算机技
术等很多知识,不同的主题需要选择不同的方法进行分析,经过十多年的研究,
每一种方法都踊跃出大量的算法,这些算法中也各有利弊,在不同的问题上要选
择不同的算法,才能最大限度的发挥数据挖掘的潜能。
但是,SDMKD毕竟是空间信息科学的新兴领域,目前只是取得了一定的初
步成果,仍有大量的理论与方法需要深入研究,其中,主要包括多源空间数据的
清理、 基于空间不稳定性(位置,属性,时间等)的数据挖掘等。
此外,SDMKD除了发展和完善自己的理论和方法,也要充分借鉴和汲取数
据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、医疗、分子生物
学等学科领域的成熟的理论和方法。

相关主题