当前位置:文档之家› 基于HADOOP的数据挖掘平台分析与设计

基于HADOOP的数据挖掘平台分析与设计

基于HADOOP的数据挖掘平台分析与设计
【摘要】云计算技术的出现为数据挖掘技术的发展带来了新的机遇。

云计算技术通过使存储和计算能力均匀的分布到集群中的多个存储和计算节点上,从而实现了对超大数据集的巨大的存储和计算能力。

HADOOP是一个用于构建云平台的Apache开源项目。

使用HADOOP框架有利于我们方便、快速的实现计算机集群。

在HADOOP平台上,采用了HDFS(分布式文件系统)来实现超大文件的存储和容错,而使用了MapReduce的编程模式来进行计算。

【关键词】HADOOP;数据挖掘;平台;分析;设计
一、数据挖掘技术概述
作为一门快速发展的技术,数据挖掘引起了信息产业界和社会的广泛关注。

数据挖掘技术跨越多个学科,无论是数据库技术、机器学习、统计学、模式识别,还是神经网络,还是人工智能,数据挖掘都能从中吸取营养,不断发展。

如今,随着云计算的出现和发展,数据挖掘技术迎来了新的机遇和挑战。

1.数据挖掘发展历程与分类
数据挖掘由单个算法,单个系统到并行数据挖掘与服务的模式,经历了数据挖掘软件开始和数据库结合、多种数据类型融合、分布式挖掘等多个过程。

到今天,数据挖掘软件发展的历程,可以说是进入基于云计算的数据挖掘。

由于数据挖掘是一个交叉学科领域,是在包括机器学习,模式识别等多个学科的基础上发展而来。

依赖于我们所用的数据挖掘方法,我们又可以使用其他学科的多种技术,如神经网络、模糊或粗糙集合论、知识表示等。

所以,对数据挖掘的研究,我们会期望出现大量的各种类型的数据挖掘系统。

这样,我们就需要对数据挖掘系统给出一个很清楚的分类。

有了这种认识,我们才可以帮助用户根据其需求,确定最适合其需要的数据挖掘系统。

因此,数据挖掘的分类标准也必定会出现多样化。

我们可以根据挖掘的数据库类型分类,或是技术类型分类,也可以根据运用的场景分类。

但是大部分情况下,我们会根据挖掘产生的知识类型进行分类,也即是根据数据挖掘的功能进行分类。

2.数据挖掘流程
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,表现形式为规则、概念、规律及模式等。

数据挖掘主要由以下步骤组成:
①数据预处理数据
预处理阶段主要为数据挖掘准备好数据。

一般来讲主要包括数据清理和数据集成。

对于大量的数据,难免的存在着噪声或不一致的数据。

对于存在这些问题的数据源,我们必须进行数据预处理。

现在,数据挖掘面对的挖掘对象的种类越来越多。

半结构数据、web数据、来自云的数据等各种数据形式层出不穷。

如何将数据挖掘技术使用到这些不同的数据结构中,数据预处理是非常重要的步骤和技术。

它对于挖掘结果有着重要的影响。

②数据挖掘
一旦对数据的预处理工作完成,数据挖掘工作就开始了。

这是整个数据挖掘过程的基本步骤,也就是使用智能的方法来提取数据模式的过程。

数据挖掘阶段,根据挖掘任务的不同,我们会使用不同的技术和处理方法。

常见的数据挖掘任务包括特征化、区分、分类、关联分析、聚类等。

这是数据挖掘过程中最重要的步骤。

③模式评估
当数据挖掘一旦完成,就会生成挖掘的结果——模式。

然而,这些模式不是我们都感兴趣的。

实际上,对于给定的用户,在可能产生的模式中,只存在一小部分是他感兴趣的。

如何表示我们对于模式的期望和兴趣,现在存在一些模式兴趣度的客观度量,包括规则的支持度,置信度等。

在模式评估阶段,我们去发现只对我们来说是感兴趣的各种模式
④知识表示
对于用户感兴趣的模式,我们可以使用可视化和知识表示技术,以更直观的,更易于理解的方式向用户展现有意义的模式。

这是与用户的直接交互,更友好的表示方法可以使用户更好的得到有意义的模式的全部内涵。

这是数据挖掘过程中很重要的步骤,也是人们研究的一个重要方面。

二、典型数据挖掘系统构成
通过对数据挖掘过程有了一定的认识,一个典型的数据挖掘系统主要由下面的部分构成:
1.数据源:这可以是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库,提供存储的数据。

2.数据源服务器:根据用户的数据挖掘请求,数据源服务器负责提取相关数据。

3.预处理模块:该模块执行数据清理、数据集成等操作,为数据挖掘过程准备结构良好的数据。

4.知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。

这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。

用户确信方面的知识也可以包含在内。

可以使用这种知识,根据非期望性评估模式的兴趣度。

领域知识的其它例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。

5.数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。

6.模式评估模块:该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚焦在有趣的模式上,使用兴趣度阈值过滤发现的模式。

模式评估模块可以与挖掘模块集成在一起。

7.图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。

此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。

在这个数据挖掘的基本系统中,模式评估模块可以直接的嵌入到数据挖掘引擎中,以便指导挖掘引擎只产生用户感兴趣的模式。

同时,预处理和用户图形界面是很重要的功能模块,也是数据挖掘技术关注的新领域之一。

三、基于HADOOP的数据挖掘系统设计
通过对典型的数据挖掘系统的分析和研究,我们可以利用HADOOP平台集群巨大的存储和计算能力,组建基于HADOOP的数据挖掘系统。

相关主题