当前位置:文档之家› 数据挖掘可视化系统研究与实现

数据挖掘可视化系统研究与实现

数据挖掘可视化系统设计与实现
摘要:针对当前数据可视化工具的种类、质量和灵活性的存在的不足,构建一个数据挖掘可视化平台。

将获取的数据集上传到系统中,对数据集进行预处理,利用Mahout提供的分类、聚类等挖掘算法对数据集进行挖掘,使用ECharts将挖掘产生的结果进行可视化展示。

关键词:数据挖掘;可视化展示;数据预处理;挖掘算法
1引言
大数据时代,通过数据挖掘,可以对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从而提取辅助商业决策的关键性信息。

丰富而灵活的数据挖掘结果可视化技术使抽象的信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势。

然而当前数据可视化工具的种类、质量和灵活性较大的影响数据挖掘系统的使用、解释能力和吸引力。

为此,本系统使用分布式大数据处理技术进行数据的存储和计算,构建一个数据挖掘可视化平台,以多种挖掘算法的实现对原始数据集进行挖掘,从而发现数据中有用的信息。

2.关键技术
(1)MapReduce离线计算框架
一种在YARN系统之上的大数集离线计算框架,使用MapReduce可以并行的对原始数据集进行计算处理,从而高效的得出结果。

(2)HBase分布式数据库
HBase是一个构建在Hadoop之上分布式的、面向列的开源数据库。

HBase不同于一般的关系数据库,他是一个适合于非结构化数据存储的数据库。

(3)Mahout
Mahout是Apache Software Foundation旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现。

包括聚类、分类、推荐过滤、频繁子项挖掘等算法的实现。

(4)ECharts
Echarts是百度团队对ZRender做了一次大规模重构的产物。

他被定义为商业级报表,创建了坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图、柱状图、散点图、K线图、饼图、雷达图、地图、和弦图、力导向布局图、仪表盘以及漏斗图,同时支持任意纬度的堆积和多图表混合实现。

3.研究思路
数据挖掘可视化系统包括以下模块:
(1)前台展示
通过对上传的数据集处理、挖掘、分析,将有价值的信息结果以图形化的形式展现给用户。

(2)数据集的存储
将要处理的数据集存储到HBase数据库中。

HBase数据库能够对大数据提供随机、实时的读写访问功能。

(3)后台数据处理
通过使用Mahout数据挖掘包,对挖掘算法进行相关参数的设定,对从数据库中提取的数据集进行挖掘,从而提取出有用的信息。

具体如图1所示:
图 1 数据挖掘可视化系统研究思路
获取数据集
获取预处理之后的数据
存储挖掘结果
HBase 数据库
数据清理 数据集成 数据转换
进行分类、聚类、关联规则等算法的挖掘
MySql 数据库
以柱状图、饼图、地图、条形图等形式显示挖掘结果
4、系统设计
数据预处理、挖掘算法、可视化显示是数据可视化系统的三大核心模块,系统组建图如图2所示。

图2数据挖掘可视化系统组建图
(1)数据预处理
通过系统提供的上传接口将数据集上传到分布式数据库HBase中,当用户需要对数据集进行挖掘,系统首先检查数据集是否符合系统规定,如果符合规定对数据集进行预处理。

经过处理后的的数据集即可通过系统进行相关需求的数据挖掘。

(2)挖掘算法
系统使用开源的数据挖掘框架Mahout,用户只需对所需挖掘的算法进行相关的参数设定,即可完成相关算法的挖掘。

(3)可视化显示
挖掘之后的相关结果存放到MySql数据库中,前台从数据库中获取挖掘结果,并且使用ECharts进行可视化显示,用户可以通过前台提供的可视化结果进行数据分析,从而获取自己所需要的信息。

5.系统实现
(1)关键技术
数据挖掘可视化系统使用的关键技术如表1所示。

表1 系统开发技术简介
功能名称版本
操作系统Linux(Ubuntu i686) 14.04 LTS
开发语言JA V A(JDK) 1.7.0_67
关系型数据库MySql 5.6
分布式数据库HBase 0.96.2
分布式计算框架MapReduce 2.2.0
图形化展示ECharts 2.2.0
数据挖掘包Mahout 0.9
Web框架JFinal 1.9
(2)系统架构
本系统在操作系统之上构造了HDFS分布式文件系统,本地文件系统与分布式文件系统共同存在。

在本地文件系统之上组织了关系型数据库MySql和分布式数据库HBase集群,其中MySql用来存储管理员账户信息和少量的数据信息,HBase用来存储用户上传的数据集。

文件系统和数据库之上使用分布式计算框架MapReduce和Mahout数据挖掘包,对用户的数据集进行分类、聚类、关联规则等算法的挖掘。

后台管理员界面负责选择数据集以及挖掘参数的设定,前台用户界面通过图表形式展示挖掘结果,帮助用户进行数据分析。

系统架如图3所示。

图3 数据挖掘可视化系统架构 (3)结果分析 我们通过国家气候中心提供的NCC/GU 发生器,获取全国各地区连续十年每天的降水量、最高气温、最低气温。

通过关联规则,分类、聚类得出天气变化图,并且对北京、河北、吉林进行了详细分析。

6.结语
现有的数据挖掘可视化工具在种类上国内相对较少,在质量上对用户的展示缺乏交互性,并且对于数据集的挖掘灵活性上面比较欠缺。

本系统采用了当前在数据挖掘及其可视化领域相对比较成熟的技术,用户可以对挖掘结果的展示进行交互,下载,打印等。

用户只需将数据集上传到系统中,设置相关挖掘参数即可对数据集进行挖掘,从而提取有用的数据,通过直观的图表进行分析。

本地文件系统 Ext4/NTFS
分布式文件系统 HDFS MySQL MySQL
YARN
HBase HBase MapReduce 对数据集进行分类、聚类、关联规则等算法的挖掘
Mahout 管理员界面
用户界面。

相关主题