当前位置:文档之家› 大数据工程实验室申报书

大数据工程实验室申报书

大数据工程实验室申请书
1.工程实验室拟突破的技术方向
大数据工程实验室拟突破的技术方向为:R语言与Hadoop分布式计算平台交互技术。

R语言是一种自由免费软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。

R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。

R的源代码可自由下载使用,可在多种平台下运行,包括UNIX,Linux,Windows和MacOS。

R主要是以命令行操作为主,同时支持GUI的图形用户界面。

R内建多种统计学及数字分析功能,R比其他统计学或数学专用的编程语言有更强的物件导向功能。

R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。

虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。

其分析速度可媲美GNU Octave甚至商业软件MATLAB。

CRAN 为Comprehensive R Archive Network的简称,它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。

全球有超过一百个CRAN镜像站,上万个第三方的软件包。

R的行业应用非常广泛,例如:统计分析,应用数学,计量经济,金融分析,财经分析,人文科学,数据挖掘,人工智能,生物信息学,生物制药,全球地理科学,数据可视化。

Hadoop是一个分布式系统基础架构,由Apache基金会开发。


户可以在不了解分布式底层细节的情况下,开发分布式程序。

充分利用集群的威力高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。

HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。

而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

HDFS 放宽了可移植操作系统接口的要求,这样可以以流的形式访问文件系统中的数据。

自2006年,Hadoop以MapReduce和HDFS独立发展开始,到今年2013年不过7年时间,Hadoop的家族已经孵化出多个Apache的顶级项目。

特别是最近1-2年,发展速度越来越快,并且融入了很多新技术(YARN, Hcatalog, Oozie, Cassandra)。

Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算)成为了可能。

R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。

所以,hadoop重点是全量数据分析,而R语言重点是样本数据分析。

两种技术放在一起,恰好是取长补短。

以计算机开发人员的思路,所有事情都用Hadoop去做,没有数据建模和证明,“预测的结果”一定是有问题的;以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。

所以R语言与Hadoop的结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。

目前,通常有两种方法将R语言与大数据处理平台相结合使用。

第一种方法是,在Hadoop上用MapReduce处理PB、TB量级的数据,缩小数据容量到GB量级,然后将其加载到R中进行处理。

在R中,GB级别的数据可以利用MPI并行处理框架构建的集群计算。

R包Rmpi、snow、snowfall都可以实现多种MPI支持的并行编程模式。

第二种方法是,直接使用支持Hadoop的R包,在R中操作存放在HDFS中的数据,并利用R语言完成MapReduce算法,用来替代Java的MapReduce 实现。

R包Rhadoop使得R语言具有处理高达TB甚至PB级的大数据的能力。

在GitHub社区可以找到该项目与开源实现代码。

Rhadoop 包含有三个包,分别是rhdfs,rmr以及rHBase,分别对应Hadoop系统架构中的HDFS, MapReduce和Hbase三个部分。

除了Rhadoop之外,还有从R中进行Hive查询的Rhive包,能够直接从Hive中进行查询。

将R和结合起来,其既能够利用分布式计算打破数据量的限制,又能够利用R中的众多优秀的免费扩展包,快速实现所需的数据处理分析。

综上所述,R语言与Hadoop的交互使用技术就成了本项目急需突破的技术方向。

2.工程实验室的主要功能与任务
大数据工程实验室的主要功能如下:
(1)为统计学学科与大数据有关的课程教学提供支持。

统计学专业的就业前景非常广阔。

整个世界已经迎来了大数据时代,就业市场对熟悉并且能够分析大数据的应用型人才思贤若渴,所以对《大数据挖掘》等与大数据相关的课程的理论学习和实践操作显得尤为重
要。

一个功能齐全、技术先进的大数据工程实验室将对大数据的学习者提供一个良好的实践环境,为学习者将来从事大数据处理做好充足的准备。

(2)为统计学学科大数据相关科研课题的研究提供支撑。

在保证完成学校教学任务的前提下,大数据工程实验室打算面向学校及社会开放,为大数据相关科研课题研究提供支持。

为大数据的相关科研课题的研究提供大量、详实的数据。

为大数据的相关科研课题的研究提供数据处理与分析工具。

(3)在一定程度上为社会提供相关服务。

可以为社会有关单位和个人提供大数据的采集、准备、存储、分析与挖掘以及大数据的展示与可视化等一系列服务。

可以进行大数据分析与挖掘的设计、开发、培训,真正实现产、学、研的有机结合。

工程实验室的任务如下:
(1)培养统计学学科学生对大数据的分析与挖掘能力,尤其培养学生面对复杂大数据时分析与挖掘方法的创新。

(2)以实验室为基地建立学术氛围浓厚的大数据分析科研团队。

提倡科研团队先根据数据特点构建缜密的大数据分析模型,然后依托于功能齐全的大数据工程实验室对模型进行实践验证,继而最终修正完善模型。

(3)把自主研发的大数据分析与挖掘的技术应用到企业中,通过我们对模型的预测和决策确保企业的最终决策能应对日益增加的复杂性,跟上日益加快的步伐。

3.工程实验室的近期和中期目标
大数据工程实验室的近期目标如下:
(1)建立先进稳定的Hadoop与R的交互平台;
(2)组建具有行业领先水平,结构合理的大数据分析与挖掘创新团队。

力争使该团队成员人人熟练掌握Hadoop与R的交互技术,利用R语言对复杂大数据进行建模最终用于预测和理论上的决策;
大数据工程实验室的中期目标
(1)自主研制开发基于Hadoop与R交互平台的大数据分析与挖掘技术,尤其针对复杂数据,例如基于物联网和云计算的大数据。

主要针对不同类型的复杂数据,开发基于Rhadoop的R程序包,申请国家专利,继而把R程序包上传国际CRAN镜像站,为大数据R程序的开发贡献自己的力量;
(2)把项目团队的研究成果应用到产品销售、服务销售等企业的商业预测和决策之中,构建长期有效的产学研合作机制,成为提高企业竞争力和创新能力的支撑平台。

相关主题