当前位置:
文档之家› 大数据实验实践教学及科研平台
大数据实验实践教学及科研平台
农产品
搜索引擎
提供用户搜索的热门词汇,用于分析 行业热点等案例。
房地产
通过交易采购著名线上房源、租金等数据, 用于分析租住人员的分布状况、收入情况 等案例。
包括粮食、生鲜、蔬菜等流通、交易数据和案例。
实验实训平台建设方案 PART 2
实训室设计
1、根据学校在校上课人数所需的大数据实验机容量进行建设。 2、整体系统提供快速扩容升级服务。
l Hadoop伪分布模式安装 l Hadoop完全分布模式安装 l Hadoop开发插件安装 l HDFS JAVA API操作 l Mapreduce实例——wordcount l Mapreduce实例——去重 l Mapreduce实例——排序 l Mapreduce实例——求平均值 l Mapreduce实例——Map端Join l Mapreduce实例——Reduce端Join l Mapreduce实例——单表Join l Mapreduce实例——二次排序 l Mapreduce实例——倒排索引
互联网新闻
通过互联网公共数据的采集,提供了上T的
新闻通数过据互,联用于网事公件共、数舆据情的的分采析集案,例提。 供了上T 的新闻数据,用于事件、舆情的分析案例。
电子商务
提供多家电商的选购、交易数据。用 于商品推荐等大数据分析案例。
在线教育
与知名的在线教育公司合作,提供学生的 上课、练习、答疑等行为数据。用于用户 的学习行为特征分析案例。
l Mapreduce实例——Chainmapper&Chainreducer l Mapreduce实例——MapReduce自定义输入、输出格式 l Hive安装 l Hive基本操作 l Hive查询 l Hive 各种排序之间的区别 l zookeeper安装 l HBase安装 l HBase JAVA API读写数据 l HBase的过滤器 l 综合案例:MapReduce读HBase l 综合案例:MapReduce写HBase l 综合案例:Mapreduce读HBase并写入HBase
实验实践 教学平台
辅助大数据教学的实验环境及实验指导书
包含视频课程、实验任务步骤、实训操 作及实战环节,采用高清视频课件并结 合移动终端;实现在线教学、实训操作、 项目实战完美结合。
以Hadoop和Spark为基础的科研平台 构建具备Hadoop和Spark集群实验教学、 数据分析挖掘能力的大数据科研系统,提 供可靠的大数据集群环境。
大数据实验实践教学及科研平台
中国.北京
政策环境
政策环境
大数据行业现状
人才的匮乏,阻碍了大数据应用落地
现状一:当前中国大数据人才缺口为1000万,技术岗位缺口超 过150万,一些新的职位也虚位以待
现状二:大数据学习的门槛高,开发、操作环境安装 困难,这成了很多人迈不过去的坎
现状三:大数据的学习以及项目的应用,面临一个很 现实的问题:想要的数据找不到
【学生登录】
【学习中心界面】
【实验课程列表】
软件平台-实验
3、云实验机及实验任务
实验机集群 02
云实验机类型
03
B/S云实验机 01
07 云实验机桌面分享系统
集群监控系统 04 详细的实验指导书 05
06 实验报告系统
软件平台-实验任务界面
左侧:实验任务步骤
右侧:B/S架构实验机
实பைடு நூலகம்任务指导书(50+)
HDFS集群
内置Hadoop分布式文件系统(HDFS),能提供较 高吞吐量的数据访问,非常适合大规模数据集 上的应用,可以用于针对HDFS的所有特点的实 验和操作。
Zookeeper
是一个为分布式应用提供一致性服务的软件, 提供配置维护、名字服务、分布式同步、组 服务等。
Hive集群
是基于Hadoop的一个数据仓库工具,可以将结构化的数 据文件映射为一张数据库表,并提供简单的sql查询功能, 可以将sql语句转换为MapReduce任务进行运行。 。
标配3块2TB SAS硬盘 标配2块480G SSD 硬盘
集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均 衡,冗余等高级功能
标配大功率高效白金级电源,1+1冗余 支持VMware vSphere、Docker、OpenStack等
硬件配置-终端设备
采用普通PC机作为大数据实训终端设备。
专业开展情况
获批大数据专业学校数量
100
90
80
70
60
50
40
30
20
3
10
0
2016年
100 32 2017年 2018年预计
学位授予门类统计
4 31
工学 理学
平台介绍
PART 1
建设目标
以大数据技能操作训练为主要目的
运用云计算和互联网+思想、结合线上 与线下手段,以基础知识学习、在线视 频教学、仿真操作、线上测试、评估等 为主线的一系列方法。
处理器 内存 磁盘 显卡 声卡 网络控制器 显示器 软件系统 键盘鼠标
第四代智能英特尔酷睿I3处理器 DDR3 4G内存 500GB SATA硬盘 集成显卡 集成声卡 集成1个高性能千兆以太网控制器 20英寸显示器 Windows 10 有线鼠标、有线键盘
软件平台- 教学管理
1、大数据教学管理系统
专业管理
班级管理
学习行 为报表
课程测验
学生管理 分级权限
大数据 实验实践教
学平台
实验机 学生中心
成绩管理
开课计划
学习记录
提问答疑
课程管理
软件平台- 学习平台
2、学习中心系统
功能实现包含可选实验课程列表、已选实验课程列表、已修实验课程列表,学生可以登录系统进行学习, 可以观看实验视屏、利用虚拟机操作实验内容,并且可以截取实验步骤截图,提交实验作业。
Spark集群
建立在HDFS之上的新一代计算框架,包括 Spark SQL、SparkStream、Spark ML等。
HBase集群
HBase是一个分布式的、面向列的开源数据库, 不同于一般的关系数据库,它是一个适合于 非结构化数据存储的数据库,HBase基于列的 而不是基于行的模式。
实战集群 数据案例
硬件配置-服务器
服务器采用高性能品牌服务器作为大数据节点进行建设,采用 企业级全千兆三层交换机进行网络数据交换。
处理器 高速缓存 QPI总线速率 内存
磁盘
网络控制器
电源 虚拟化技术
每节点支持2个英特尔® 至强® 处理器 E5-26XX CPU 15MB 7.2GT/s 提供24个内存插槽,标配192G内存, 支持高级内存纠错,内存镜像,内存热备等高级功能
真实企业的大数据应用场景与案例
提供超过十五个行业的业务数据和算法实 现,结合大数据分析的应用场景与案例对 学生进行数据分析方面的综合训练等。
系统说明
通过浏览器直接访问实验平台 客户端无需安装其它工具软件
平台架构
解决“开发环境搭建”的难题
解决“无数据、无案例”的难题
基于浏览器的教学、实验平台
大数据实战平台