当前位置:文档之家› 大数据分布式计算框架

大数据分布式计算框架


Storm Samza Trident Flink
S4 …
流处 理
典型大数据分布式计算框架
起源 开源时间 使用公司
优势
弊端
使用场合
Storm T
实时接收数据流; 更高的容错能力;
开发简单;
依赖其他组件较多; 内存控制不好; 多语言支持补好

数据的分类和处理方式
20
基于所数据处理的形式
数据分类
21
静态数据
很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量 历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(OnLine Analytical Processing)分析工具从静态数据中找到对企业有 价值的信息
计算结果的合并和错误计算的回 滚
每个任务的数据获取
17
分布式计算框架
谷歌公司最先提出了分布式并行编程模型Google MapReduce,Hadoop MapReduce是它的开源实现
传统并行计算框架
MapReduce
集群架构/容错性 共享式(共享内存/共享存储), 非共享式,容错性好 容错性差
22
流数据
流数据,是一组顺序、大量、快速、连续到达的数据序列
实例
食品信息流、PM2.5检测、电商网站用户点击流、网络通信流
流数据特征
速度快 来源多
格式 复杂
数据 量大
完整性 难以保

23
批处理和流处理
批处理:就是对某个对象进 行批量的处理
流处理:指源源不断的数据 流过系统时,系统能够不停 地连续计算
传统 数据
传统分析建立在关系 数据模型之上,主题 之间的关系在系统内 已被创立,分析也在
此基础上进行
传统分析是定向的批 处理,往往在用户获 得所需的洞察力之前 需要长时间的等待
传统的分析系统主要 采用单机或者集群形 式,并行是通过昂贵 的硬件实现
8
信息的爆炸性增长
“摩尔定律”, CPU性能大约每隔18个月翻一番 从2005年开始摩尔定律逐渐失效 随着web2.0的到来,人类正式进入信息爆炸时期,需要处理的
大数据分布式计算框架
主讲人:景全亮 中电数据服务有限公司 专家顾问
(中国科学院计算技术研究所) 2016.10
1
课程回顾
2
课程回顾
大数据时代的到来 大数据时代的特征 大数据时代的变革 分布式文件系统 NoSQL、云数据库 数据库的选型
数据计算演化 分布式计算框架概述 MapReduce Spark Storm 分布式计算框架选型
Hale Waihona Puke 大纲30MapReduce概述
31
什么是MapReduce
MapReduce是面向大数据并行处理 的计算模型、框架和平台,它隐
含了三层含义
• 一个基于集群的高性能并行计算平台 • 一个并行计算与运行软件框架 • 一个并行程序设计模型与方法
硬件/价格/扩展性 刀片服务器、高速网、SAN,价 普通PC机,便宜,扩展性
格贵,扩展性差

编程/学习难度
what-how,难
what,简单
适用场景
实时、细粒度计算、计算密集型 批处理、非实时、数据密 集型
大数据分布式计算框架定义
“ 分布式计算框架,即通过分布式
框架封装分布式计算细节,完成 分布式计算程序的开发
批处理
流处理
数据的两种处理模型
24
大数据分布式计算框架的种类
25
主流大数据分布式计算框架
1
2
3
Storm
Samza
5
6
4
大数据分布式计算框架种类
批处理分布式计算框架
流处理分布式计算框架
大数据分布式计算框架种类
批处 理
MapReduce Phoenix Disco Mars …
Spark
大纲
4
数据计算演化过程
数据计算随计算机软硬件和网络等发展经历的阶段
单机计 算
集群计 算
分布式 计算
网格计算
云计算
5
单机计算
单机计算阶段
串行计算 并行计算
6
集群计算阶段
单机计算 集群并行计算
7
对已知数据范围内易 理解的数据进行分析, 数据仓库中的数据时 清洗过的,符合业务
的元数据
传统数据的分析特点
数据量快速增加
≈60%
每年复合增长
全球:5年内10倍增长 中国:5年内30倍增长
2005 2006 2007 2008 2009 2010
9
传统数据分析的瓶颈:计算能力
海量的异构信 息在很多应用 都会出现,比 如一些社交网 络应用中记录 用户行为日志 亦或者是视频、 语音信息通常 都是以GB甚至 是TB为单位的
常规的单机或 者集群计算模 式已经不能支 撑如此巨大的
数据量。
食品行业数据分析需求
“全国食品抽 检结果查询系 统”,基于其 全部的样本数 据挖掘不合格 产品和生产厂 商的关系
分析不合格产 品和食品的原 材料产地之间 的关系;分析 不合格产品和 地域、环境等 的关系
了解食品行业 市场构成、细 分市场特征、 消费者需求和 竞争者状况等 众多因素
云计算
14
数据计算演化 分布式计算框架概述 MapReduce Spark Storm
大纲
15
什么是大数据分布式计算框架?
16
传统分布式计算的瓶颈
分布式计算的开发和维护中需要考虑的情形具有复杂多变性 计算开发任务对程序员的要求非常高
分布计算 开发和维护
计算过程中控制信息的通信
大量数据的计算、复杂算法的实施
11
分布式计算阶段
分布式计算 分布式程序运行在大规模计算机集群上,可以并行执行大规模数 据处理任务,从而获得海量的计算能力
单机计算 集群并行计算 分布式计算
12
网格计算阶段
单机计算 集群并行计算 分布式计算
网格计算
13
云计算阶段
单机计算 集群并行计算 分布式计算 网格计算
Google、IBM
Java编写性能高
需要较大内存; 增量更新效率差
时延高; 处理流程固定
实时性; 流数据处理; 分布式RPC计算
批处理; 迭代性质的任务; 大部分大数据处理任

29
数据计算演化 分布式计算框架概述 MapReduce Spark Storm 分布式计算框架选型
批处理; 对延迟不敏感; 离线的数据处理
Spark
UC Berkeley AMP lab
2011.5.24
Intel、腾讯、淘宝、 中移动、Google
算法实现简单; 数据缓冲内存; 计算方法更通用; 任务执行时可以交互
MapReduce Google Lab
2007.9.4 Ebay、Facebook、
相关主题