大数据处理技术简介37
计算模型 MPI
MapReduce Online
MapReduce
11
学习 ·创造 ·超越 ·共享
实时计算系统的改造
• 第一类方法,Hadoop改造:
• [1] Yingyi Bu等在Hadoop MapReduce工作的基础上设计了HaLoop,主要克服了Hadoop进行 迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点;
2012-01-14报道,铁道部12306网站连续5 天日均点击数超过10亿次,高峰时超过 14.09亿次,导致系统近乎崩溃或瘫痪。
5
学习 ·创造 ·超越 ·共享
大数据应用情景三(社交网络):社交网络即时消息处理
每秒钟,人们发送290万封电子邮件。 每分钟,人们向Youtube上传60个小时的视频。 每一天,人们在Twitter上发消息1.9亿条微博。 每一天,人们在Twitter上发出3.44亿条消息。 每一天,人们在Facebook发出40亿条信息。
Clojure
被动备Tw用itter 数据处理上分层游架回构 放
均匀架构
主从架构
低
高
短
长
Storm 数据流处理示意图
国外3:yahoo! s4 Yahoo!
S4 JAVA 被动备用
主从架构 低 长
S4 数据流处理流程
16
学习 ·创造 ·超越 ·共享
开源工具简介---全内存查询
• Spark
是一通用并行计算框架,由UCBerkeley的AMP实验室开发。 – 将中间数据放到内存中,对于迭代运算效率比较高。如:机器学习(ML) – 与hadoop相比提供了更多种运算操作,并且通信模型也是多样的,hadoop仅有Data Shuffle。 缺点: Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对 于那种增量修改的应用模型,因为增量改动完了,也就不用了,不需要迭代了。
• 第二类方法,实时云计算系统:
• [6] MIT等三所高校的研究人员联合研发了第二代分布式流处理系统Borealis;
• [7] Sheheryar Malik设计了具有良好错误容忍机制的实时云计算系统;Harmeek Singh Bedi申请 了实Facebook Puma,Twitter Storm,Yahoo! S4
20
1、每天有超过30亿的店铺、商品浏览记录,10亿在线 商品数,上千万的成交、收藏和评价数据。 2、量子统计、数据魔方和淘宝指数。 3、Hadoop集群:1500个节点,每天有大约40000个作 业对1.5PB的原始数据按照产品需求进行不同的 MapReduce计算。 4、Storm集群:处理实时流数据。
大数据处理技术的应用
近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用的实例包 括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流模型中,数 据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海量瞬时流 动数据建模并处理,产生了一些新的基础性研究问题。
4
学习 ·创造 ·超越 ·共享
• [2] 伯克利大学的Tyson Condie等对Hadoop进行改进,设计了Hadoop Online Prototype (HOP) 系统,支持连续查询、事件监测以及流处理等功能;
• [3] Facebook在SIGMOD’ 2011上发表了利用Hbase/Hadoop进行实时处理数据的论文,通过一 些实时性改造,力图使hadoop批处理计算平台也具备实时计算的能力。
HDFS:是Hadoop的分布式存储系统,同Google的GFS性质是一样的。
MapReduce:是一种编程模型,用于大规模数据集的并行运算。
Hive是基于Hadoop的一个数据仓库工具,提供简单的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行,十分适合数据仓库的统计分析。
Pig:Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本 ,类似我们通常 熟悉的SQL语句,在Pig中称之为Pig Latin。
Storm实时计算系统简介
18
学习 ·创造 ·超越 度基础架构部的下一代规划中,实时计算 是重要的组成部分。实时计算系统和批处理 计算系统同属于云计算这个大的范畴,相互 配合使用。批处理计算是MapReduce (Hadoop)、实时计算是DStream等。
任务1…n n>>无穷
Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
9
Stream cloud
学习 ·创造 ·超越 ·共享
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。
Hbase:一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访 问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。它是 Google bigtable的一个开源的实现。
Zookeeper:它是一个针对大型分布式系统的可靠协调系统,功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用 的接口和性能高效、功能稳定的系统提供给用户。它是 Google的Chubby一个开源的实现。
任务2
计算单元1 任务1.1 任务2.1
计算单元2 任务3.1 任务3.2
流汇聚
计算单元3 任务2.1
任务2.2
基于文件/消息传输的 分布式并行计算
应用 普通集群
云计算 数据流 实时云计算
计算模型与通信机制 基于消息传递的分布式模型 基于文件传输的并行计算模型 基于消息(封装文件)传输的
并行计算
数据规模 TB级/百台 PB级/千台 PB级/千台
• [4] Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据处理 系统Percolator,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处理一 遍整个系统。
• [5] Wang Lam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet;
DStream的Release 1.0版本在2012年上半 年发布。DStream依赖几个第三方系统, Bigpipe、Zookeeper和HDFS,分别用于数 据流输入输出和操作日志的存储、分布式 异常监控、用户文件存储和计算状态存储。
19
学习 ·创造 ·超越 ·共享
国内相关计算平台 国内2:淘宝数据分析平台架构
12
学习 ·创造 ·超越 ·共享
1
概念及背景介绍
2
大数据处理相关工具介绍
3
国内相关数据处理平台简介
4
Storm实时计算系统简介
13
学习 ·创造 ·超越 ·共享
Hadoop家族
14
学习 ·创造 1·4超越 ·共享
开源工具简介---批处理
Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具, 如:配置文件和日志操作等。
• Druid
为分析而设计- Druid是为OLAP工作流的探索性分析而构建。它支持各种filter、aggregator和查询类型,并为添加 新功能提供了一个框架。 交互式查询-低延迟数据摄取架构允许事件在它们创建后毫秒内查询, 完全有可能在6TB的数据集上实现秒级查询。 高可用性-支持需要一直在线的SaaS的实现。你的数据在系统更新时依然可用、可查询。规模的扩大和缩小不会造成 数据丢失。 可伸缩-每天处理数十亿事件和TB级数据。Druid被设计成PB级别。
任务1…n n>>无穷
Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
10
Stream cloud
学习 ·创造 ·超越 ·共享
分布式并行计算系统 流水线+并行、可配置、可容错、弹性可扩展、全内存、实时在线处理。
面向数据流内容安全的 实时云计算模型 流分组
数据源 任务1
PC机
决策支持
数据库
7
学习 ·创造 ·超越 ·共享
大数据应用情景四(数据流过滤):互联网带宽增长
• 根据中国互联网络信息中心(CNNIC)的“中国互联网络发展状况统计报告”调查显示, 2011年中国的互联网基础资源继续保持快速增长,IP地址、域名、网站和网页等增速基 本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mbps,半 年增长了7.6%。
大数据应用情景一(B2C、C2C与金融):淘宝、股票等即时交易数据
截至2011年11月,淘宝Beltles平台单日最 大服务调用量19亿。 今年淘宝双11 QPS:32万/分钟
2009年四月统计:上证交易所新一代交易 系统峰值订单处理能力约80000笔/秒,平 均订单时延比现用交易系统缩短30%以上, 系统日双边成交容量不低于1.2亿笔/日, 相当于单市场1.2万亿的日成交规模。
6
学习 ·创造 ·超越 ·共享
大数据应用情景三(物联网数据流):传感网、物联网、智慧城市
传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如位置、生 活信息等数据,对在线即时处理提出了更高的要求和挑战。
设备网
Internet 服务器
用户端程序