当前位置:
文档之家› 大数据处理技术简介37.pptx
大数据处理技术简介37.pptx
8
学习 ·创造 ·超越 ·共享
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。
6
学习 ·创造 ·超越 ·共享
大数据应用情景三(物联网数据流):传感网、物联网、智慧城市
传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如位置、生 活信息等数据,对在线即时处理提出了更高的要求和挑战。
设备网
Internet 服务器
用户端程序
PDA
传感设备
实时数据流 处理平台
任务1…n n>>无穷
Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
10
Stream cloud
学习 ·创造 ·超越 ·共享
分布式并行计算系统 流水线+并行、可配置、可容错、弹性可扩展、全内存、实时在线处理。
面向数据流内容安全的 实时云计算模型 流分组
数据源 任务1
大数据处理技术的应用
近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用的实例包 括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流模型中,数 据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海量瞬时流 动数据建模并处理,产生了一些新的基础性研究问题。
4
学习 ·创造 ·超越 ·共享
2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机 分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
3、海量异构的数据(包括文本、图像、声音等)。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)
3
学习 ·创造 ·超越 ·共享
• [2] 伯克利大学的Tyson Condie等对Hadoop进行改进,设计了Hadoop Online Prototype (HOP) 系统,支持连续查询、事件监测以及流处理等功能;
• [3] Facebook在SIGMOD’ 2011上发表了利用Hbase/Hadoop进行实时处理数据的论文,通过一 些实时性改造,力图使hadoop批处理计算平台也具备实时计算的能力。
大数据应用情景一(B2C、C2C与金融):淘宝、股票等即时交易数据
截至2011年11月,淘宝Beltles平台单日最 大服务调用量19亿。 今年淘宝双11 QPS:32万/分钟
2009年四月统计:上证交易所新一代交易 系统峰值订单处理能力约80000笔/秒,平 均订单时延比现用交易系统缩短30%以上, 系统日双边成交容量不低于1.2亿笔/日, 相当于单市场1.2万亿的日成交规模。
2012-01-14报道,铁道部12306网站连续5 天日均点击数超过10亿次,高峰时超过 14.09亿次,导致系统近乎崩溃或瘫痪。
5
学习 ·创造 ·超越 ·共享
大数据应用情景三(社交网络):社交网络即时消息处理
每秒钟,人们发送290万封电子邮件。 每分钟,人们向Youtube上传60个小时的视频。 每一天,人们在Twitter上发消息1.9亿条微博。 每一天,人们在Twitter上发出3.44亿条消息。 每一天,人们在Facebook发出40亿条信息。
• [4] Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据处理 系统Percolator,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处理一 遍整个系统。
• [5] Wang Lam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet;
计算模型 MPIReduce
11
学习 ·创造 ·超越 ·共享
实时计算系统的改造
• 第一类方法,Hadoop改造:
• [1] Yingyi Bu等在Hadoop MapReduce工作的基础上设计了HaLoop,主要克服了Hadoop进行 迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点;
大数据处理技术简介
学习 ·创造 ·超越 ·共享
1
概念及背景介绍
2
大数据处理相关工具介绍
3
国内相关数据处理平台简介
4
Storm实时计算系统简介
2
学习 ·创造 ·超越 ·共享
大数据概念
1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷 取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。
任务1…n n>>无穷
Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
9
Stream cloud
学习 ·创造 ·超越 ·共享
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。
任务2
计算单元1 任务1.1 任务2.1
计算单元2 任务3.1 任务3.2
流汇聚
计算单元3 任务2.1
任务2.2
基于文件/消息传输的 分布式并行计算
应用 普通集群
云计算 数据流 实时云计算
计算模型与通信机制 基于消息传递的分布式模型 基于文件传输的并行计算模型 基于消息(封装文件)传输的
并行计算
数据规模 TB级/百台 PB级/千台 PB级/千台
PC机
决策支持
数据库
7
学习 ·创造 ·超越 ·共享
大数据应用情景四(数据流过滤):互联网带宽增长
• 根据中国互联网络信息中心(CNNIC)的“中国互联网络发展状况统计报告”调查显示, 2011年中国的互联网基础资源继续保持快速增长,IP地址、域名、网站和网页等增速基 本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mbps,半 年增长了7.6%。