大数据计算模式和关键技术
未来,已发生改变……
大数据的关键技术
1 大数据关键技术
1、数据采集 2、数据存储与管理 3、数据处理与分析 4、数据隐私与安全
1.5大数据关键技术
两大核心技术
大数据
分布式存储
分布式处理
1.5大数据关键技术
分布式存储:解决海量数据的存储问题
单机无法存储
集群分布式存储
海量数据的存储
1.5大数据关键技术
PaaS
Platform as a Service Sina APP Engine, Google App Engine面向应用开发者(搭建开发平台作为服务出租)
IaaS Infrastructure as a Service Amazon EC2, IBM Blue Cloud, Sun Grid面向网络架构师(基础设施作为服务出租)
云计算的优势
企业不需要自建IT基础设施,可以租用云端资源
云计算的优势
企业不需要自建IT基础设施,可以租用云端资源
云计算的服务模式和类型
公有云
混合云
私有云
应用层 软件即服务(SaaS)
平台层 平台即服务(PaaS)
基础设施层 基础设施即服务(IaaS)
图1-7 云计算的服务模式和类型
公有云
面向所有公众
不同的计算模式需要使用不同的产品
批处理
MapReduce批处理计算模 式的典型代表
实时计算
流数据需要实时处理 图计算需要实时处理
交互式计算 交互式查询分析
MapReduce是批处理计算模式的典型代表
可做迭代计算的Spark,实时性更好
流计算
流数据(网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来自数据中心内所连接设备或 仪器的遥测数据)需要实时处理,给出实时响应,否则分析结果会失去商业价值。
•代表技术:Storm、S4、 Flume、Streams
10
社交网络数据 转换成图结构
表1-3 大数据计算模式及其代表产品
两大核心问题
大数据
分布式存储
分布式处理
1. 云计算概念 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地 方,就可以随时随地获得所需的各种IT资源。
Server
Application Platform
Infrastructure Visualization Storage Server
Storage
SaaS
Software as a Service
Google Apps, Microsoft “Software+Services”面向用户(云软件)
大数据技术都是以Google公司技术为代表
1 1.5大数据关键技术 分布式数据库Bigtable 分布式文件系统GFS 分布式并行处理技术Mapreduce
不同的匙”企 业中不同的应用场景数据不同的计 算模式,需要使用不同的大数据技 术
1 大数据关键技术
云计算关键技术
• 云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等
云计算数据中心的建设
阿里全球云计算数据中心部署
苹果云计算数据中心部署
思考: 云计算数据中心应该选择建在什么位置?
私有云
面向企业内部
混合云
混合云
部分给自己,部分给外部
SaaS PaaS
从一个集中的系统部署软件,使之在一台 本地计算机上(或从云中远程地)运行的一个 模型。由于是计量服务,SaaS 允许出租 一个应用程序,并计时收费
类似于 IaaS,但是它包括操作系统和围 绕特定应用的必需的服务
IaaS 将基础设施(计算资源和存储)作为服务出租