当前位置:文档之家› 统一数据分析平台解决方案

统一数据分析平台解决方案


Read
Write
250 200 150 100
50 0
3.5 TB
10 node cluster, 2x Quad-Core, 24G DRAM, 12 x 1TB SATA Drives @ 7200 rpm, Quad NICs
为什么有更快的速度?
Lockless Storage Service™
Agenda
• Cloud Meets Big Data
• Greenplum UAP • Greenplum Database • Greenplum HD • Greenplum Chorus • Greenplum DCA
EMC Greenplum
• What is it?
The Greenplum Unified Analytics Platform
• Cloud Meets Big Data
• Greenplum UAP • Greenplum Database • Greenplum HD • Greenplum Chorus • Greenplum DCA
Shared-Nothing 架构优势
Shared-Everthing
Shared-Storage
Segment 2 (mirror)
Segment 2 (primary)
Segment n (mirror)
Segment n (primary)
Segment 1 (mirror)
• RAID保护驱动器故障,Mirror Segment保护服务器故障,同
一份数据在集群内有4份copy
• Mirror Segment接管不丢失服务,快速在线差异恢复
Row 1 Row 2

Row 3
行存储
• 大多数字段频繁查询 • 随机行访问较多
列存储
• 少数字段查询,大幅节省
I/O操作
• 大数据量频繁访问,性能
提升30%以上
组合存储
• 按照应用类型,随需定制
Partition存储方式
• 达到最优化访问性能
动态在线扩容优势
系统永不停机 • Greenplum动态在线扩容技术,
Data Scientist
Data Engineer
Data Analyst
Bl
LOB
Analyst
User
DATA SCIENCE TEAM
Greenplum Chorus - Analytic Productivity Layer
3rd Party/Partner Tools & Services
• 热备份Standby Master
通过复制进程,保持与 Primary Master的交易 日志同步一致
primary master host
standby master host
System Catalogs
System Catalogs
Transaction Logs
synchronization process
红色表示共享资源
绿色表示无共享资源
Shared-Nothing
DB
DB DB DB DB
Master
DB DB DB DB
Disk
SAN/共享存储
Disk
Disk
Disk
Disk
Order Order Date Customer ID
数据均匀分布
并行处理的关键
Order
43 Oct 20 2005 12 64 Oct 20 2005 11 45 Oct 20 2005 42 46 Oct 20 2005 64 77 Oct 20 2005 32 48 Oct 20 2005 12 50 Oct 20 2005 34 56 Oct 20 2005 21 63 Oct 20 2005 15 44 Oct 20 2005 10 53 Oct 20 2005 82 55 Oct 20 2005 55
• 数据均匀分布在每一块磁盘上面 • 发挥每一块磁盘性能,根本上解决I/O瓶颈 • 支持数据Distribution分布和Partition分区
Master Node 高可用性
Standby Master Node
• 当Primary Master出现
故障时,热备份 Standby Master 担它 全部工作
“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
“云”的特殊容错措施使得可以采用极其廉价的节点来构成云。
Agenda
• Cloud Meets Big Data
• What is Big Data? • Cloud Computing • What is changed?
What is Hadoop?
• 开源Apache项目
• Hadoop 核心包括:
-HDFS –分布式文件系统 -Map/Reduce – 分布式计算
• 用JAVA编写
• 运行在:
• Linux, Mac OS/X, and Solaris
• 开放硬件平台
Map
Shuffle
Hale Waihona Puke ReduceHadoop在各行业的应用
驾驭大数据能够改变什么?
电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出 这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析 各用户所处的社交网络。房
驾驭大数据能够改变什么?
全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好 的进行风险管理已经成为银行等金融机构重要的课题。
Agenda
• Cloud Meets Big Data
• What is Big Data? • Cloud Computing • What is changed?
• Greenplum UAP
• Greenplum Database
• Greenplum HD
• Greenplum Chorus
Data Access & Query Layer
Data Platform Admin
Greenplum Database
Greenplum Hadoop
Private/Hybrid Cloud Infrastructure or Appliance
Greenplum Product Line
Agenda
• 消除存储抢占和竞争
Direct Block Device IO • 发挥全部存储的IO性能
Hadoop Direct Shuffle
• 利用Name Node的可扩展性,提供更快并行计算 性能
Client Side Compression
业界最快并行加载速度>10TB/Hr • 并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块
Disk的I/O资源
• 并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间 • 增加Segment和ETL Server,并行加载速度呈线性增长
行列组合存储优势
Column 3 Column 2 Column 1
统一数据分析平台解决方案
什么是大数据?
• 维基百科对大数据的定义,即无法在一定时间内用
常规软件工具对其内容进行抓取、管理和处理的数 据集合
• 大数据呈现出三大特征,即3V • 数据大(Volume),例如Facebook每天在30万台服务器
上处理25Tb数据
• 时效性要求高(Velocity),例如搜索引擎要求在几分
• Greenplum UAP
• Greenplum Database
• Greenplum HD
• Greenplum Chorus
• Greenplum DCA
驾驭大数据能够改变什么?
2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局 (NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获 得的实时数据 进行计算机模拟,制作的海啸影响模型出现在各大网站。
大规模并行处理优势
真正意义上的并行处理 • 利用原生MapReduce模型实现
,业界效率最高的并行处理引

• 全部SQL逻辑都可以并行在每
一个Segment Node执行
• 负载根据Segment Node数量自
动均衡
Master
Segment
Segment
Segment
Segment
并行加载和导出优势
可以保证客户在扩容期间不宕 机
• 不能动态在线扩容,高可用性
无从谈起
• 宕机意味着利润的流失,客户
需要可靠的IT环境
0101 0000 0101 0000 0101 0000 0101 0000 0101 0000 0000 0000 0000 0101 0000 0101 0000 0101 0000 0101
Greenplum HD MapR更快的速度
MB/sec
Elapsed time in minutes
DFSIO
(higher is better)
GPHD MapR
Apache
Terasort
(lower is better)
1000 900 800 700 600 500 400 300 200 100 0
Transaction Logs
Segment Node 高可用性
Mirror Technology
master host
segment host 1
segment host 2
segment host n
相关主题