数据仓库
TF24 192 64
...
TF48 384 128
...
TF120 960 320
24 8
压缩 (TB)
32
64
128
256
512
1280
容量 压缩
= 用户数据空间 = 有效用户数据空间
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
Data Warehouse High Performance Analytics 1 TB to 1.5 PB
Queryable Archiving
100 TB to 10 PB
Netezza 1000系列 扩展性
1
10
...
TF3
Snippet 处 理器 容量 (TB)
TF6 48 16
TF12 96 32
演讲主题:智慧数据仓储 助力经营创新(Netezza)
演讲人:付杰 演讲人职务:资深信息工程师
议程
• Why Netezza • Netezza优势 • Netezza应用案例
传统数据仓库的缺点 — 花费巨额进行配置调优,但效果并不理想
高性能数据仓库一体机 (Appliance) -- 让一切变得简单
Uncompres s
Project
Restrict, Visibility
Complex ∑ Joins, Aggs, etc.
每个 “Snippet处理器” (FPGA+CPU) 以高于 115MB/秒的速度处理数据库的数据; 高压缩率 = 性能的提高
select DISTRICT, PRODUCTGRP, sum(NRX) and and
数据在进入到内存之前,已经 经过流式的数据处理
Confidential
1 真正的非共享的大规模并行处理架构
FPGA
CPU
内存
高级分 析 BI应用
主机
FPGA
CPU
内存
Hosts
ETL
FPGA
CPU
内存
数据加 载
网络结构
磁盘阵列柜
应用
S-Blades™
Netezza 一体机
1 最小的物理处理单元 -- 数据流处理程序
全省本地数据集市 平台:
某电信公司
客户背景
• 现有1000多万用户,向其客户提供固定电话、 移动电话、互联网接入及应用、数据灾备、视 讯服务、国际及港澳台通信等多种综合信息服 务
客户痛点
• 电信本地网的数据应用需求迫切 • 2006年建设的全省集中经分系统投资巨大, 但对经营分析和数据需求支撑有限
高可用性&稳定性
磁盘阵列柜
RAID1镜像+热备盘SM源自主机主备模式,操作系统级HA
Snippet Blades™ (S-Blades™)
负载均衡,动态接管
Confidential Page 20
-- 数据镜像(Disk Mirroring)和故障保护(Failover)
主空间 镜像空间 临时空间
解决方案
• 经过客户实际评估和验证,IBM Netezza一体 机提供的资料仓储解决方案将能发挥最佳效能, 最符合HTC企业现阶段的需求,并且能够线性 扩展满足企业未来的数据增长和海量数据分析 任务。
全球500+成功客户案例分布广泛
数字传媒
金融服务
政府
健康与生命科学
零售业
电信业
其他
31
谢 谢
select DISTRICT, PRODUCTGRP, sum(NRX) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO'
FPGA Core
CPU Core
Slice of table MTHLY_RX_TERR_DATA (compressed)
成熟的未来发展路线图
25
成熟的未来发展路线图
• October 2006 – NPS 3.1 系统软件 在 3代硬件上 – 比大多数竞争性数据库快100x倍 • August 2007 – NPS 4.0 系统软件 在3代硬件上 – 比NPS 3.1 SW获得100%的性能提升. 没有HW变化. • May 2008 NPS 4.5 系统软件 在 3代硬件上 – 比NPS 4.0 SW获得100%的性能提升. 没有HW变化. • August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW – 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升. • October 2010 NPS 6.0 系统软件 – 比NPS 5.0 SW获得100%的性能提升. 没有HW变化. • 对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明 了2x 到10x倍的性能提升! • 没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例, 我们独一无二的做到了. • 我们的性能提升按这种步伐持续下去…
自适应的流式压缩技术,自动管理,对用户透明
采样结果
• 系统范围的数据压 缩 • 零调优,零管理 • 只需软件升级 • 专利算法 –纵向, 列压缩 –线速解压 –行级存储 • 增强的压缩计划 –基于数据的多压 缩策略 –所有数据类型 -平均4x倍压缩比 ,最大32x倍压 缩比
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
查询请求 服务器 关系型数据库软件 数据首先被搬运到 内存,然后由 SQL 进行处理 存储
Confidential
高性能
Netezza数据仓库专用设备的出现:带来性能的革命性突破
Netezza数据仓库设备
CPU: 仅为现有 系统的2% 查询结果 网络流量: 仅为现有 系统的1%
查询请求 SMP主机 (2-4 CPU) MPP “智能存储”: 数据处理单元与存储相结合
CREATE DATABASE my_db;
简单性 – 减轻运维人员的管理成本
简单性 – 灵活的工作负载管理
工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设 定资源使用的优先级,来满足混合用户工作负载下的需求 • 保障资源分配(GRA) – 在多用户环境下在多组用户中分配 NPS资源的机制 • 分优先级查询执行 (PQE) – 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的控 制 • 短查询倾向(SQB) – 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的高 优先级的查询响应时间 • 工作负载限制(GRA) – 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运 行任务的数量
高可用性&稳定性
所有用户数据和临时空间镜像保护 磁盘故障对查询和交易透明
故障磁盘驱动的数据自动重生成
坏数据区自动重写以及自动迁移至新安全区
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
Netezza家族扩展性
Skimmer
TwinFin
Cruiser
Development & Test System 1 TB to 10 TB
1. table and indexes DataBase 2. tablespace 3. datafile 4. file Netezza: 极少 (或无需) 涉及 CREATE DATABASE my_db; 5. file system File System 6. striped logical volume 7. mirror/plex 8. sub-disk OS 9. raw device Network 10. Brocade SAN switch 11. EMC Symmetrix volume 12. EMC Symmetrix striped meta-volume Storage 13. EMC Symmetrix hyper-volume 14. EMC Symmetrix remote volume (replication)
50 亿条记录
12,000 个产品代码 40 亿次计算 (ETL) 12 至 20 个测试周期/年
生产周期为 9 天 (CMV)
议程
• Why Netezza • Netezza优势 -- 高性能 -- 简单性 -- 扩展性 -- 稳定性 -- 深压缩 -- 成熟性 • Netezza应用案例
简单性 -- 减轻设计开发人员的工作量
where MONTH = '20091201' MARKET = 509123 SPECIALTY = 'GASTRO'
sum(NRX) FPGA 的实际处 理吞吐量: 460MB/s*
给客户带来的利益 – 美国银行使用Netezza前后给业务带来的变化
使用 Netezza 前 2 个应用程序 使用 Netezza 后 7 个应用程序(且在不断增长) 850 亿条记录 20,100 个产品代码 18 亿次计算 (ETL) 2010 年有 120 个测试周期 生产周期为 24 个小时