当前位置:文档之家› Teradata数据仓库介绍

Teradata数据仓库介绍

– I/O, Buffers, Locking, Logging, Dictionary – Nothing centralized – Nothing in the way of linear scalability
Logs
AMPs
Locks
Buffers
I/O
23 > 4/2/2021
Shared Nothing Software
Disk Storage
Cache Memory
Disk Storage
CPU(s)
Cache
Large SMP/NUMA
• 专为事务处理应用设计 • 对小型系统或小数据量的系统性能会比较有优势 • 随CPU的增加,会由于对资源的争夺而使性能增加幅度大
幅降低
BYNET Fabrics
CPU(s) Cache Memory Disk Storage
22 > 4/2/2021
Shared Nothing Software
• Basis of Teradata scalability
> Divide the work evenly among many processing units > No single point of control for any operation
• 存储
> 独立的 I/O 通道 > 每节点单独管理
• 节点间连通性
> 充分可扩展 > 通道 – ESCON/FICON > 连接方式:以太网、光纤等
• 管理服务器
> 监控整个系统的控制台 > 通过AWS统一管理
SMP 节点1
CPU1 CPU2 Memory
双重BYNET连接
SMP 节点2
CPU1 CPU2 Memory
•上海证券交易所
•中国证券中央登记结算公司
航空业
•中国证券中央登记结算公司上海分公司 •中国民航信息中心 •原中国网通集团
6 > 4/2/2021
目录
1 Teradata 公司 2 Teradata 数据仓库引擎 3 Teradata 数据仓库特点 4 Teradata 数据仓库产品线
7 > 4/2/2021
CPU(s) Cache Memory Disk Storage
CPU(s) Cache Memory Disk Storage
CPU(s) Cache Memory Disk Storage CPU(s) Cache Memory Disk Storage
CPU(s) Cache Memory Disk Storage
Loading
AMP2的数据 AMP1的数据
Backup & Recovery
Teradata并行处理架构
V-PE
V-PE
BY-Net
• PARSING ENGINE (PE) •SQL Parser & Optimizer •Query Step Dispatcher
• Network Distribution
SMP 节点3
CPU1 CPU2 Memory
SMP 节点4
CPU1 CPU2 Memory
管理服务器
18 > 4/2/2021
Teradata MPP
• 扩展性-性能线性增长 • 高可用性-无单点故障 • 易管理–单一操作视图 • 技术性–高性能 • 投资保护 • 混合负载管理
19 > 4/2/2021
Teradata-众多行业领袖的选择
90% 全球前10名电信运营商
70% 全球前10名航空公司
70% 全球前10名物流运输公司
50% 全球前10名零售商
FORTUNE Global Rankings, July 2007 5 > 4/2/2021
50% 全球前10名银行
• 重点行业
> 银行/金融服务 > 政府 > 保险与保健 > 制造业 > 零售业 > 通信业 > 运输物流业 > 旅游业 > 媒体/娱乐业
• 客户遍布全球
> 超过100 个国家
Teradata的内地主要客户
银行业
•中国银行总行卡部 •国家邮政总局 •中国移动集团
• 浙江电信
•工商银行总行 •建设银行总行 •农业银行广东分行 •交通银行总行 •民生银行总行 •光大银行总行 •浦东发展银行总行 •兴业银行总行
证券业
•山东邮局
•内蒙古移动
> 超过24年的数据仓库实施顾问经验
3 > 4/2/2021
Teradata连续9年被Gartner评为数据仓库的领导者
Figure 1. Magic Quadrant for Data Warehouse Database Management Systems
2010年1月28日Gartner公司发 布了题为“Magic Quadrant
10 > 4/2/2021
Data Management
• 传统的数据分配方式,数据的增加、更新和删除都将影响数据分配策略, 相应的,查询的性能会降低,而且要求数据的重组。在数据重组过程中, 数据必须卸载再重新装载到新的分区中去,这需要花费大量的时间。
11 > 4/2/2021
Time to reorg again.
Teradata数据仓库平台
Teradata(中国) 2010-05
目录
1 data 公司 2 Teradata 数据仓库引擎 3 Teradata 数据仓库特点 4 Teradata 数据仓库产品线
2 > 4/2/2021
Teradata公司概况
• Teradata公司-2007年10月1日正式从NCR公司一个 事业部门分拆出来,成为独立上市公司
Teradata RDBMS- 数据仓库的专用引擎
Data Distribution
• 为了优化数据库系统性能,数据分配应该是随机和均匀的分布,以便能以最简洁 的路径访问到。
均衡分布,很难实现
• 为了实现数据均匀分布,很多数据库厂商都采用数据分配机制,必须由数据库管 理员建立相应的维护过程。
> How should I partition the data? > How large should I make the partitions? > Where do I have data contention? > How are users accessing the data?
• 提供线性的扩展能力,最大化SMP的资源利用率
Degree of Parallelism
• 任务执行时,并行数越多,系统的性能越好。 • 许多产品都声称“parallel”,其实只有在执行过程中某一个或某些任务实现了并行。 • Teradata的MPP体系结构从系统的设计阶段就保证了所有的任务都是并行执行。
Other DBs
Teradata
16 > 4/2/2021
12 > 4/2/2021
Teradata并行的基础
每 个 并 行 单 元 只 管 理 自 己 的 数 据
13 > 4/2/2021
AMP AMP AMP AMP1
Reading Writing
Sorting
AAMgPgr4eg的at数ing据
Building Indexes
Row LockinAgMP3的数据TJroaunrsnaaclitziionng
V-AMP V-AMP V-AMP V-AMP
• Access Module Processors (AMP)
• Disk Partitions
14 > 4/2/2021
Optimizer Intelligence
真正意义上的并行
• Teradata的优化提供了一种高性能的动态和复杂 查询的性能。
9 > 4/2/2021
Data Distribution
• Teradata的唯一的数据分配机制:HASH算法。 • 当要插入一条记录时,根据主索引计算出相应的AMP,该条记录即通过此AMP存到其对应
的磁盘上。由于主索引值的不同,一个表的各条记录将通过各AMP均匀地分布到各个磁盘 上。 • 分配过程完全自动进行,不需要DBA干预,这一点和其它OLTP DBMS有很大的区别。 • 当重新配置AMP数时,只需要变动HASH MAP,相应的数据分自动重新分配到新的AMP中 去。
for Data Warehouse DBMS,
2010”的报告中,Teradata被 评为领导者。
Source: Gartner (January 2010)
Gartner:全球最具权威的IT研究与顾问咨询公司。20年以来,Gartner的研究与咨询服务一直被认为是客 观技术思想领导的权威来源。
4 > 4/2/2021
可扩展性 – 性线扩展
• 随着业务应用的发展及数据的积累,对系统的容量及处理能力必将提出更高的要求 • 下图所示的线性扩展能力能很好地满足这种要求 • 线性增长的最佳状态就是斜率=1 • 预期的容量和吞吐量的增长需要满足商业的需要
20 > 4/2/2021
完美的线性扩展能力
架构决定扩展能力(一)
•江苏邮局 •上海邮局 •浙江邮局 •福建邮局 •广东邮局 •湖北邮局
•河北移动 •山西移动 •陕西移动 •云南移动 •贵州移动 •广西移动 •广东移动
制造业
•福建移动
•中国石油天然气集团公司
• 湖南电信 • 湖北电信 • 新疆电信 • 广东电信 • 甘肃电信 • 云南电信 • 江苏电信 • 辽宁电信 • 山东电信 • 天津电信
相关主题