当前位置:文档之家› 企业级云端数据仓库的架构实践

企业级云端数据仓库的架构实践

技术创新,变革未来
企业级云端数据仓库的架构实践
议题
•云端数据仓库•HashData架构和实现•HashData落地场景•总结和展望
云端数据仓库:市场
《2017年互联⽹趋势》
云端数据仓库:技术
•多维度弹性
•⾼并发
•⼏乎⽆限的计算和存储能⼒
•秒级的增删节点
•统⼀的数据存储和处理平台
•结构化、半结构化和⾮结构化数据
•避免数据孤岛
•真正的服务
•⽤户只需关⼼加载数据、分析数据

基础设施管理、性能调优、⾼可⽤等交给数据仓库服务本身AWS
Redshift
Google
BigQuery
HashData公司简介
ݪلਧ໐ஞࢫᴚᤈӱᕪḵහഝᤈ॒ ቘᥢཛྷӫဳ ԭԯᒒහഝՙପጱڠڡ໐ஞࢫᴚԆᥝኧᤈᛔ3L Y R W D O̵ԅᰂᣟኪמᚆრ̵Ի᭗ᒵ܉ӡᕆጱහഝପᤈᤈݪلᤈ᭗ԭ۹Ղग़ᤈ7HUDGDWD̵,%0̵<DKRR ̵ᤈᥝᤈӱ१᭗ਮ॒ 100+3%හഝᤈᦡᒈېԪ॒ 2U D F O HᤈԅᒵݪلᤈႮጱᥴ٬ٍ๋ ᤈᤈᤈጱහ܉ӻଚݎଫአ
ԯᦇᓒړᤈ॒ හഝପᤈय़හഝՙପᵙᤈྯ ॠ1Պ+ጱ॒ᤈ64/ັᧃ
හഝӫਹᕟ౮
HashData数据仓库
•完全托管的PB级数据仓库服务
•访问接⼝开放
•100%兼容开源的PostgreSQL和Greenplum
Database
•系统架构云原⽣
•计算、存储分离
•对象存储作为数据持久层
•独⽴元数据服务:在线升级和扩容
•⼀致性哈希数据分布:秒级扩容
HashData设计理念
数据存储层•⽬标数据
•⽤户表数据;
•运⾏时临时数据;•对象存储
•表空间与Bucket映射;•深度优化
•增删改查;
•多Buckets;
元数据服务层•⽬标数据
•表到数据对象的映射;
•数据字典;
•统计信息;
•会话状态;
•锁状态;
•持久化
•分布式K-V数据库
元数据架构
计算集群•资源形态
•物理服务器
•虚拟机
•容器
•纯粹的计算资源
•按需创建、删除;
•弹性伸缩;
•集群间资源隔离;•本地缓存
•SSD优化;
•⼩⽂件合并;
某国有⼤⾏:⾼并发
✴原理:
✴每个计算节点参与到每条查询的执⾏中;
✴系统⽀持的并发查询数量由单个计算节点的硬件资源决定;
✴扩⼤集群规模不能提⾼并发查询数量,虽然能够降低单条查询的延迟(有时候因为调度的开销,甚⾄可能⽐原来慢);✴原理:
✴多集群共享统⼀存储架构;
✴不同集群间不竞争CPU、内存和IO资源;
✴多个物理集群组成⼀个逻辑集群;
某国有⼤⾏:弹性
✴原理:
✴数据按照哈希取模的算法均匀分布在各个计算节点;
✴扩容的时候,所有原有数据都需要从磁盘中读出来,重新哈希分布,打散到各个节点(包括新添件的节点),再次写回磁盘,引⼊⼤量的
磁盘IO和⽹络IO
;✴原理:
✴⼀致性哈希算法避免了数据重新逻辑分组;
✴共享存储避免了数据重新物理移动;
某国有⼤⾏:⾼可⽤
✴原理:
✴计算节点失败,任务调度到备份节点(Mirror节点);
✴全新节点替代失败节点时,数据需要从Mirror节点同步到新的节点;✴原理:
✴数据持久化到共享存储;
✴动态调整计算节点与数据分⽚之间的映射关系;
某国有⼤⾏:数据共享
✴原理:
✴Shared-Nothing:每个集群的数据保存在集群中每个计算节点本地的磁盘;
✴集群与集群之间数据⽆法做任何有效共享;✴原理:
✴Shared-Everything:任何⼀个计算集群都能够访问任何⼀份数据;
✴集群之间保证事务的强⼀致性;
某国有⼤⾏:成果
•成果:
•30+计算集群;
•20+PB数据;
•6000+计算节点;
•2000+并发访问;
•计算资源节省30%,存储资源节省50%;并发任意扩展,数据随⼼共享
某⼤省移动DPI平台:Hadoop •挑战:
•存储成本显著上升;
•数据分析能⼒弱,需要
多个组件联合使⽤;
•计算存储紧耦合,导致
系统⽆法灵活扩容;
某⼤省移动DPI平台:HashData •⽬标:
•更⼤的数据存储量,
同时降低存储成本;
•提升分析实时性和并
发访问;
•负载业务资源隔离;。

相关主题