当前位置：文档之家› 企业级云端数据仓库的架构实践

企业级云端数据仓库的架构实践

技术创新，变革未来
企业级云端数据仓库的架构实践
议题
•云端数据仓库•HashData架构和实现•HashData落地场景•总结和展望
云端数据仓库：市场
《2017年互联⽹趋势》
云端数据仓库：技术
•多维度弹性
•⾼并发
•⼏乎⽆限的计算和存储能⼒
•秒级的增删节点
•统⼀的数据存储和处理平台
•结构化、半结构化和⾮结构化数据
•避免数据孤岛
•真正的服务
•⽤户只需关⼼加载数据、分析数据
•
基础设施管理、性能调优、⾼可⽤等交给数据仓库服务本身AWS
Redshift
Google
BigQuery
HashData公司简介
ݪلਧ໐ஞࢫᴚᤈӱᕪḵහഝᤈ॒ ቘᥢཛྷӫဳ ԭԯᒒහഝՙପጱڠڡ໐ஞࢫᴚԆᥝኧᤈᛔ3L Y R W D O̵ԅᰂᣟኪמᚆრ̵Ի᭗ᒵ܉ӡᕆጱහഝପᤈᤈݪلᤈ᭗ԭ۹Ղग़ᤈ7HUDGDWD̵,%0̵<DKRR ̵ᤈᥝᤈӱ१᭗ਮ॒ 100+3%හഝᤈᦡᒈېԪ॒ 2U D F O HᤈԅᒵݪلᤈႮጱᥴ٬ٍ๋ ᤈᤈᤈጱහ܉ӻଚݎଫአ
ԯᦇᓒړᤈ॒ හഝପᤈय़හഝՙପᵙᤈྯ ॠ1Պ+ጱ॒ᤈ64/ັᧃ
හഝӫਹᕟ౮
HashData数据仓库
•完全托管的PB级数据仓库服务
•访问接⼝开放
•100%兼容开源的PostgreSQL和Greenplum
Database
•系统架构云原⽣
•计算、存储分离
•对象存储作为数据持久层
•独⽴元数据服务：在线升级和扩容
•⼀致性哈希数据分布：秒级扩容
HashData设计理念
数据存储层•⽬标数据
•⽤户表数据；
•运⾏时临时数据；•对象存储
•表空间与Bucket映射；•深度优化
•增删改查；
•多Buckets；
元数据服务层•⽬标数据
•表到数据对象的映射；
•数据字典；
•统计信息；
•会话状态；
•锁状态；
•持久化
•分布式K-V数据库
元数据架构
计算集群•资源形态
•物理服务器
•虚拟机
•容器
•纯粹的计算资源
•按需创建、删除；
•弹性伸缩；
•集群间资源隔离；•本地缓存
•SSD优化；
•⼩⽂件合并；
某国有⼤⾏：⾼并发
✴原理：
✴每个计算节点参与到每条查询的执⾏中；
✴系统⽀持的并发查询数量由单个计算节点的硬件资源决定；
✴扩⼤集群规模不能提⾼并发查询数量，虽然能够降低单条查询的延迟（有时候因为调度的开销，甚⾄可能⽐原来慢）；✴原理：
✴多集群共享统⼀存储架构；
✴不同集群间不竞争CPU、内存和IO资源；
✴多个物理集群组成⼀个逻辑集群；
某国有⼤⾏：弹性
✴原理：
✴数据按照哈希取模的算法均匀分布在各个计算节点；
✴扩容的时候，所有原有数据都需要从磁盘中读出来，重新哈希分布，打散到各个节点（包括新添件的节点），再次写回磁盘，引⼊⼤量的
磁盘IO和⽹络IO
；✴原理：
✴⼀致性哈希算法避免了数据重新逻辑分组；
✴共享存储避免了数据重新物理移动；
某国有⼤⾏：⾼可⽤
✴原理：
✴计算节点失败，任务调度到备份节点（Mirror节点）；
✴全新节点替代失败节点时，数据需要从Mirror节点同步到新的节点；✴原理：
✴数据持久化到共享存储；
✴动态调整计算节点与数据分⽚之间的映射关系；
某国有⼤⾏：数据共享
✴原理：
✴Shared-Nothing：每个集群的数据保存在集群中每个计算节点本地的磁盘；
✴集群与集群之间数据⽆法做任何有效共享；✴原理：
✴Shared-Everything：任何⼀个计算集群都能够访问任何⼀份数据；
✴集群之间保证事务的强⼀致性；
某国有⼤⾏：成果
•成果：
•30+计算集群；
•20+PB数据；
•6000+计算节点；
•2000+并发访问；
•计算资源节省30%，存储资源节省50%；并发任意扩展，数据随⼼共享
某⼤省移动DPI平台：Hadoop •挑战：
•存储成本显著上升；
•数据分析能⼒弱，需要
多个组件联合使⽤；
•计算存储紧耦合，导致
系统⽆法灵活扩容；
某⼤省移动DPI平台：HashData •⽬标：
•更⼤的数据存储量，
同时降低存储成本；
•提升分析实时性和并
发访问；
•负载业务资源隔离；。

e商务文档

企业级云端数据仓库的架构实践

相关文档推荐：