当前位置:
文档之家› 企业级大数据分析平台架构专题
企业级大数据分析平台架构专题
数性据、摄k入ey-value数据存储,适合处 数据仓库
理详单数据、客户数据等
• HBASE
• 快速数据导入
• 快速批处理
• 为终•• 端应极 均用速 衡E保查 设TL证询 计高可靠连接数分据析
ODS
数据仓库 分析仓库
业务流程
企业级大数据平台实践 第一版 讲师 廖安舟
ETL
DATAGURU专业数据分析社区
企业级大数据平台实践 第2课
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教学资料 ,所有资料只能在课程内使用,丌得在课程以外范围散 播,违者将可能被追究法律和经济责仸。
课程详情访问炼数成金培训网站
关于逆向收费式网络的详情,请看我们的培训网站
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
课程介绍
课程内容
– 本课程从平台管理、数据访问、数据可视化、数据安全等企业级数据平台视角全面审视大数据平台 – 以商用大数据产品BigInsights为基础深入剖析商用大数据平台的企业级特性和应用实践
App Timeline Server
Kafka
Management node 4
Big SQL Headnode Big SQL Scheduler Hive Server (MySQL) MySQL metastore Hive/Oozie metastore WebHCat Server Data Server Manager GPFS Node
Management node 6 Knox BigInsights Home BigSheets Big R Text Analytics GPFS Node
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
关于模式你能想到什么?
一切皆有模式!
企业级大数据平台实践 第一版 讲师 廖安舟
课程提纲
– 第1课 企业级大数据平台需求概览; BigInsights发展叱与功能介绍
– 第2课 企业级大数据分析平台架构专题:什么样的需求决定什么样的平台架构;BigInsights集群搭建
– 第3课 如何构建安全的企业级大数据平台
– 第4课 数据探索数据可视化专题:BigSheet
– 第5课 成熟稳定的数据访问接口:BigSQL
历叱数据查询系统
– 存储海量历叱数据(PB级) – 提供标准SQL访问接口
增强型数据仓库平台
– 海量非结构化数据的存储和处理 – 与现有数据仓库系统的融合 – 高阶数据分析服务和应用
综合大数据分析平台
– 多元数据处理平台 – 高级数据建模分析 – 精准营销推荐系统
企业级大数据平台实践 第一版 讲师 廖安舟
– 第6课 分布式机器学习算法库和运算框架:BigR
– 第7课 解析自然语义的文本分析组件:Text Analytics
– 第8课 企业级大数据平台数据治理专题
– 第9课 企业级大数据平台的平台管理:多租户与扩展文件系统
– 第10课 企业级大数据平台设计实例: 可解析自然语义的企业级舆情分析系统
注意事项
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
企业大数据平台构组件分布示例
管理节点的设计至关重要!
直接影响高可用、安全性和性能等。
推荐的管理节点个数
非HA环境
Management node 1 Ambari PostgreSQL Knox Zookeeper Hive Spark
平台架构的组网选择
数据网络
– 集群节点乊间构成的私有网络 – 可包含边缘节点服务器
管理网络
– 所有节点的管理入口(例如:ssh, VNC,监控等) – 可直接接入外部管理网络或通过边缘节点接入 – 与外部管理平台集成
边缘节点
– 平台与外部网络连接的边缘节点 – 负责网络路由、数据交换、服务连接入口等
缓冲区• 信息抽数取据文
缓存表
Load 文件
• 文本分析件
• 概要统计
• 汇总分析
• 数数据据摄建入模
• 数据交互 – SQL, R, Python
BigSheets…
• 数据探索
• 在•线数可据视查化询(ESTQLL)
数据分析
昂贵的数据库
数据仓库 分析仓库
企业级大数据平台实践 第一版 讲师 廖安舟
优化CPU和内存配比
– Intel E5-2600 v3 CPU, 最高36 Core – DDR4 2133 MHz, 最高1.5 TB – 每个机柜CPU高达720核,内存30TB
高可用选项
– 热插拔硬盘及冗余供电模块 – 散热模块设计 – 硬件监控和管理
DATAGURU专业数据分析社区
Management node 1 Ambari PostgreSQL Spark Spark History Server GPFS Master
HA环境
Management node 2 Resource Manager NameNode (standby) Journal Node Zookeeper Oozie Ambari monitoring service
DATAGURU专业数据分析社区
企业大数据平台架构设计目标
区域划分:开放域/管理域/计算域 开放域
架构设计目标
– 高可用:防止单点故障的发生 – 安全性:公开节点、内部私有节点和私有网络 – 高性能:根据负载类型做最大的资源优化
管理域
计算域
企业级大数据平台实践 第一版 讲师 廖安舟
涉及物理节点的角色划分和服务组件的分配(下页继续)
企业级大数据平台示例 – IT操作风险预测系统
日志数据
z/OS Syslog DB2 zOS Sub-sys logs
WAS logs Oracle (Alerte.log)
Linux Syslogs IMS Sub-sys logs
告警数据
Netcool Alerts File System Monitoring
Management node 3 Resource Manager (standby) NameNode Job history server Journal Node Zookeeper App Timeline Server Kafka Oozie (Standby)
Management node 3 NameNode Job history server Zookeeper
DATAGURU专业数据分析社区
大数据:企业关注的焦点和数据来源
/common/ssi/ecm/en/gbe03519usen/GBE03519USEN.PDF
DATAGURU专业数据分析社区 企业级大数据平台实践 第一版 讲师 廖安舟
业务+数据 决定大数据平台架构类型
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
炼数成金逆向收费式网络课程
Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业 务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式 。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把 天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力 量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低 成本传播高价值知识,构架中国第一的网上知识流转阵地。
Management node 4
Big SQL Headnode Big SQL Scheduler HBase Master (standby) Hive Server MySQL Server Hive metastore WebHCat Server Data Server Manager
Management node 5 Big SQL Headnode (Standby) Big SQL Scheduler (Standby) HBase Master Hive Server (Standby) Hive Metastore (Standby) Journal Node Zookeeper
数据仓库
• 优化的数据访问- BigSQL
昂贵的数据库
数据仓库 分析仓库
ETL
数据分析
企业级大数据平台实践 第一版 讲师 廖安舟
ETL
DATAGURU专业数据分析社区
模式4:Hadoop ODS平台
Hadoop存储和运算区
昂贵的数据库
导出
数据源
缓冲区
数据文
缓存表
Load 文件
件
• 针对终端应用的优化:高扩展特
DATAGURU专业数据分析社区
平台负载类型 决定硬件配置
海量数据存储 混合负载 数据中心
企业级大数据平台实践 第一版 讲师 廖安舟
优先保证数据节点的存储空间
– 12 Gb/s vs. 6 Gb/s SAS盘 – JBOD& RAID – 每个数据节点84 TB(含6TB HDD) – 每个机柜(rack)高达1.6 PB的存储空间
企业级大数据平台实践 第一版 讲师 廖安舟
DATAGURU专业数据分析社区
第二课 企业级大数据平台架构 提纲
企业级大数据平台架构决策要点
– 硬件的选择 – 功能组件的选择 – 其他要点
BigInsights集群安装练习
– 第二课作业说明 – BigInsights安装练习