当前位置:
文档之家› 基于PostgreSQL数据库构建数据中台
基于PostgreSQL数据库构建数据中台
集成任务管理
离线任务
同步任务
资源消耗监控 任务资源消耗
同步任务
数据开发
任务开发 脚本管理 任务编排
调度配置
租户管理 菜单管理
任务节点
任务发布
提交测试
脚本分类
血缘分析
脚本编辑
可视化编排
串联编排
依赖配置
调度时间策略配置
调度脚本管理
调度配置
系统管理
用户管理
角色管理
语法校验 权限管理
日志管理
同步任务
…
运维监 控
浪潮 大数据
平台
Elastic Search
…
数据集成与其他平台对比
处理延时 处理速度 有状态操作
Data Exchange 实时
50万/秒 是
使用MQ种类
ZeroMQ
SQL 支持
支持
维度汇总操作
可以
分析任务
复杂
Storm 实时
10万/秒 否
ZeroMQ 不支持 不可以 简单
Spark Streaming 准实时 3万/秒 是 Kafka 不支持 不支持 较复杂
Web IDE
桌面IDE 插件
任务流程设计器
……
数据 服 区 中
开发模块
台
代码开发
务
运行调度
版本管理
集成工具 数据源配置
集成规则 集成调度
测试工具 功能测试 性能测试 测试报告
发布工具 任务发布 节点发布 发布管理
代码库
SQL
Spark
代码构建
代码执行
打包
提交
SQL 节点执行
Spark 节点执行
计算资源
业务资源 库
规则
标签 关键 词
数据服 务
基础应用 服务
数 据 资 源 目
元 数 据
管 理备 信份 息库
库
录
数据共享 服务
数据管理 服务
大数据云总体技术架构
金融大数据服务
监管报表
企业服务
客户关系
风险管理
住房租赁
智能投顾
……
大数据云生态组件
一站式数据分析与深度挖掘服务
数据可视化
模型化业务 分析服务
报表服务
任务监控 实时预警 监控报表
任务运维
周期实例 补数据实例 任务重跑 任务视图 任务监控
数据中台技术架构
管理服务 权限控制 安全审计
计算和存储资源管理 运维管理
运维监控 运行监控 状态监测 自定义监控
调度系统 任务配置
高可用派发/执行 资源权限隔离
任务生命周期管理 任务列表管理
使用人员 数据开发工程师
弹性伸缩
自动化部署运维
托管弹性大数据基础服务
计算存储分离
资源隔离
组件高可用
开放组件管理
多租户
算法 调用
模型 托管
数据 存储
数据 处理
AI
云
平
统一
台
元数
据、
访问、
存储、
调度、
权限、
监控
数据中台总体架构
采集调度 作业调度 作业执行信息 作业资源消耗 作业重跑 补数据作业
集成数据来源 数据中心(DW) 业务源端数据
数据集成平台—数据源端支持
支持数据格式
•Delimited •JSON •XML •Free Text •Binary •Name/Value •Zipped •AVRO •Oracle GoldenGate Trail Files •Apache Log •Sys Log •Windows Event Logs •Mail Log •SNMP •CollectD •CEF •DHCP Log •WCF •+Others
检索服务
推荐服务
在线事件服务
……
统一元数据统一访问 Nhomakorabea统一存储
统一调度
统一账户与权限
全链路监控
统一数据查询搜索分析引擎
大数据云基础平台
交互查询和分析服务
数据采集
数据交换
数据集成
超大规模智能计算和存储管理服务
离线计 算
实时计 算
智能数据管理
图计算
数据仓 库
开发套 件
统一调度系统
账户 与 权限
数据 审计
全链 路监 控
基于PostgreSQL数据库构建数据中台
技术创新,变革未来
本议题将为您介绍DataSphere通过数据集成平台、数据计算平台、数据服 务平台如何在大型金融级复杂数据环境中落地数据中台,以及去Teradata 关键难点的解决之 道
• 数据集成平台 • 数据计算平台 • 数据服务平台
数据中台典型特征
接入端权 限认证
黑白名单 验证
数据校验 去重服务
实时
Kafka Sink
HDFS
批Si量nk
远程采集管理
远程状态监控
远程升级控制
远程配置管理 扩容缩容管理
批量同步(集群直连)
批量同步任 务管理
同步插件
批计算任务
实时同步
实时同步
同步调度管理
Oracle
阿里 大数据 平台
Hadoop
华为 大数据
平台
Mongo DB
4A统一认证
用户信息同步 登录权限
用户权限管理
多租户管理
资源申请 资源详情 资源销毁
数据中台业务架构
关系型数据库 非结构化存储 半结构化存储
NoSQL 消息队列
数据集成
数据源管理
数据源类型
数据源配置
数据来源
调度配置 集成任务管理
基础属性 调度依赖
资源消耗监控
数据来源
连接属性 字段映射 时间属性 连通性测试 数据去向
数据资源管理
数据融合关联
插件/多语言支持
实时计算 适配 Flink
插件Spark支持 SQL-SCAN
优化及高可用服务
Hadoop
ETL(适配器)
数据校验
处理脚本管理
插件/SQL支持 插件Flink支持 动态运维管理
Spark 集成监控
数据中台数据流向图
数据源
数据流
文件加载
Kafka Lambda
数据中台典型架构
资源目录
数据集 成
策略配置 任务管理 断点续传 数据对账 数据分发
元数据
分级分类
数据治理
数据血缘
数据标准
数据质量
数据处 理
数据 计算
标识 加工
关联
任务 调度
清洗 提取
主题 数库 据 试 验 资源 空库 间
原始 库
数据存储
统一索引库
业务库
业务专题 库
知识 库
模型
业务知识 库
业务实体 库
数据标准化—以实体对象为中心的业务主数据提炼、DMP构建,实现ID识别连接、 标签标准规范地自动化生产 建设自动化—在现有数据平台基础上,自动化构建虚拟数据集市、主题库和专题库 ,即时响应业务的快速变化 管理资产化—支持资产化视角构建及管理数据体系,适用于数据类型多样,需要统一 管理数据的业务场景 业务智能化——通过机器学习算法动态识别数据的业务特征,智能推荐业务所需要的 数据模型
查询分析 适配多种查询引擎 统一数据缓存
数据分析工程师
业务处理工程师
数据科学工程师
其他使用人员
JDBC/REST API 数据融合关联
交互分析 SQL/脚本
可视化/交互 多查询引擎适配
数据开发 统一元数据管理
离线计算 适配Hive/Spark/MR
计算优化服务
基础平台
数据仓库
数据集成 多源批量同步
数据模型管理
IoT 流
文件加载
数据集成 数据处理
融合计算
S3对象存储 云平台
数据服务
API服务
数据模型
BI分析
数据洞察
数据模型
算法模型
数据中台数据集成
数据源
网页 程序 日志 文件 服务
网络爬虫
数据源端
实时采集 Agent
批量同步 工具
实时同步
SDK
负载 均衡
智能数据管理
全链路监控
采集集群
远程采集接入
Relay 服务