大数据自助式分析解决方案
企业采购数据 企业运营数据 企业收入数据 企业支出数据
ETL处理 ETL处理 ETL处理 ETL处理
相关行业数据
ETL处理
材料数据 产品数据 合同数据 盈收数据
汇总数据 结构数据 计算数据 预测数据
ORACLE ORACLE
ORACLE ORACLE
盈
收
优势: 技术人才可以复用。
报 表
决策人员
应
支撑总数据量100TB,且100GB以下数据实时多维度数据的分析。 开发效率比较高。
Oracle/Mysql StreamInsight
MMPMIPIPI
MapReduce
...
Hadoop Cluster
Oracle/Mysql FTDW Data Marts
Oracle/Mysql Reporting Services
strom
ETL with SSIS, DQS, MDS
ERP CRM LOB APPS
•
相信相信得力量。20. 10. 162020年10月16日星期五6 时49分1 6秒20. 10. 16
谢谢大家!
件
告警数据
超过20
H件adoop组大数据基础组件
单个数据节点,热数据不要超 过1T
MPI
需要40个维度以上,复杂 数据挖掘与分析
匹配数据内存与CPU
节点计算公式
单个节点
内存
8G-16G
CPU 数据提取能力(M/分钟) 数据处理量预计维度10个(M/分钟) 处理步骤复杂度 数据网络与数据交换系数
处理为1G,预计时间(分钟) =(1024/D5)+(1024/D6)*D7*D8
Ma hou
t
数据挖 掘
报表统 计
劣势:
......
动态报 表
......
HDFS
需要专业的方向性人才处理 HDFS STORM MAHOUT
朱成 保
企业数据及商业智能平台的进化
-未来
OA
大数据存储
数据仓库
分析
CRM
ERP 视频、语音、图
片......
数据流
存储
数
数据集市
据 服
应用
务
多维度存储 服务
”
能
✓角色>云计算,数据模型设计
力
骨髓
硬件存储和计算能力
✓举例>Hadoop,HPCC和NoSQL等 ✓角色>硬件平台,集群部署
大数据平台总体架构
Big Data Sources (Raw,
Unstructured)
Sensors Devices
Bots
redis
Crawlers
Alerts, Notifications
数据已结构化数据为主
现在:
新平台改造:Hadoop(10)+redis(2)+mysql(4)
硬件故障从原来的半小时监控,提升到现在,故障预先告警,发生故障的2分钟告警到用户,分析决策 效率大大提高
支撑现在数据有50+(采集点)*500+(采集源),每秒处理并发数实时数据2000条
每天处理数据量实时数据200G,历史综合数据1T。
2.5Ghz 480 35 2.4 1.4
100.4373333
1G数据,期望完成时间(分钟) 需要节点数 =D9/D11
10 10.04373333
总结
• 大数据解决方案:
• 业务能力:
• 访问任意数据源(关系型数据库、Hadoop、非结构化数据) 的数据整合平台
• 低成本的数据价值洞察平台
• 技术能力:
Ambari (平台管理)
Zookeeper (平台配置与调度)
Hcatalog (元数据管理)
Sqoop (数据集成)
HBase (数据存储)
HDFS (文件存储)
应用数据
数据库
日志
其他数据源
HADOOP优势
-
实际案例一 智慧能源
背景:
客户原来是从事硬件研发,每年营业额在5000万左右,随着企业规模的扩展,领导觉得对硬件设备 的故障告警不够及时。对现有的历史数据没法进行数据整合与挖掘。导致决策迟缓,故障不能够预设 告警。
• 结构化、半结构化、非结构化数据的处理能力
•
树立质量法制观念、提高全员质量意 识。20.10.1620.10.16Friday, Oct ober 16, 2020
•
人生得意须尽欢,莫使金樽空对月。18:49:1618:49:1618:4910/16/2020 6:49:16 PM
•
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1618:49:1618:49Oct -2016-Oct -20
Source Systems
Oracle/Mysql Analysis Server
Business Insights Interactive Reports Performance Scorecards
组件选型标准
重要组件选择标准
节点数量设计标准
Redis组 是否有基础分析实时监控 单个Redis节点数据容量不要
•
加强交通建设管理,确保工程建设质 量。18:49:1618:49:1618:49Friday, Oct ober 16, 2020
•
安全在于心细,事故出在麻痹。20.10.1620.10.1618:49:1618:49:16Oct ober 16, 2020
•
踏实肯干,努力奋斗。2020年10月16日下午6时49分 20.10.1620.10.16
•
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五下午6时49分 16秒18:49:1620.10.16
•
严格把控质量关,让生产更加有保障 。2020年10月 下午6时 49分20.10.1618:49Oct ober 16, 2020
•
作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五6时49分16秒 18:49:1616 Oct ober 2020
ERP/CRM
付
联系人
款
订单跟
薪
踪
资
销售管
货
道
存
数据复杂度:多元性和速度
社交网 络
音频/视 频 WWeebb 22..00
WWeebb 日日志志 数数字字市市 场场 搜搜索索市市 场场 网网上上推推 荐荐
Big Data
日志文件 空间 & GPS 坐标数 据 数据集市 电子政务 气候 文本/图像
大数据解决方案-大型数据库(ORACLE)
数据仓库
据
应用
oracle
服
务
其他
服务
使用
大数据解决方案
-大数据的一些疑问
数据构成?
数据运算维度数量?
Hadoop = Big Data?
思想
业务创新和算法能力
✓举例>决策分析,销售分析,为企业的整体发展战略创造价值 ✓角色>数据挖掘,决策分析,销售分析
血液
数据建模和管理能力
“ 大 数
据
✓举例>成熟的分析、视觉化以及数据管理的全新生态系统
现在:
客户平台构成:Hadoop(40)+oracle(4)+mpi(6) 每天分析数据维度100个,1T数据,要求2小时完成复杂数据挖掘分析。
企业数据及商业智能平台的进化
-某国企统计分析
话单数据源 LBS数据源 网络数据源 其他数据源
大数据存储 (40)
MPI密集分布式 计算(6)
存储
分析
数
•
好的事情马上就会到来,一切都是最 好的安 排。下 午6时49分16秒 下午6时49分18:49:1620.10.16
•
一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1618:4918:49:1618:49:16Oct -20
•
牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五6时49分 16秒Fri day, Oct ober 16, 2020
开发成本比较低。
统
产品稳定,后期维护简单。
计 报
用 管理人员
表
服
行
业 报
务 分析人员
表
器
劣势: 技术储备要求高
投
业务人员 高昂的硬件投资
资
并行扩展非常困难。
报
对海量的实时多维度分析,基本不能支持。
表
大数据解决方案-分布式数据库(MYSQL)
盈
企业采购数据
收
报
表
材料数据
汇总数据
企业运营数据
ETL处理
大数据&自助式分析解决方案
议程
• 大数据解决方案 • hadoop的优势 • 实际过往案例 • 自助式分析方案
大数据企业品牌腾飞的“肾上腺素”
Petabyte s
网页点击 流
Wikis/博 客
传感器
/RFID/ 设备
Terabyt
广
es
告
移 动
协协作作 电电子子商商 务务
Gigaby tes
Megab ytes
大数据解决方案 -业内通用解决方案(HADOOP/SPARK)
优势:
zookeeper集
技术人才储备多
企业 内部
群
硬件投资成本可以控制
作业调 度
决策分 析
并行扩展比较方便
系统
后期结合业务开发,实现稳定
数据