当前位置:文档之家› 大数据自助式分析解决方案

大数据自助式分析解决方案


企业采购数据 企业运营数据 企业收入数据 企业支出数据
ETL处理 ETL处理 ETL处理 ETL处理
相关行业数据
ETL处理
材料数据 产品数据 合同数据 盈收数据
汇总数据 结构数据 计算数据 预测数据
ORACLE ORACLE
ORACLE ORACLE


优势: 技术人才可以复用。
报 表
决策人员

支撑总数据量100TB,且100GB以下数据实时多维度数据的分析。 开发效率比较高。
Oracle/Mysql StreamInsight
MMPMIPIPI
MapReduce
...
Hadoop Cluster
Oracle/Mysql FTDW Data Marts
Oracle/Mysql Reporting Services
strom
ETL with SSIS, DQS, MDS
ERP CRM LOB APPS

相信相信得力量。20. 10. 162020年10月16日星期五6 时49分1 6秒20. 10. 16
谢谢大家!

告警数据
超过20
H件adoop组大数据基础组件
单个数据节点,热数据不要超 过1T
MPI
需要40个维度以上,复杂 数据挖掘与分析
匹配数据内存与CPU
节点计算公式
单个节点
内存
8G-16G
CPU 数据提取能力(M/分钟) 数据处理量预计维度10个(M/分钟) 处理步骤复杂度 数据网络与数据交换系数
处理为1G,预计时间(分钟) =(1024/D5)+(1024/D6)*D7*D8
Ma hou
t
数据挖 掘
报表统 计
劣势:
......
动态报 表
......
HDFS
需要专业的方向性人才处理 HDFS STORM MAHOUT
朱成 保
企业数据及商业智能平台的进化
-未来
OA
大数据存储
数据仓库
分析
CRM
ERP 视频、语音、图
片......
数据流
存储

数据集市
据 服
应用

多维度存储 服务


✓角色>云计算,数据模型设计

骨髓
硬件存储和计算能力
✓举例>Hadoop,HPCC和NoSQL等 ✓角色>硬件平台,集群部署
大数据平台总体架构
Big Data Sources (Raw,
Unstructured)
Sensors Devices
Bots
redis
Crawlers
Alerts, Notifications
数据已结构化数据为主
现在:
新平台改造:Hadoop(10)+redis(2)+mysql(4)
硬件故障从原来的半小时监控,提升到现在,故障预先告警,发生故障的2分钟告警到用户,分析决策 效率大大提高
支撑现在数据有50+(采集点)*500+(采集源),每秒处理并发数实时数据2000条
每天处理数据量实时数据200G,历史综合数据1T。
2.5Ghz 480 35 2.4 1.4
100.4373333
1G数据,期望完成时间(分钟) 需要节点数 =D9/D11
10 10.04373333
总结
• 大数据解决方案:
• 业务能力:
• 访问任意数据源(关系型数据库、Hadoop、非结构化数据) 的数据整合平台
• 低成本的数据价值洞察平台
• 技术能力:
Ambari (平台管理)
Zookeeper (平台配置与调度)
Hcatalog (元数据管理)
Sqoop (数据集成)
HBase (数据存储)
HDFS (文件存储)
应用数据
数据库
日志
其他数据源
HADOOP优势
-
实际案例一 智慧能源
背景:
客户原来是从事硬件研发,每年营业额在5000万左右,随着企业规模的扩展,领导觉得对硬件设备 的故障告警不够及时。对现有的历史数据没法进行数据整合与挖掘。导致决策迟缓,故障不能够预设 告警。
• 结构化、半结构化、非结构化数据的处理能力

树立质量法制观念、提高全员质量意 识。20.10.1620.10.16Friday, Oct ober 16, 2020

人生得意须尽欢,莫使金樽空对月。18:49:1618:49:1618:4910/16/2020 6:49:16 PM

安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1618:49:1618:49Oct -2016-Oct -20
Source Systems
Oracle/Mysql Analysis Server
Business Insights Interactive Reports Performance Scorecards
组件选型标准
重要组件选择标准
节点数量设计标准
Redis组 是否有基础分析实时监控 单个Redis节点数据容量不要

加强交通建设管理,确保工程建设质 量。18:49:1618:49:1618:49Friday, Oct ober 16, 2020

安全在于心细,事故出在麻痹。20.10.1620.10.1618:49:1618:49:16Oct ober 16, 2020

踏实肯干,努力奋斗。2020年10月16日下午6时49分 20.10.1620.10.16

追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五下午6时49分 16秒18:49:1620.10.16

严格把控质量关,让生产更加有保障 。2020年10月 下午6时 49分20.10.1618:49Oct ober 16, 2020

作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五6时49分16秒 18:49:1616 Oct ober 2020
ERP/CRM

联系人

订单跟



销售管



数据复杂度:多元性和速度
社交网 络
音频/视 频 WWeebb 22..00
WWeebb 日日志志 数数字字市市 场场 搜搜索索市市 场场 网网上上推推 荐荐
Big Data
日志文件 空间 & GPS 坐标数 据 数据集市 电子政务 气候 文本/图像
大数据解决方案-大型数据库(ORACLE)
数据仓库

应用
oracle


其他
服务
使用
大数据解决方案
-大数据的一些疑问
数据构成?
数据运算维度数量?
Hadoop = Big Data?
思想
业务创新和算法能力
✓举例>决策分析,销售分析,为企业的整体发展战略创造价值 ✓角色>数据挖掘,决策分析,销售分析
血液
数据建模和管理能力
“ 大 数

✓举例>成熟的分析、视觉化以及数据管理的全新生态系统
现在:
客户平台构成:Hadoop(40)+oracle(4)+mpi(6) 每天分析数据维度100个,1T数据,要求2小时完成复杂数据挖掘分析。
企业数据及商业智能平台的进化
-某国企统计分析
话单数据源 LBS数据源 网络数据源 其他数据源
大数据存储 (40)
MPI密集分布式 计算(6)
存储
分析


好的事情马上就会到来,一切都是最 好的安 排。下 午6时49分16秒 下午6时49分18:49:1620.10.16

一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1618:4918:49:1618:49:16Oct -20

牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五6时49分 16秒Fri day, Oct ober 16, 2020
开发成本比较低。

产品稳定,后期维护简单。
计 报
用 管理人员



业 报
务 分析人员


劣势: 技术储备要求高

业务人员 高昂的硬件投资

并行扩展非常困难。

对海量的实时多维度分析,基本不能支持。

大数据解决方案-分布式数据库(MYSQL)

企业采购数据



材料数据
汇总数据
企业运营数据
ETL处理
大数据&自助式分析解决方案
议程
• 大数据解决方案 • hadoop的优势 • 实际过往案例 • 自助式分析方案
大数据企业品牌腾飞的“肾上腺素”
Petabyte s
网页点击 流
Wikis/博 客
传感器
/RFID/ 设备
Terabyt
广
es

移 动
协协作作 电电子子商商 务务
Gigaby tes
Megab ytes
大数据解决方案 -业内通用解决方案(HADOOP/SPARK)
优势:
zookeeper集
技术人才储备多
企业 内部

硬件投资成本可以控制
作业调 度
决策分 析
并行扩展比较方便
系统
后期结合业务开发,实现稳定
数据
相关主题