当前位置:文档之家› 大数据自助式分析解决方案

大数据自助式分析解决方案

劣势:
盈收数据
预测数据


存储引擎接口
报 表
需要更高端的架构师。
海量数据的处理架构需 要重新开发。
存储引擎
MYSQL MYSQL
MYSQL MYSQL
后期技术实现,维护成本 高。
路漫漫其悠远
大数据解决方案
技术人才储备多
-业内通用解决方案(hadoop/spark)硬件投资成本可以控

并行扩展比较方便
路漫漫其介
大数据存储 (10)
交换机数据源 监控设备数据源
数据流
数据接入程 序
异常存储(2) redis
mysql(4) 数据仓库
分析
多维度存储

据 服
应用

其他
存储
服务
使用
路漫漫其悠远
实际案例二 互联网舆情
背景:
客户需要对互联网金融服务的服务企业和相关行业做到实时监控,并有效的挖掘互联网上的客户资源 。
企业 内部 系统
zookeeper集群
作业调 度
决策分 析
后期结合业务开发, 实现稳定
数据
HBa se
Hive
并行管 理
多维查 询
劣势:
互联 网
E
HADOOP
T
数据分 析
图表展 示
需要专业的方向性人
L
Stor m
Ma hou
t
数据挖 掘
报表统 计
才处理
HDFS STORM
......
动态报 表
......
路漫漫其悠远
企业数据及商业智能平台的进化
-互联网舆情
类结构化数据
大数据存储(15)
分析
oracle
非结构化数据源 (新闻,博客,
BBS,微博)
Hdfs,Hbase, MapReduce
数据仓库

据 服
应用

数据流(图像、 视频)
hive
其他
存储
服务
使用
路漫漫其悠远
实际案例三 大型国企
背景:
客户是一个省级运营商,需要对历史的客户话单,LBS,流量信息进行分析。 数据维度非常多,需要综合考虑的数据量比较大。
对海量的实时多维度分
资 报
析,基本不能支持。

路漫漫其悠远
企业采购数据
企业运营数据
ETL处理
企业收入数据
ETL处理
企业支出数据
MYSQL MYSQL
大数据解决方案-分布式数据库(Mysql)
优势:




材料数据
汇总数据

产品数据
结构数据


合同数据
计算数据

技术人才储备可以部分 复用。 硬件投资成本可以控制。 并行扩展比较方便。
大数据自助式分析解决 方案
路漫漫其悠远
2020/4/3
议程
• 大数据解决方案 • hadoop的优势 • 实际过往案例 • 自助式分析方案
路漫漫其悠远
大数据企业品牌腾飞的“肾上腺素”
Petabyte s
Terabyte s
Gigabyte s
Megabyt es
网页点击 流
Wikis/博 客
传感器
Shark
Storm
Spark
Mesos
Tez
Flume
Hcatalog
HttpFs
Sqoop
Map Reduce
Chukwa HBase Cassandra Accumulo
Pig
Hive
Impala Mahout RHadoop
YARN:分布式操作系统
Phoenix Drill Giraph Hama
Search Whirr
Avro
WebHdfs
HDFS:分布式存储
Zookeeper
路漫漫其悠远
路漫漫其悠远
HADOOP优势
-完善的处理流程
平台管理层
Hive (数据分析)
上层应用
Pig (数据分析)
Map Reduce (编程模型)
Ambari (平台管理)
Zookeeper (平台配置与调度)
汇总数据 结构数据 计算数据 预测数据
ORACLE ORACLE
ORACLE ORACLE

开发效率比较高。
收 报 表
统 计 报
决策人员 开发成本比较低。 应 产品稳定,后期维护简单。 劣势: 用 管理人员

行 业 报 表

服 务 分析人员

业务人员
技术储备要求高 高昂的硬件投资 并行扩展非常困难。
数据已非结构化数据为主
现在:
我公司提供相关互联网数据的爬取,并对数据初步ETL后,传入到客户。 客户平台构成:Hadoop(15)+oracle(2) 可以30分钟左右监控指定贷款客户的互联网 舆情。 可以对地区与行业进行综合评估与预测 每天发送到客户数据100G,每天分析数据维度40个,综合处理1T数据。
/RFID/ 设备
社交网 络
音频/视 频
广
协协作作

电电子子商商

务务

ERP/CRM

联系人
款 订单跟



销售管



数据复杂度:多元性和速度
WWeebb 22..00
临财勿苟得,临难勿苟 免 WWeebb 日日
志志 数数字字市市 场场 搜搜索索市市 场场 荐荐网网上上推推
Big Data
日志文件 空间 & GPS 坐标数 据 数据集市 电子政务 气候 文本/图像
HDFS
MAHOUT
朱成 保
路漫漫其悠远
路漫漫其悠远
企业数据及商业智能平台的进化
-未来
OA
大数据存储
数据仓库
分析
CRM
ERP 视频、语音、图
片......
数据流
存储

数据集市
据 服
应用

多维度存储 服务
其他 使用
Hadoop优势
-丰富的组件
Ambari/Cloudera Manager
Hue
BigTop
Hcatalog (元数据管理)
Sqoop (数据集成)
HBase (数据存储)
HDFS (文件存储)
应用数据
数据库
日志
其他数据源
HADOOP优势
-
路漫漫其悠远
实际案例一 智慧能源
背景:
客户原来是从事硬件研发,每年营业额在5000万左右,随着企业规模的扩展,领导觉得对硬件设备 的故障告警不够及时。对现有的历史数据没法进行数据整合与挖掘。导致决策迟缓,故障不能够预设 告警。
路漫漫其悠远
企业采购数据 企业运营数据 企业收入数据 企业支出数据
ETL处理 ETL处理 ETL处理 ETL处理
相关行业数据
ETL处理
技术人才可以复用。
大数据解决方案-大型数据支1库0撑0(OGR总BA以C数L下E据) 数量据10实0T时B,多且维
度数据的分析。
材料数据 产品数据 合同数据 盈收数据
现在:
客户平台构成:Hadoop(40)+oracle(4)+mpi(6) 每天分析数据维度100个,1T数据,要求2小时完成复杂数据挖掘分析。
数据已结构化数据为主
现在:
新平台改造:Hadoop(10)+redis(2)+mysql(4) 硬件故障从原来的半小时监控,提升到现在,故障预先告警,发生故障的2分钟告警到用户,分析决策效
率大大提高 支撑现在数据有50+(采集点)*500+(采集源),每秒处理并发数实时数据2000条 每天处理数据量实时数据200G,历史综合数据1T。
相关主题