当前位置:文档之家› 大数据企业架构讨论

大数据企业架构讨论

大数据企业架构讨论


案例研究:智慧交通
大数据实时处理和分析
目的:提高城市交通的科学管理和组织服务水平
业务目标
传感 器
• 压力传感器 • 速度传感器 • 生物传感器 • 温度、湿度……
RFID
• 射频天线扫描 • 电子标识
• 智能交通数据的有力支撑 • 智能交通公共信息服务的实时传递和快速反 应的应急指挥 • 智能交通业务联动快速应对变化 • 可视化事件跟踪
摄像 头
挑战
• 高速拍照 • 高清摄像头
• 近千万辆轿车、轨道交通、快速公交系统 • 高并发事件及数据流的实时处理 • 海量非结构化大数据的组织与分析


智能交通整体规划架构
信息服务
用户服务
政府
企业
公共
个人
ITS智能交通物联网平台
城市综合信息管理平台 铁路综合管理平台 水运综合管理平台
应用层/ 信息处理
公路可视化综合信息平台
公共交通运营管理平台
雷达测速 通信 监控 GIS 信号 电警 车次号识别 ETC CBTC 紧急救援 接处警 卡口 视频监控 PIS 事件检测 交通诱导 BRT 路径识别 信号控制 旅行时间 出行者信息系统 电子站牌 智能停车场 公交调度管理
车地双向实时无线通信网数传电台 政府专网 Internet
网络层/ 信息传输
GPRS/CDMA/3G/Wi-Fi/WiMax光纤TCP/IP
感知层/ 信息采集
交通行业
3


数据是智能交通的核心
数据获取
数据传输
数据处理
数据获取
• 低延时 • 高并发的交易 • 高度灵活的数据结构
数据传输
数据处理
• 深度分析 • 敏捷开发 • 高度扩展性 • 实时分析结果
•大吞吐量 •实时准备 •所有的数据源及数据结构
4


Discussion
People. Process. Portfolio.


实时事件处理 — 概念图解
实时
NoSQL
流 (CEP 引擎)
• • • •
警报 BPEL 移动 信息板 数据库
业务场景 • 重要车辆监控 • 交通诱导 • 出行者信息 • 技术机遇 • 实时处理大数据量 • 合并历史事务和实时事务 架构决策 • 实时流 • 利用现有分析 • 最大限度地减少数据移动
批处理
HDFS


实时分析数据流
历史数据源 实时数据源 计算配置文件 事件处理 规则和结果
外部数据库
黑名单
小型机
Hadoop 集群
历史事务
备份
历史配置文件
RDBMS
实时事务 (基于消息) NOSQL
CEP
事务
RDBMS
实时位置


关联和分析 — 概念图解
HDFS
业务机会 • 行车路线建议 • 信号控制 • 交通流量分析
技术选择 • 将缩减结果集成到关系数据 库 • 构建另一个环境 • 手动关联 架构决策 • 使用集成元数据 • 使用标准 BI 平台 • 最大限度地减少数据移动
数据仓库
MapReduce
数据库中的 分析
BI 平台与分析
NoSQL
数据集市


实时处理和分析 — 逻辑图解
关键组件
消息流 CEP/SOA Coherence
• Oracle 大数据机 • Oracle Exalogic • Oracle CEP/Coherence • Oracle SOA Suite
Oracle Exalogic HDFS 和 NoSQL MapReduce
Infini
Band
Oracle Advanced Analytics InfiniBand
• Oracle 大数据连接器
Oracle BI
• Oracle Exadata • Oracle Advanced Analytics
Oracle 大数据机
Oracle 大数据连接器
Oracle Exadata
Oracle Exalytics
• Oracle Exalytics
• Oracle BI Foundation


Discussion
People. Process. Portfolio.


问题
•请为自己公司/单位设计一个大数据的解决方案。

分组讨论结束之后,每组派一到两个代表上来讲一下这个方案•A) 公司里存在哪些数据
•结构化/多结构化/大小/实时数据/流式数据
•公司是否已经应用了非关系型数据库
•B)那些业务考虑引入大数据
•C)有了这些大数据,如何设计公司的大数据平台
•D)公司数据的问题或者远景
•企业的数据架构远景
案例:Facebook数据仓库架构
Hadoop@Facebook
世界上第二大Hadoop集群
用于处理 log 和dimension data
Use Case
•从大量数据中产生每天和每小时的汇总.
•在历史数据中执行 ad hoc jobs
•事实上作为一个长期的数据归档
•根据特定属性来查找log, 可用于维护站点的
一致性,保护用户免受垃圾邮件影响
Hadoop Map/Reduce实时分析—真实情况
“With the paths that go through Hadoop [at Yahoo!], the
latency is about fifteen minutes. … It will never be true
real-time..” (Yahoo CTO Raymie Stata)
Hadoop/Hive..Not realtime. Many dependencies. Lots of
points of failure. Complicated system. Not dependable
enough to hit realtime goals ( Alex Himel, Engineering
Manager at Facebook.)
"MapReduce and other batch-processing systems cannot
process small updates individually as they rely on creating
large batches for efficiency,“ (Google senior director of
engineering Eisar Lipkovitz)
实时分析—传统的分析应用
•垂直扩展(Scale-up)数据库
–使用传统的SQL数据库
–使用存储过程生成事件驱动报表
–使用闪存盘,以减少磁盘I/O
–使用只读副本横向扩展(Scale Out)只读查询•限制:
–无法写扩展
–昂贵的成本(HW&SW)
实时分析— Complex Event Processing(CEP) •当数据到来时立即处理数据
•维护内存数据窗口
•优势:
–延迟极低(mS级)
–相对低的成本
•劣势:
–难于扩展(横向扩展局限)
–不敏捷(查询必须预生成)
–实现非常复杂
实时分析— In Memory Data Grid •分布式内存数据网格
•横向扩展(Scale out)
•优势:
–读/写可扩展
–适合事件驱动(CEP style),ad-hoc查询模式
•劣势:
–相比磁盘,内存成本昂贵
–内存容量有限
实时分析— No SQL
•使用分布式数据库
– Hbase, Cassandra, MongoDB •优势:
–读/写可扩展
–海量数据支持
–弹性
•缺点:
–读延迟,实时性差
–弱数据一致性
–不成熟-非常新的技术
Facebook实时分析系统(实时+批量)
PTail
Puma3
Facebook实时分析- Put all together
•内存数据网格
•实时处理网格
–轻量级事件处理
–Map-Reduce
–事件驱动
–代码随数据执行
–基于交易
–安全
–弹性
NoSQL数据库
–低成本存储
–读/写扩展能力
–动态扩展
–裸数据和汇总数据
部分网站大数据实时分析架构
Storm + Pig + Vertica +Cassandra+ MySQL
S4 + HBase/Cassandra + MySQL
Kafka + Dynamo + MySQL。

相关主题