当前位置:文档之家› 从非结构化数据到大数据(Big Data)整体解决方案

从非结构化数据到大数据(Big Data)整体解决方案


大数据对部分经济领域的影响
-数据来源:麦肯锡经济研究院
相关经济领域
主要影响
美国医疗服务业 全球个人位置数据 美国零售业 制造业 欧洲公共部门管理
每年价值3000亿美元 大约0.7%的年生产率增长
服务提供商收入1000亿美元或以上 最终用户价值达7000亿美元
可能的净利润增长水平为60%或以上 0.5-1.0%的年生产率增长
应用服务器
日志和网络行为 收集服务器
NoSQL DB 网页,图像 视频存取
DB Loader
Oracle RAC 汇总和发布结果信息 供商业分析
Hadoop 集群 批量分析与处理
甲骨文大数据战略—聚焦企业级分析
Oracle Big Data Appliance
Oracle Exadata
Oracle Exalytics
VARIETY
VELOCITY
1011001010010010 0110101010101110 0101010100100101
VALUE
3亿用户,每天 中型城市每月数十 上亿条微博 亿智能电表数据
2015年全球移动终端产 生的数据量6300PB
• 多结构化数据 Variety • 文本/图片/视频/文档等
数据多样性
非结构化 模式灵活
HDFS
Oracle NoSQL DB
结构化模式化
信息密度
Oracle (OLTP)
获取
Hadoop
R
Spatial Graph
Oracle (DW) Oracle MR
Oracle Advanced Analytics (ODM & ORE)
OBI EE
组织
分析
NoSQL
非/半结构化, 条形码, GPS, 图片, 医疗记录……
微博, B2B,B2C, 工业实时 监控, 全球定位……
急速的数据生成 :
RDBMS ?
什么是大数据?
具有4V特性的数据称为大数据
• 巨大的数据量 Volume
• 集中储存/集中计算已经无法处理巨大的数据量
VOLUME
SOCIAL
BLOG
SMART METER
NoSQL是什么? Not Only SQL
基于廉价PC服务器
强调高吞吐、 高并发、高可 用、高分区容
错性
分布式海量数 据存取和处理
解决方案
产品众多
100+,没有 标准
NoSQL
数据格式灵活 多变,模型简 单,关系偏弱
大数据,大架构
决策
获取
分析
组织
挑战:
利用 协同效应
Oracle大数据解决方案
灵活、特定 开发为中心
SQL
安全、可靠 管理为中心
2011年Oracle Open World宣布推出
Oracle 大数据机服务器 (Big Data Appliance)
• 软硬一体优化集成的大数据分析服务器 • 集成最优的开源大数据处理解决方案 • 全面的大数据处理分析软硬平台
Oracle 面向大数据的集成解决方案体系
确定用户
低延迟
查询用户
profile
位置查询
NoSQL DB
实时: 针对用户的最佳投放
专家系统
HDFS
日志, 推特 位置
NoSQL DB
预测购买 行为
打折信息 投放
大数据集缩减
BI 和分析 POS
批处理
用户信息
案例: 智慧商场数据流图
NoSQL 查询
信息收集
确定用户
投放打折
决策
Big Data Appliance
产品年价值2500亿欧元 大约0.5%的年生产率增长
传统DW难以处理大数据
• 传统DW系统不适用于大数据的分析
• 数据量过于庞大 • 绝大部分大数据是垃圾 • 大数据的多样化格式
• 需要革新性的技术手段
• 海量数据“分而治之”------批量分布式并行计算Hadoop • 海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL • 海量数据“跨越鸿沟”------大数据超高速装载进数据库
你数1号书架,我数2号 书架。我们人越多,数 书就更快。这就是map。
……
一号书架 二号书架 三号书架
Map N号书架
最后我们到一起,把所 有人的统计数加在一起。 这就是Reduce。
+ Reduce ……
对海量非结构数据的这样一种分布式并行处理架构,就是Hadoop的实质, 与我们熟悉的数据库技术不同
20-25
F
Cinema
20-25
M
Sportware
25-30
F
Beauty Salon
C实2E5时P-3探0投测送目用标户M用感户兴进趣C入的off辐促ee射销Sh圈o广p就告
30-35
F
Clothing Store
给音乐爱好者投放演唱会信息
11
基于用户360度全面画像的精细化经营
智慧商场技术架构
BI
还可以做的:
针对小章进行
精准营销,推
送相关奢侈品、 旅游的,商家联 - 给予小章信用卡金卡 盟전信략구息분 - 额度上升到每月10万 - 提供美金自动购汇服务

实时BI分析

- 结合big data和

OLTP的信息进行
总 数 据
汇总数据的OLAP 实时分析



分 析
行业大数据应用
• 美国百货商店购物-监管摄像头监控客户的一举一动,几分钟以后,走过 的过道、挑选和放下的产品、购买的东西以及捕捉表情瞬间的视频将会被 发送至印度班加罗尔的一家数据分析公司Mu Sigma • 沃尔玛数据中心的存储能力超过4PB; Sabre分析航线及销售渠道、客 户行为模式等信息 • eBay分析平台每天处理的数据量高达100PB • 脸谱(Fa•电商大数据应用,电信、金融、能源、零售等行业的广泛应用;淘宝-一 淘网比较,每天活跃数据50TB
• 增长速度很快 Velocity • 海量数据的及时有效分析 • 用户基数庞大/设备数量众多/实时海量/数据指数级别增长
• 价值密度低Value • 单条数据并无太多价值,但庞大的数据量蕴含巨大财富
2011-大数据年-数据厂商拥抱大数据
• Oracle – Cloudera • EMC – MapR • Microsoft – Motonworks • IBM - …Cloudera
InfiniBand
InfiniBand
捕获
组织
分析
决策
驯化大数据为业务服务
Big Data Appliance一体机 ---- Hadoop + NoSQL+硬件
• 硬件部分
• 18 Sun X4270 M2 服务器 • 每台2 CPUs * 6核 • 每台48 GB内存(可扩展) • 12 * 3TB 磁盘空间
用户移动轨迹和精准用户群集分析应用
选取目标客户群体
CDR User Profile
大数据分析 企业选址,广告推送建议
10
实时精准营销 ->只给最近的你
根据用户上网日志,零售消费记录, 给用户打上消费喜好标签
Age Range Gender
Preference
15-20
F
Desert
15-20
M
Video Game
NoSQL : 分布式,小数据集,灵活,实时,快速读写 +120
Hadoop是什么?
基于廉价PC服务器
一个分布式 文件系统
一个开源 项目
一个分布式 计算平台
一个 Map/Reduce
框架实现
Hadoop到底是什么?--- 核心是Map/Reduce
例: 我们要数图书馆中所有书名中含“Oracle”的数量,怎么数效率最高?
Edition ***
• Oracle Big Data Connector ***
• ODI Adapter for Hadoop • Oracle Loader for Hadoop • Oracle Direct Connector for HDFS • Oracle R Conenctor for Hadoop
以某银行审批新的信用卡申请为例
小章作为某银行的 老客户,需要申请 一张新的信用卡
DW
OLTP

银行内部员工通过

CRM等系统查询一

下内容:

- 过去的借记卡交易
信息
- 过去的信用卡交易

信息

得到关于小章的相关 信息:
- 过去的消费行为
- 过去的还款能力
- 性别、职业等个人特 征
展社 现交
信 息 以 形 式
从非结构化数据到大数据(Big Data)
李珈 技术总监
您所面对的是……
非结构化数据75%~85%,2020 – 35.2ZB
丰富的数据来源:
Web2.0, 电子零售, 传感 器读数, 智能终端……
Internet, 企业内网, 传感 器网络, GB/TB/PB级……
海量的数据总数:
多样的数据结构:
为什么选择Oracle大数据体系?
• 全面的大数据解决方案+众多的客户实践
– BDA + Exadata + Exalytics+云应用
• 软硬一体预集成
– 软硬一体,工程化调优 – 全集成系统,完整机柜,插电即用 – Infiniband
• 全套商业支持
– 开源软件商业支持 Hadoop – 操作系统商业支持 Linux – 硬件商业支持 Sun x86
相关主题