当前位置:文档之家› 大数据平台最佳实践

大数据平台最佳实践


DCN网络接入 路由器
接入路由器
DCN网络IP承载网A省客服系统 采集系统 产创平台
B 省
客服系统 采集系统 产创平台
X 省
客服系统 采集系统 产创平台
SGSN
Gn口
GGSN
SGSN
Gn口
GGSN
SGSN
Gn口
GGSN
两路x86服务器(基于Intel® Xeon E5600系列处理器) NameNode节点:3台 DataNode(数据存储节点): 178台 Zookeeper节点:7台 集群监控节点:1台 入库服务节点:24台 Web查询应用服务节点:20台 网络交换设备 机框间通过万兆交换机连接, 以完成快速的数据交换 Intel® Hadoop发行版 满足高性能的数据导入和快 速查询。 稳定、易于部署和管理的企 业级方案。
Low
Value
Time
Negative
• 大数据高价值的重要体 现-处理速度
Source: IDC Digital Universe Study, sponsored by EMC, May 2010
数据的多样性
• 数据形式的多样:
– 结构化数据 ,数据间有很强的因果关系 – 半结构化数据 ,数据间因果关系较弱 – 非结构化数据, 数据间无因果关系
系统部署
DataNode and RegionServer
Intel’s Distribution of Hadoop
系统部署
NameNode节点
Zookeeper
核心交换机 查询接口服务器
核心交换机 FTP传输及入库
负载均衡器
核心交换机
核心交换机
负载均衡器
核心交换机
核心交换机
防火墙
防火墙
防火墙
防火墙
当数据集和索引变大时,传统关系型 数据库如Oracle、Sybase,在对大规 模数据进行操作会造成系统性能严重 下降,因为在处理数据时SQL请求会 占用大量的CPU周期,并且会导致大 量的磁盘读写,性能会变得让人无法 忍受
成本
小型机+高端存储 + 关系数据库 成本导致扩展困难
移动用户上网记录集中查询与分析支撑系统
全国集中的一级架构,电信行业首次将Hadoop/HBase引入到商用电信服务系统建设中
系统 构成 系统采用全国集中的一级架构方案进行建设,主要包含数据采集子系 统、数据入库子系统、数据存储子系统、数据查询与分析子系统
解决 方案
基本 技术
采用Hadoop/HBase作为上网记录存储方案 采用MapReduce/Hive作用统计分析和数据挖掘工具
Flat file
• 数据来源的多样性:
– – – – 不同的应用系统 各种设备 互联网 其它
Source: IDC Digital Universe Study, sponsored by EMC, May 2010
创造显著业务价值(VALUE)
大数据分析
3V特性驱动下创建
显著的业务价值
挖掘数据资产价值,通过数据驱动业务,变 成本中心为利润中心
Aggregated/Enriched
Summary/Interactive
提纲 • 大数据带来的挑战 • 大数据案例介绍 • Intel大数据平台
联通3G详单查询-问题来源(1/2)
随着移动互联网业务的发展,上网记录查询成为用户投诉的焦点
目前,中国联通省分公司3G客户数据流量问题争议占3G业务投诉达710%,且近几个月呈上升趋势,个别省分比例高达20% 一些用户对3G业务流量产生及计费方式不了解,主观认为自己未使用 或使用较少数据流量,要求运营商提供上网记录,而现有系统不具备 此功能,从而导致投诉升级。
Hadoop Cluster (Hundreds of TB’s to PB’s)
• • Direct query Direct Modeling
Applications and Tools (Modeling on 100’s of TBs to PB’s)
SemiStructured Data
Historical/Archival/Event Level
过车记录
每秒钟 每小时 每天 每月 三个月
单个区数据中心
~ 6MB/s ~20GB/hour ~480GB/day ~14.4TB/month ~43.2TB/3months 1200 条记录/s 432万条/小时 1亿条/天 30亿条/月 90亿条/三个月
全市数据总和
120MB/s ~400GB/hour ~9.6TB/day ~288TB/month ~0.8PB/3months 24000条记录/秒 8640万条/小时 20亿条/天 600亿条/月 1800亿条/三个月
数据 存储
关键性 能指标
数据 查询
上网记录入库时间:一般小于30分钟,实际约10分钟 具备存储全国移动用户不小于6个月的原始上网记录能力 历史5个月+当前月 统计分析的中间报表数据保存不小于5年 上网记录查询速度:不高于1秒(不含用户访问查询页面的时间) 支持并发查询数目:1000请求/秒
提供高效的计算芯片、存储、I/O、网络技术,加速大数据价值挖掘与 提高决策反应
基于x86平台,提供最优的软件和工具,推动大数据应用的部署和创新
促进大数据生态系统的建设,与广泛的合作伙伴合作,与中国共成长
© Copyright 2011 EMC Corporation. All rights reserved.
智慧城市-典型的大数据应用集合
2014-1-29
8
大数据处理导致的平台瓶颈
大数据处理 需要的扩展 能力
数据处理需求与 传统平台硬件扩 展的差距不断扩 大
Industry Progress
大数据分析不同于传统BI分析
问题来源
3G流量费争议占总咨询投诉量比率
联通3G详单查询-问题来源(2/2)
上网记录查询对中国联通的业务发展产生了较大的影响
某iPhone合约计划用户,在凌晨零点到4点之间手机产生巨额流量费 在其得知因受计量设备限制无法向其提供数据流量去向后,竟上升到 司法诉讼层面
案例
影响
对用户而言: “…要是能查到流量是和谁发生的就好了,如果是手机的问题, 我也才知道今后怎么防范,现在连防范谁都不知道,谁知道下次 还会不会发生类似问题?‖ 对运营商而言: 根据中国联通客户服务部门提供的数据,目前移动业务每万元收 入,因无法提供上网详单造成的退费和赔付约60.1元; 如果问题得不到根本解决,将会影响运营商按流量计费的资费模 式,对运营商3G业务的开展将产生较大影响 用户上网记录数是个海量数据,不仅投资巨大,传统的电信业解 决方案根本无法提供该服务
违章车辆图片数据
每小时 每天 每月 三个月
单个区数据中心
~ 1.8GB/h ~43.2GB/day ~1.2TB/month ~3.6TB/3months
全市数据总和
36GB/h ~864GB/day ~24TB/month ~72TB/3months
基于英特尔Hadoop技术方案
– 解决了海量过车信息 (结构文本+图片)存储 问题。 – 解决了分布式数据查询 问题。 – 系统提供了易于使用的 API,方便进行二次开发。
– 系统做了较多优化,性 能很好的满足了项目的 实时性要求。 – 系统的稳定性好。
某市智慧交通信息系统架构
基于海量数据进行车辆轨迹分析
实时路况信息
区域号牌管理
碰撞分析
。。。。。。。。。。
某市智慧医疗
提纲 • 大数据带来的挑战 • 大数据案例介绍 • Intel大数据平台
企业大数据平台构建中英特尔的角色
面临的挑战
– – – – – 年过车信息数据量达数百亿级记录规模 市局和区县的数据中心两级架构,分布式存储,集中管理。 支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、 车牌颜色、车速范围、车长范围、号牌段范围、时间范围。 支持海量过车信息的模糊匹配检索。 支持各种统计分析、数据挖掘:车辆违章率统计、过车识别率统计、套牌分析、关联性分析、 黑名单等
难点分析
上网记录是海量数据
用户每月的上网记录约几万至数十万
在Gn(SGSN与GGSN之间)接口上部署采集设备来生成用户 上网记录 用户手机访问一次网页,约会产生数十条,甚至数百条请求 ,意味着产生数十条和数百条上网记录 访问手机新浪网首页,约产生20条记录 访问新浪iPad首页,约产生40条记录 在iPad中看一条新浪新闻,产生超过180条记录 访问淘宝触摸屏版,约产生60条记录 大量的DNS查询、推送服务记录(如苹果通知服务)等 以中国联通某省分公司为例,日均上网记录数近10亿条,每 月数据量近9TB,31个省份数据量12T/day
移动用户上网记录集中查询与分析支撑系统
建设上网记录集中查询与分析支撑系统意义重大
查询
为客户服务人员提供客户上网记录快速查询服务,解决流量投诉问题 为用户提供准实时的异常大流量上网记录自助查询服务
分析
对数据流量进行统计 终端分析:iPhone、iPad、其他智能手机分布,新终端推广效果分析 热门流量、热门网站(业务) 网络分析: 2G/3G基站流量分析,网络优化 数据挖掘 根据流量分布,分析用户群特征 提供套餐设计参考,优化用户体验 通过感知业务态势,制定市场策略,指导业务产品开发,为市场营 销提供丰富的数据支持
Big Data
Big
——大数据处理离不开云
大数据时代-数据爆发性增长
统计、分析、预测、实时处理
IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB (1ZB = 10亿TB)
相关主题