当前位置:
文档之家› 电信运营商大数据平台和应用实践
电信运营商大数据平台和应用实践
网络优化
日志
+
结构化数据
决策支持 精准营销
业务创新
需要建立采集、存储、分析、交互等全方位能力,其中既包括传统已经具备的能力,也 包括需要新建的大数据能力 7
互联网公司通常采用混合架构解决大数据问题
互联网公司目前主要采用Hadoop、Streaming、RDBMS、NoSQL等技 术应对大数据4V挑战,例如Yahoo针对日志数据进行两种处理,并与业务 系统结合(后期尝试Spark技术)
电信运营商大数据平台和应用实践
提纲
• 电信运营商大数据面临的挑战 • “大云”大数据平台研发和实践
2
移动互联网用户流量激增,手机数据化、宽带化趋势明显
用户分布
流量分布
时间分布 移动互联网:通信功能 = 80:20
数据来源:Infoma 2013
数据来源:Cisco 2013
数据来源:GSMA 2013
Master
BSP Program
Run a Job
BSP JobClient
Client
Summit Job
BSP Master
ea t
产品特性
搜索引擎PageRank、最
Initialize Job
WorkerServer ZooKeeper
BSPPeer BSPPeer
WorkerServer
Google在全球多个数据中心大规模混合部署和调度数据处理能力,系统利用率高达 80%+,2011年MapReduce系统每天处理1000PB左右输入数据,支撑其核心业 务,包括搜索、广告、地图、邮件、社区等业务。针对不同的数据处理需求提供多 种数据处理系统。随着技术能力提高,将大数据处理能力服务化。 Facebook以Hadoop为基础建设了包括流计算、实时计算、离线分析在内的各种大 数据系统系统。2012年每天要处理25亿条消息、用户点击Like按钮的次数达到27 亿次、上传3亿张照片。Graph Search可以检索10亿用户、2400亿图片和1万亿次 访问。目前已经支持多区域数据同步。Facebook Puma每天处理超过200亿事件, 延迟小于30秒 Twitter利用Hadoop和Pig工具完成数据的批量分析,并进行决策支持和数据挖掘, 利用Storm每天实时推送1亿活跃用户的5亿消息 Amazon为被托管应用提供了多租户、按使用付费的大数据服务,整合了非结构化 (S3)、结构化(RDS、SimpleDB、DynamoDB)数据,通过并行计算EMR能 力,将数据放入RedShift用于最终的数据展现等目的。 9
2G、3G、4G、WIFI …
每分钟超过800万通话 每秒上网流量超过40GB
每天信令数据 超过1PB
管道数据类型多样、数据巨大、处理速度要求高,同时也存在质量问题,是电信运营商 大数据的主要来源 6
需要融合巨大的管道数据和业务数据
虽然结构化的业务数据虽然价值含量很高,但是管道数据却提供了用户的数据消费、 社交网络、行为轨迹、内容偏好等业务数据中无法提供的重要信息,这对用户刻画、 套餐设计、用户体验提升等个人和企业产品设计所需依据均有巨大帮助 A+Abis信令 Mc信令 Gn+Gb信令 Gn-IuPS信令 Wifi、Radius信令 4G X2等信令 DNS 数据 语音等业务数据
4G、M2M将大大加快移动网络数据业务和流量增长
4G驱动流量增长 M2M终端数量大幅度增长
2013年4G网络将占到全球流量的 20%,2016年将超过3G网络流量, 2018年将占据超过2/3的移动网络 流量。2013-2018年,4G流量的年 复合增长率达到82.2%。2018年数 据业务收入占运营商的份额的 47.3%
(MapReduce)
• 面向结构化数据,非结构化处理效率低
• 基于昂贵硬件(小型机+磁盘阵列)或一体机 • 硬件平台兼容性差:在跨代硬件或跨厂商硬 件环境下常常无法部署 • 扩展性达到PB级之上可选厂商较少,易绑定
• 具备结构化/非结构化混合分析的能力,大数据多为非结构化
• 基于消费级硬件,以常态化硬件故障为设计出发点,不依赖高 性能、高可靠性硬件保障系统性能和可靠性。 • 基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署 • 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署
Worker Task Worker Server Server
Heart Beat
Worker Task Worker Server Server
Worker n
/cmri/
Heart Beat
Launch Tasks
...
He
Hea
tB ar
a rt Be
云 计 算 管 理
BC-Hadoop:开源社区有很多Hadoop的发布,但是没有一项可以满足大云现有数据分析需求。 BC-Hadoop将所需的特性打包形成独特的大数据平台产品
BC-Hadoop应用,包括HugeTable、PDM、 BC-SE等
HBase 分布式NoSQL数据库
MapReduce 并行计算框架
数据业务成为运营商收入的新增长点
2013年全球移动互联网业务收入增加23.4%,达到3千亿美元。其中, 2013年Q4美国运营商的数据收入超过语音收入。
ABI Research Feb.2014
• Verizon 2013Q3的ARPU同比增长7.1%,比2010年发布4G时增长
21%。
• SKT 2013年Q3 4G的ARPU增长比综合ARPU增长超32%,竞争对 手KT则达到40%。
14
海量结构化数据存储系统(HugeTable)
IA AS
分 析 PA AS
交 易 PA AS
云 计 算 管 理
基于Hadoop的海量结构化数据存储系统,利用低成本硬件提供高性能的数据加载、索引查询 和并行分析能力,对外提供易于应用集成的数据访问接口
大容量:支持PB级别的数据存储能力 低成本:基于PC架构,不需要外接集中存 储设备 高性能:秒级别索引查询、数据并行扫描 可靠性:数据冗余备份永不丢失;全系统无 单点 可定制:根据应用需求选择索引类型及存储 引擎 接口丰富:提供标准的JDBC/ODBC/ SQL 接口;提串行Scan接口和分布式 MapReduce接口 外围工具:支持数据、性能、故障、配置、 日志管理功能;支持外部数据并行加载;支 持数据快速备份、恢复
存储引擎访问控制接口层 存储引擎
移动互联网 IDC服务 业务平台
…
PaaS 产品
数据管理/分析类
“大云”产品
实时交易类
SQL数据库 BC-RDB
IaaS 产品
计算/存储资源池
弹性计算 BC-EC
商务智能平台BI-PaaS
并行数据挖 掘工具集 BC-PDM 并行数据 抽取转换 BC-ETL 数据仓库系统 BC-HugeTable BC-BSP 数据并行框架 BC-Hadoop 数据存储和分析平台 搜索引擎 BC-SE
ABI Research 2013.09
2014年,M2M设备数量接近智能终端
数据来源:Ericsson 2013.11 数据来源:ABI Research 2012
2012年9月Verizon LTE网络建成不到2年,用户达到11M, 占Verizon用户总数约12%,流量消耗占全网流量的35% 以上。2013年1月,4G流量占比50%,2013年11月,4G 流量超过64%,视频是主要业务 2017年,全球4G终端产生的数据流量是非4G终端的8倍,每月数据流量超过 10EB [1EB=1000PB] – (CISCO VNI 2013) 4
分布式NoSQL数据库(BC-KVDB)
IA AS
分 析 PA AS
交 易 PA AS
云 计 算 管 理
BC-RDB:根据订购关系存储(阅读基地)、用户个人信息存储(彩云)等应用需求和相关规范,增 强系统操作维护功能、优化性能并提高系统可靠性。提供一个高并发、高可扩展的键值对存 储系统。
Master节点集群 zk Root file index... zk Client M
示例:Yahoo数据处理 流程
By Tim Tully (Distinguished Engineer/Architect, Yahoo) /wp-content/uploads/2013/10/Tully-SparkSummit4.pdf
8
大数据技术在互联网公司得到成功应用
/cmri/
监控和管理工具
13
图计算平台(BC-BSP)
IA AS
分 析 PA AS
交 易 PA AS
云 计 算 管 理
BC-BSP:针对社交网络 分析、用户精准营销、搜索引擎PageRank计算等图计算领域的数据 挖掘需求而研发的并行计算框架,针对迭代计算,计算效率优于MapReduce框架
t
Launch Tasks
短路径等算法需大量迭 代计算,基于MR实现具 有较大数据同步开销; BSP并行计算模型更适于 图、矩阵计算; 支持大规模集群,可以 达到4000节点 支持海量数据计算,用 户迭代步骤可以设定 提供用户开发接口,一 方面可以与BC-PDM系统 整合,一方面也可以单 独使用
• 荷兰所有的电信运营商的数据业务收入占比同比增加14%,全部来自
语音业务的下降。
5
面对巨大流量,移动运营商面临强大的挑战
消息 博客 服务商 视频 优惠券 电商 图片 新闻 点评 音乐 微博 签到 论坛 地图 问答 SNS
移动互联网
专业SNS
超过7.1亿用户
超过100万基站
电信运营商
经分系统数据规模接近10PB
HDFS 分布式文件系统
• 大规模:支持4000节点组成单个大数 据集群 • 高性能:提供聚合的IO访问能力,线 性扩展 • 多租户:提供多用户计算和存储能力 相对隔离的手段 • 高可用:提供Hadoop主控节点,即 NameNode和Job Tracker的高可用能力 • 标准接口:消除开源Hadoop升级造成 的接口不兼容,提供向下兼容的接口