当前位置:文档之家› 中国移动大数据应用实践21

中国移动大数据应用实践21


2008年1月,Hadoop 成为Apache顶级项目
2010年7月,云计算 基础软件联盟 OpenStack 成立
行业动态
2006年9月,亚马逊 AWS服务正式上线
2008年4月,Google PAAS服务GAE试商用
2011年7月,阿里云 上线试商用
Google云计算论文:GFS /2003年,MapReduce/2004,BigTable/2006
1 策略研究
标准化 产业推劢
大云
5
方案/规范
4
2
平台研发
应用研发 试验/试点
3
“大云”研发历程
“大云”是中国移动研究院为打造中国移动云计算基础设施而实施的关键技 术研究、现网技术支撑及产品开发计划。项目从2007年3月启动,是国内最 早启动的云计算研发项目之一。
云计算引入策略、规范制定、产品研发、应用试验、产业链培育、标准化
处理时间没有严格要求,通常达 到几个小时,甚至更长时间
需要支持各种并行计算模式,如 MapReduce、BSP等
数据挖掘系统需要较好的用户界 面,用户通常具备业务知识,但 是未必具备开发经验
系统可以和其他系统混合部署
数据具有一定的可靠性和可用性 要求
应用案例1:云化ETL完成了省公司每日近170亿的数据处理
件环境下常常无法部署 • 扩展性达到PB级之上可选厂商较少,易绑定
• 具备结构化/非结构化混合分析的能力,大数据多为非结构化 • 基于消费级硬件,以常态化硬件故障为设计出发点,丌依赖高
性能、高可靠性硬件保障系统性能和可靠性。 • 基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署 • 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署
2013年9月,大云项目被列为集团战略性 重大项目之一
2009年12月建成国内规模最大的云计算实验 室,服务器节点数超过1300个
“大云”是中国移动为助力移动互联网转型、实现IT支撑系统升 级而实施的云计算创新研发计划
“大云”是中国移动为助力移动互联网转型、实现IT系统架构变革 而实施的云计算创新研发计划。项目研发将满足中国移动IT系统高 性能、低成本、高可扩展、高可靠性的需求,推动IT支撑系统集中 化的实现,增强大数据处理能力,打造移动互联网时代核心竞争能 力
• 大云开源社区期待幵欢迎各方的加入! • /opensouce
“大云”应用逐年丰富,产品成熟度稳步提高
27 27 21 15
• 大云的商用涵盖公司“两朵云”以及外部 行业云,成功应用于移动IT支撑系统,互 联网业务平台,公众服务云、教育云和电
9 4
子政务云等领域。 • 大云产品已部署了超过3000台服务器,
裸存储容量约15PB。
• 截止12年底,累计为公司创收和节省成本
7000万元以上。
大云实验室设备规模
计算节点1180个,内核总数6432 个,内存18.8TB,存储容量4PB+
网络设备50台,千兆接入端口 1248个,万兆接入端口384个, IB-40Gb接入端口80个
将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!
大云开源社区BC-Hadoop最新进展
• 社区建设:在大云实验室搭建开源站点,选择github作为镜像站点, 并确定了开源组件模块和基线版本
• 开源合作:研究院大云团队和亚联、华为研发人员组成核心团队负 责社区研发的启劢,开源社区迓得到了来自卓望、新大陆、拓维、 东软、宜通、亿阳、斯特奇、北邮和东北大学等公司和院校的支持
2010 2011
81
2001-2012 世界500强排名
2003
2004 2005
2009
77
2008
99
2007 2006
148
180
202
87
2012
2002
224
2001
230 242
287 336
连续四年入选道.琼斯指数DJSI 《金融时报》发布的“全球最强势100品牌”,排名第10位
原始数据 4.6TB
文件
ODS
DWD
DW
级 校验
层库 外存 16储2亿条
层库 外存 149储亿条
数据 转换
层库外 存储
数 据 装
约1.3TB 约800GB
62亿条

(经分13.5亿)(经分50GB) 约3.4TB
库内处理
DW层数据
FTP方式获取 上游数据
云计算Hadoop
Traditional DB/DW TB
MPP DW+Hadoop
PB
Distributed architecture EB ZB
电信运营商发挥管道优势,深入挖掘大数据的价值
借助云计算技术和运营商优势,将大数据信息转 化为商业价值,促进业务创新
1. 改善用户体验:智能语音门户通过知识库和语义搜 索技术实现业务知识的机器智能回答
2011年8月,作为副理事长单位发起成立 了中国云计算发展与政策论坛;
2010年5月,加入云计算国际测试床Open Cirrus,成为国内第一个成员单位; 2011年12月,正式发布“彩云”个人云 服务
2012年12月,采用大云产品的国家教育 云正式上线
2013年6月,为了加强云计算和大数据开 发,研究院基于大云团队成立云计算系统部
“大云”2.5产品体系架构
经分 集中化
经分系统 ETL/DM
结算 信令 系统 系统
2.0产品体系 2.5新增产品 2.5功能增强
云计算 资源池系统
PaaS 产品
物联 网应用
移劢互联网 业务平台
IDC服务

“大云”产品
IaaS 产品
计算/存储资源池
弹性计算 BC-EC
对象存储 弹性块存储 BC-oNest BC-EBS
仸务统一调度
触发FTP抽取任务,从指定FTP路径 抽取文件,再存入HDFS文件系统
通过Map/Reduce + SQL Loader将DW层数 据加载至数据仓库(Oracle)指定表中
接口机
流程70个 流程16个 流程81个
需先预
处理,
1
2
再进行
3
4
5
文件采 集,从 而提高
效传率输协议
文件 采集 到云 平台
典型的应用场景之三:大数据分析挖掘系统
目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设 计模型、训练集幵选择算法(分类、聚类、关联、非结构化)。通常会使用各种分 布式数据挖掘工具和算法
人群1
例图:客户分类识别应用
其它人群
技术要求丼例:
针对海量数据实斲全量数据挖掘, 规模达到10TB-PB规模。
移劢互联网流量激增,2012年底, 移劢互联网应用使用时间激增,是
移劢数据流量占比超过13%
使用通信服务时间的4倍
中国大陆移劢互联网发展有相类似的趋势,截至2013年6月,中国大陆手机网 民已达4.6亿,上半年移劢互联网接入流量同比增长62.6%(CNNIC、工信部)
大数据处理核心基础的转变
传统数据分析处理
DBMS
DW
transaction
ETL
Unstructure
大数据处理
Cluster
Analysis
Stream
Analysis
Multiple data sources (MapReduce)
• 面向结构化数据,非结构化处理效率低 • 基于昂贵硬件(小型机+磁盘阵列)或一体机 • 硬件平台兼容性差:在跨代硬件或跨厂商硬
分析需求
流量清单查询 为用户提供流 量的去向查询等
上容用网字户日段 志内协议 帐号 类型
业务 类型
访问 URL
终端 信息
上行 流量
下行 流量
„„
劣力市场决策
改善用户体验
QOE 客户感知层
KQI 业务质量层
KPI 网络性能层
PI 网元能力层
网络质量和效率分析 网络价值分析
客户感知及行为分析 业务端到端分析
2. 助力市场决策:充分挖掘用户的移动互联网行为特 征,提升对用户消费偏好的精准把握,帮助市场营 销等决策,实现精准营销。
3. 优化网络质量:利用信令数据支撑终端、网络、业 务平台关联分析,优化网络,实现网络价值最大化
流量分析 流量的构成和 大趋势分析等
用户分析 用户兴趣偏好、近 期关注、活动范围 等
大云实验室功耗统计
PUE = 1.504
大云实验室运营运维管理
统一运营管理平台
统一运维管理平台
自服务资源 资源使用监 申请、释放 控和统计
自动化安 自动化故
装部署
障报修
大数据资源池 虚拟化资源池 研发区
测试区
典型的应用场景之一:大数据批处理系统
目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,幵进 行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等幵行计算技术。
确定了云计 算研究方向
部 署 Hadoop 系 统进行大数据 研究
发布大 云1.0
在双业 务云部 署
发布 大云 1.5
在公 有云 部署
发布 大云 2.0
在一级 私有云 部署
2003
2006.9 2007.3 2007.7
2006年2月,大数据 基础软件Hadoop诞生
2008.3
2010.5 2011.4 2011.11 2012.6 2012.8 2013.6
中国移劢大数据应用实践
徐萌 中国移动通信研究院 云计算系统部
2013年12月
相关主题