电信运营商大数据解决方案
缺点
大数据处理性能较差 容灾性较差 稳定性有局限 业务和数据处理规模有限 扩展性和灵活性较差
8
数据处理框架-MPP
特点
Massively Parallel Processing 多服务器、多节点,多任务并行执行 数据分布式存储和计算 ACID Scale-out OLAP(Online Analytical Processing) 商业化
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库 软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流 转、多样的数据类型和价值密度低四大特征——麦肯锡
3
大数据4V特征
• 随时随地产生数据,数据量更大
• 以“低成本”的方式获得“可接受” 的数据分析结果
• Cheap:“廉数据”
缺点
对SQL的支持有限 无法高效存储大量小文件 不支持多用户写入及任意修改文件 缺乏专业的支持服务
11
数据处理框架的对比
数据库框架 分析性能 扩展性 容灾性 数据类型
RDB
一般 较差 较差
结构化
业务场景 支持全 异构数据整合 成本 SQL
OLTP
能
不支持
中等
MPP
好
局限 局限
结构化
OLAP
能
不支持
4G、M2M将大大加快移动网络数据业务和流量增长
4G驱动流量增长
M2M终端数量大幅度增长
2013年4G网络将占到全球流量的
2014年,M2M设备数量接近智能终端
20%,2016年将超过3G网络流量,
2018年将占据超过2/3的移动网
络流量。2013-2018年,4G流量
的年复合增长率达到82.2%。
较高
Hadoop
好
好
较好 (非)结构化 OLAP
部分
支持
低
没有最好的技术,只有最合适的技术。 针对业务需求“有的放矢”。
12
目录
一 二 三
数据处理技术的演进 主流分析型数据库技术介绍、对比及选型
电信运营商增,手机数据化、宽带化趋势明显
用户分布
流量分布
时间分布 移动互联网:通信功能 = 80:20
10
数据处理框架-Hadoop
特点
多服务器、多节点的集群架构 大数据多任务的分布式处理 HDFS(Hadoop Distributed File System)——分布式文件系统、流式访问 MapReduce——曹冲称象,分而治之 可靠、高效、高扩展(Scale-out)、高容错、低成本 可处理多种格式数据源,非结构化、半结构化数据 开源
6
数据处理框架的演进
RDB
MPP 数据库
Hadoop
7
数据处理框架-RDB(Relational Database)
特点
单服务器、小型机 集中式数据和业务处理 ACID(Atomicity、Consistency、Isolation、Durability) Scale-Up OLTP(On-Line Transaction Processing),响应时间敏感 成本低
缺点
扩展规模有限 对并发的支持有限 节点增删维护工作较复杂 不支持非结构化数据 成本较高
9
Hadoop生态系统
Hadoop,允许使用简单的编程模型,以跨集群分布式的方式,处理大型数据集。具有可靠、高效、可伸缩的特点。 它的目的,是从单一的服务器到上千台机器进行扩展,从而利用各自的本地计算和存储资源。是一个能够让用户轻松构建和使用的分 布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop在应用层面检测与处理各类错误,因此能够在 一个集群内实现高可用性。 并且Hadoop已经成为大数据行业的标准,形成了一个健康活跃的生态系统。可靠性、高扩展性、高效性、高容错性、低成本。
1995
2000
2005
2010
2015
SQL/ACID
传统关系型数据库的崛起,提出面向企业 应用的商业智能,面向数据仓库的数据分 析(OLAP)技术兴起
大数据Hadoop技术提出
开源Apache Hadoop逐渐兴起,大幅推 进互联网大数据应用
混合技术架构兴起
Spark、Flink等新一代分析引擎融入大数 据平台
Volume
Variety
• 对处理速度要求更高 • 实时和在线
• Swift:“快数据”
Velocity Value
• 数据具有多样性 • 数据来源多、类型多 • Multi-X:同一对象多维描述
• 价值密度低 • 更多高价值的数据产生 • 对有价值数据进行“提纯” • 大数据的目的
Big Data
4G、M2M将大大加快移动网络 2018年数据业务收入占运营商的 份额的47.3%
数据业务和流量增长 ABI Research 2013.09
数据来源:Ericsson 2013.11 数据来源:ABI Research 2012
2012年9月Verizon LTE网络建成不到2年,用户达到 11M,占Verizon用户总数约12%,流量消耗占全网流 量的35%以上。2013年1月,4G流量占比50%,2013年 11月,4G流量超过64%,视频是主要业务
电信运营商大数据解决方案
1
目录
一 二 三
数据处理技术的演进 主流分析型数据库技术介绍、对比及选型
电信运营商大数据平台
2
什么是大数据
大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数 据进行分析处理的方法——维克托·迈尔·舍恩伯格
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和 流程优化能力来适应海量、高增长率和多样化的信息资产——全球领 先的信息技术研究和分析公司Gartner
Big Money
4
数据库技术是大数据处理的关键
大数据处理流程
数据获取
数据ETL
数据存储
数据分析
数据服务
数据库技术是大数据的关键!
5
数据处理技术的演进
分布式技术提出
谷歌提出分布式文件系统、分布式数据库和 分布式计算框架,奠定大数据技术基础
实时计算技术提出
流计算、图计算、交互式分析、内存计算等 技术不断演进
数据来源:Infoma 2013
全球移动互联网用户数量激增, 已3倍于固定互联网用户数量
数据来源:Cisco 2013
数据来源:GSMA 2013
移动互联网流量激增,2012年底, 移动互联网应用使用时间激增,是
移动数据流量占比超过13%
使用通信服务时间的4倍
中国移动互联网发展有相类似的趋势,截至2013年6月,中国手机网民已达 4.6亿,上半年移动互联网接入流量同比增长62.6%(CNNIC、工信部)