当前位置:文档之家› 主流大数据处理技术及应用方案

主流大数据处理技术及应用方案


分析
NewSQL 分析 互联网
OldSQL 事务 NoSQL 互联网
事务
OldSQL 一种架构支持多类应用
OldSQL+NoSQL+NewSQL 多种架构支持多类OldSQL
• • • • 行存储 关系型 ACID SMP
NewSQL
• • • • 列式存储 关系型 ACID MPP


缺点
对SQL的支持有限 无法高效存储大量小文件 不支持多用户写入及任意修改文件 缺乏专业的支持服务

11
数据处理框架的对比
数据库框架 分析性能 一般 好 好 扩展性 较差 局限 好 容灾性 较差 局限 较好 数据类型 结构化 结构化 (非)结构化 业务场景 支持全 SQL 能 能 部分 异构数据整合 不支持 不支持 支持 成本 中等 较高 低
网络与资 源
用户与终 端
业务与应 用
综合专题
总览 简报
项目 室内外站、建筑物、物理站址分析 下行覆盖、上行干扰、上行干扰分析 网络资源、空口效率、载波负荷分析 网络侧性能指标、问题小区分析 站高、站密、重叠覆盖、有效性分析 2、3、4G多网络协同分析 终端统计、终端与用户及业务分析 用户情况总体分析 用户属性、消费、时间、业务等标签 用户结构及用户偏好分析 4G转网用户及潜在4G用户分析 用户各类业务感知分析 各级别用户迁徙及单用户轨迹分析 语音数据业务、分类主流业务分析 总体业务情况及分类业务情况 语音、CSFB、数据业务质量分析 小区数、用户数、业务量等发展趋势 覆盖、结构、资源、感知综合分析 场景、网格、扇区等区域价值分析 LTE部署区域及部署建议分析 LTE站址可用性及合理性分析 终端、流量、闲时包及业务内容营销 资源、用户、业务、网络、终端总览 全国级及省级基本简报和自定义简报
主流大数据处理技术及应用方案
中国联合网络通信有限公司网络技术研究院
王振亚 2016年12月
1
目录
一 二
数据处理技术的演进
主流分析型数据库技术介绍、对比及选型

应用方案-网研院大数据平台
2
什么是大数据
大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数 据进行分析处理的方法——维克托·迈尔·舍恩伯格
磁盘 MPP 支持 好 好 数据仓库 Scale-out 开源
分布式列 式存储
内存/磁盘 MPP 支持 很好 好 即席查询 Scale-out 商业 20
C/S分布 式集群
不支持 较好 较好
C/S分布 式集群
不支持 较好 较好
C/S分布 式集群
支持 好 较好
传统数据 分析
Scale-up 商业
低成本内 存运算
维度接口 时间
O侧网络定位
覆盖能力评估
网络性能、质量 网络问题
小区 终端 业务 区域
支撑网络规划 建设,提高资 源投放精准度
网络性能反馈 用户投诉
支撑客户维系, 支撑精准市场 推广
25
网研院大数据平台-方法体系
全面梳理
序号 分类 1 2 3 4 5 6 7 8 9 OSS侧 数据 10 11 12 13 14 15 16 17 18 19 20 21 22 23 数据源 基础数据 DT/CQT数据 IU-PS(挂表采集)/Gn数据 CDR(平台采集) MR数据 无线话统数据 无线参数 核心网参数 告警数据 无线侧呼叫记录数据 设备版本及补丁 设备与板卡负荷数据 无线COUNTER数据 核心网报表数据(核心网COUNTER 数据) 投诉数据 话单数据 配套资源配置及运行情况 用户信息 月度话单数据 BSS侧数 语音详单 据 数据详单 套餐信息 终端数据库
行深入关联分析;
网络精细化建设阶段
• 基于现网23类运行数据, 建立了基于移动网络 “O 域+B域”数据的分析方法 体系;
• 在长春、成都、重庆、广 州、兰州、上海6重要城市 进行推广和验证。 • 探索六城市精细化建设支撑,
并固化方法模型。
大数据平台化阶段
• 基于“以我为主、自主研 发”原则,搭建大数据分 析平台,进行迭代式开发, 实现方法固化。 • 逐步实现全网数据的统一 采集、解析与存储管理; • 开发大数据平台,实现规模化、
NoSQL
• • • • 列式存储 Key-Value 灵活性 MPP
分布式计算,分布式文件系统 内存计算(In Memory Computing) 新的硬件:Flash Card,SSD,高速网络、Infiniband
15
OldSQL
► ►

OldSQL是指传统的关系型数据库,借助于数学概念和方法来处理数据。 数据规范化:关系型数据库的数据存储是为了更高的规范性,把数据分隔成最小的逻辑表(关系表)以 避免重复,获得最精简的空间利用。 事务性:SQL数据库支持对事务原子性细粒度控制,并且易于回滚事务。
数据存储方式
决定性因素 关键因素 一般因素
分析需求
数据格式
21
目录
一 二
数据处理技术的演进
主流分析型数据库技术介绍、对比及选型

应用方案-网研院大数据平台
22
目录

大数据平台总体架构
运行分析视图 规划支撑视图 决策支撑视图
23



网研院大数据平台-背景
网络建设初期阶段
• 阶段一:先期基于路测数 据、投诉数据进行简单分 析;后引入MR数据进行深 度覆盖分析; • 阶段二:网络规划建设简 单、粗糙,直接在空白区 域建设。 • 缺乏针对用户、业务和终端进
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和 流程优化能力来适应海量、高增长率和多样化的信息资产——全球领 先的信息技术研究和分析公司Gartner
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库 软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流 转、多样的数据类型和价值密度低四大特征——麦肯锡


缺点
大数据处理性能较差 容灾性较差 稳定性有局限 业务和数据处理规模有限 扩展性和灵活性较差

8
数据处理框架-MPP

特点
Massively Parallel Processing 多服务器、多节点,多任务并行执行 数据分布式存储和计算 ACID Scale-out OLAP(Online Analytical Processing) 商业化
3
大数据4V特征
• 随时随地产生数据,数据量更大 • 以“低成本”的方式获得“可接受” 的数据分析结果 • Cheap:“廉数据” • 对处理速度要求更高 • 实时和在线 • Swift:“快数据”
Volume
Variety
• 数据具有多样性 • 数据来源多、类型多 • Multi-X:同一对象多维描述
RDB
OLTP
MPP
OLAP
Hadoop
OLAP
没有最好的技术,只有最合适的技术。 针对业务需求“有的放矢”。

12
目录
一 二
数据处理技术的演进
主流分析型数据库技术介绍、对比及选型

应用方案-网研院大数据平台
13
分析型数据库
价值的工作。传统数据库是以事务处理为主,大数据时代的主要应用则是数据分析。 数据库三大阵营:OldSQL、NoSQL、NewSQL 分析型数据库是面向分析应用的数据库,可以对数据进行统计分析和即席查询等挖掘数据
Velocity
Value
• • • •
价值密度低 更多高价值的数据产生 对有价值数据进行“提纯” 大数据的目的
Big Data
Big Money
4
数据库技术是大数据处理的关键

大数据处理流程
数据获取 数据ETL 数据存储 数据分析 数据服务
数据库技术是大数据的关键!
5
数据处理技术的演进
分布式技术提出 实时计算技术提出
行/列式存 储
磁盘 RDBMS 支持 较差 较差
分布式文 档存储
内存/磁盘
分布式KV存储
内存/磁盘
分布式列 式存储
内存/磁盘 Hadoop 需插件 好 好
分布式 HDFS
内存 Hadoop 类SQL 很好 好 实时分析 Scale-out 开源
分布式 HDFS
磁盘 Hadoop 类SQL 好 好
分布式存 储
海量数据实时分析
Vertica/Impala
19
目前主流分析型数据库对比
类型 存储方式 运算方式 系统架构 支持 SQL 大数据处 理能力 容灾性 应用场景 扩展性 开放性
OldSQL OldSQL 行式存储 磁盘 RDBMS 支持 较差 较差 WEB应用 Scale-up 开源 OldSQL 行式存储 内存 RDBMS 支持 一般 较差 NoSQL NoSQL NoSQL NoSQL NoSQL NewSQL 行式存储 磁盘 NewSQL NewSQL
16
NewSQL
► ►
NewSQL是对各种新的可扩展、高性能的关系型数据库的统称。 既能够提供OldSQL的质量保证,也能提供较强的可扩展性。
17
NoSQL
► ►
大数据类型的多元化急速增长,OldSQL不满足分布式技术架构的适用性。 Not Only SQL,泛指非关系型的分布式数据库。
18
OldSQL&NoSQL&NewSQL总结
23类数据
系统建立现网分析方法体系序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 分类 分析模块 无线侧资源情况 网络覆盖 资源瓶颈 网络性能 网络结构 多网协同 终端情况 用户情况 用户画像 群体特征分析 4G转网用户分析 感知分析 用户轨迹 业务情况 业务分布及特征 业务质量 趋势分析 联合分析 资源重点投放 LTE部署区域 LTE站址分析 流量经营 总览 简报
相关主题