大数据建设与应用汇报
11 总流量
12 RATType 网络类型:2G 3G 4G
13 访问IP 用户访问的具体网站
14
网址
IP地址或URL信息
15 User Agent 用户使用的APP信息
16 17
源端口 目的端口
URL端口信息
... ...
谁 在哪里
在什么时间
以何种方式
访问了哪些网 站内容
使用了什么 APP
.
中国联通互联网信息库 网站识别规则
位
运营商的通过位置信息,可以掌握用户
置
出行特征,给用户带来生活的极大便利
社
基于通信交往圈的大小,主被叫,时间
交
序列,得到用户的社交特征
.
支
运营商有客户最为详实的消费账单,比
出
如流量费,短信费、语音费、新业务费
等,能反映用户的一些特征
通
通过用户的通信使用情况,比如本地,
信
漫游,长途,了解用户通话行为特征
数
聚合视图/分析模型
实时流
批量计算
据
D
DWA
整
W
DWD
合
流任务
非关系型数据库 内存计算
OD B域 O域 M域
流计算
分布式文件系统
S
大
数
据
BSS
CBSS
手机上网日志
用户位置信令
采
集
.
数据 管理
元 数据
数据
统一
质量
调度
数据 生命 周期
数据 运维
平台的大数据处理能力
50亿条
日处理上网记录
10亿条
日处理位置信令数据
.
旅游大数据平台 点击链接
.
环保大数据热力图 点击链接
.
能力开放平台
点击链接
2017年年度账单 接口及访问量
.
展望篇
.
未来工作思路
深耕细作
深耕数据 细致服务 扎实推进
智慧数据
平台智能 服务智能 产品智能
跨界融合
一点接入 全网数据 产业结合
创新服务
服务创新 技术创新 应用创新
运营商大数据具备全面性、多维性、中立性、完整性是其它企业很难比拟的,而且通 过这些不同维度数据的交叉关联,可以创造更多的新数据和新价值 。
身
运营商不仅客户信息覆盖完整,还可以
份
基于实际行为进行验证。通过身份信息,
帮助金融机构快速判定用户的信用程度
上
基于用户访问什么网址,下载什么应用,
网
访问什么内容等,得到上网喜好
展示每个基站下 2I2C用户数、 2I2C流量占比、投 诉数和订单数,用 于分析参考。
.
自助报表
点击链接
.
国际漫游流量包营销
精准营销
营销场景:实时获取江西联通用户在全国国际航站楼的数据,对用户实时营销国际漫 游流量包,提高国际漫游收入增长。
营销效果:从18年1月12日至2月9日,共计对68170户用户进行营销, 成功办理国际 漫游包用户为2817户,转化率为4.1%;
+
大数据
+
大数据
建设情况与应用汇报
江西联通信息化部
DT时代
.
赢在数据时代
理念篇
平台篇
应用篇
大数据服务理念 大数据领先平台 大数据应用
展望篇 展望未来
.
理念篇
.
大数据服务理念
+ + = 数据驱动业务
快捷的数据服务
数据资产变现
大数据服务
提升经营决策效率 全面精准、洞察客户 提供精确、实时的营
终
识别记录手机终端型号,了解用户手机
端
使用特征,发展趋势,用户换机周期等
时
通过用户上网,位置,通话等行为按照
序
时间排列,了解更多规律提供更多服务
运营商数据的优势
互联网数据受限 于本身的数据基因
1 数据封闭性
2 数据局部性
3 数据割裂性
运营商数据天然优越性
1 运营商是数据管道,掌控全局数据
数据准确性高:实名制,且能够准确反
客户分群
VIP分群
……
平台核心数据2:用户位置信息
1
用户实时位置
根据用户信令定位,5分钟更新一次
2
用户实时轨迹
跟踪用户出现的每一个位置,生成变化轨迹
3 小区实时热力
某一范围内人流量变化,以热力图形式展现
4
地理围栏感知
在地图上圈定范围,随即进行解析、匹配、应用
5
实时路段客流量
根据某一路段基站经纬度,定位基站承载的客流量
用户通信行为
语音
通话类型 通话时长
短信
通话时间 对端号码
流量
通话地点
……
用户终端信息
手机号码 IMEI
IMSI
终端型号 终端厂商
……
用户缴费信息
缴费渠道
缴费时间
缴费金额
……
.
用户信用信息
初始信用度
欠费额度
动态信用度
欠费频次
欠费账龄
……
用户消费信息
消费金额 月租费
通信费
流量费
短信费
……
用户分群信息
集客分群
.
6 工作地信息 定位用户工作时段所处的地理位置
7 居住地信息 定位用户宿息时段所处的地理位置
8 娱乐地信息 定位用户娱乐所在地的地理位置
9 漫游监控 国内漫游由用户开卡地确认来源地,国 际漫入由IMSI确认来源国
10 出行方式监控 根据用户实时位置和实时轨迹,匹配交通 方式(飞机、火车、汽车等)
平台核心数据3:用户上网行为
500个接口
每天处理文件接口数
2TB
每天处理的数据规模
1.2PB
平台存储能力
.
平台核心数据1:传统电信数据
姓名
客户基本资料 客户类型
年龄
性别
电话号码
住址
证件号码
地域
……
用户状态信息
号ห้องสมุดไป่ตู้状态
欠费状态
年龄业务开通状态
……
用户订购信息
订购产品 流量包 合约计划
开通渠道 发展员工
……
业务支撑系统(BSS/CBSS)
2
映用户实时的行为状态
3 数据具有连续和可追溯性:用号码ID整合
用户全生命周期数据
运营商数据解决互联网三大问题: 你是谁,你在哪,你在干什么
.
主流的大数据架构平台
大
自主经营体系统 自助查询 2I网络优
数 据
对内应用
经营分析
宽带营销
化 智能引擎
应
数据透明访问
用
旅游大数据
对外运营
标签服务
大数据模型
大
大数据处理
.
感谢聆听
我们一直在努力从未放弃
江西联通信息化部数据中心
.
果合并得到最终的结果。 更加开放的HDFS: 负责数据存储 大规模编程模型MapReduce:负责计算
优点:使用X86服务器,硬件便宜,能处理大容 量数据,关键是软件是开源的,免费
缺点:早期分布式计算技术复杂,实现比较困难, 大数据技术人才匮乏
当前状况:Hadoop分布式计算框架被广泛应用
.
运营商到底有哪些数据
编 数据源字段信
号
息
业务含义
1
手机号码
用户上网使用的手机 号码
2 位置区编码 用户上网所在的位置
3
CI号码
区域及具体的基站信 息
4
终端IMEI
用户上网使用的终端 全球统一编号
5 流量类型 DPI流量解析类型
6 开始时间
7 结束时间
8 时长(秒) 用户网络使用时长、
9 上行流量 流量统计信息
10 下行流量
能力 开放
.
宽带营销
点击链接
展示各小区宽带资源 和端口占用情况,以 及近15天将到期用 户数,点击可查看即 将到期用户明细,用 于宽带维系。
展示基站下的宽带潜 在用户(无宽带、异 网宽带),点击可查 看潜在用户明细,用 于融合业务发展。
.
2I2C网络优化
点击链接
根据2I2C流量分布, 结合基站负载数据, 为基站新建、扩容、 优化提供参考依据, 保障2I2C用户网络 服务
优点:技术实现不复杂,有丰富的应用经验
缺点:主机费用昂贵,需要专用硬件支持,比如 专用处理器,处理大量数据时遇到瓶颈 当前状况:去IOE,逐渐被互联网公司抛弃
胜出
大数据分布式计算
VS
把一组计算机通过网络相互连接组成分散系统,然 后将需要处理的大量数据分散成多个部分,交由分 散系统内的计算机组同时计算,最后将这些计算结
销服务
透明的使用数据服务 数据使用像使用水、
电一样便捷
提供脱敏数据,促进 数据资产交易
融合外部数据,促进 大数据增值变现
企业赋能 价值提升
.
平台篇
.
大数据技术与传统技术对比
传统的集中式计算
通过不断增加处理器的数量来增强单个计算机的计 算能力,从而提高处理数据的速度,比如传统的大 型机、小型机,硬件费用昂贵,新兴的互联网公司 根本负担不起
网站内容解析规
搜
则
站
索
内
词
动
库
URL路径规则
作 识
搜 索
别识
规别
URL参数规则
则规 则
四级域名分类规则
APP识别规则
UA 精准解析规则
IP+Port 补充解析规则
核心数据应用:用户画像