当前位置:文档之家› 移动互联网时代的用户上网行为分析浅谈

移动互联网时代的用户上网行为分析浅谈


附加值越来越低。因此,运营商寻找新的利润增长点、 提高流量经营的质量迫在眉睫。 反观消费渠道的多元化和消费内容的多样化 , 导 致用户在信息交互过程中产生大量各异的行为偏好 、 决策偏好和忠诚行为[2],而用户的这些偏好反映在每一 个上网行为的细节中 , 并最终影响运营商的业务收入 和利润水平。 在最先获得用户行为资料的前提下 , 运营商很有 必要对用户上网行为进行深入分析、深度发掘、细化分 类,构建流量差异化计费体系,提升流量价值,增加核 心竞争力,才不会被移动互联的时代浪潮所湮没。
数据挖掘技术是从海量数据中提取或者“挖掘”知 识的过程,这些知识必须的是隐藏的、潜在有用的,常 用的主要方法有聚类分析、决策树分析、关联分析、判 别分析、回归分析和神经网络分析等,本文主要使用的 分析方法是决策树分析。主要考虑方便快速地对用户行 为数据进行分析,提供有效的决策支持。
2.1 数据预处理,形成训练样本
44
Research & Development 研究与开发
个时间段,其通常的上网行为对应产生的ARPU就是固 定的。 在实际生活中 , 由于海量样本及影响 ARPU 的因 素不止列出来的五类 , 如地域 、 收入等也会影响用户 ARPU值,则可以在第二层级去掉时间属性后进行二次 划分,直至满足下列停止分割的条件之一。1)一个节点 上的实例都属于同一个类别;2)没有属性可以再用于对 数据进行分割。 经过上述步骤之后 , 就可以形成一个完整的决策 树。图3展示的就是具有普遍意义的决策树。
ຌႠ 渍狩B@ A? B2 B3 BO
诚度。以下分析以提高ARPU值为最终目标函数。
3.1 基于上网时间段的套餐划分
具体到上述的实例,时间增益为各个属性中的最大 值,即影响用户ARPU值的第一要素是时间,则在套餐 的制定上可以考虑专门设立基于上网时间段的套餐包, 在特定的时间段内享有流量优惠,如闲时资费比忙时资 费便宜 , 但此 “ 忙闲时 ” 不同于网络中话务业务的忙 闲,主要指数据业务。一方面满足用户的个性化需求差 异,另一方面,有目的地引导用户上网时间分布,疏导 流量,缓解网络压力,提高用户上网感知。而用户在享 受流量优惠的同时也增加了黏性,提高了对产品的忠诚
43
研究与开发 Researdows Phone,共计3部分。 从运营商BSS系统中读取用户相关的ARPU值,作 为数据挖掘的一个目标函数,如表2所示。
表2 用户上网记录预处理后的数据
性别 (Sex) 男 男 女 男 男 女 女 男 女 女 年龄 (Age) >40 20~30 20~30 <20 >40 30~40 20~30 30~40 20~30 30~40 上网集中 时段(Time) 上午 下班途 上班途 上班途 上午 下午 晚上 下午 晚上 上班途 主要流量 (Main Flow) 网页类 视频类 社交类 游戏类 网页类 社交类 社交类 即时通讯类 即时通讯类 视频类 终端类型 ARPU (Terminal Type) Android 低 Android 高 iPhone 高 iPhone 高 Windows Phone 低 Android 中等 Android 高 Android 中等 iPhone 高 iPhone 高
[5]
表1 用户上网记录初始数据
性别 (Sex) 男 男 女 男 男 女 女 男 女 女 年龄 (Age) 43 23 20 19 48 35 27 37 29 32 上网集中时段 (Time) 9:00-10:00 18:00-19:00 7:30-8:30 8:00-9:00 10:00-11:00 14:00-15:00 17:30-18:30 15:00-16:00 19:00-20:00 9:30-10:30 主要流量类型 (Main Flow) 凤凰网、新浪 土豆 人人、QQ 网易游戏 新浪、人民网 微博、微信 腾讯新浪微博 财经网、QQ QQ、微信 优酷、PPlive 终端类型 (Terminal Type) 三星noteII 三星GalaxyS3 Iphone5 Iphone4S Lumia920 三星noteII 小米2 HTC One iphone4S iphone5
(9) (10)
(11) (12)
2.3 数据后处理,生成决策树
通过比较各个属性信息增益的高低 , 可选出影响 ARPU 的关键因素 , 如表 4 所示 , 影响用户 ARPU 的第 一要素就是时间,根据上述实例,将用户人群进行简单 的初步划分,如图2所示。
(2) 按照先前的分类,对每一个年龄阶段的用户,统计 其属于A1、A2、A3三类的个数,然后得出概率,从而计 算属性age的信息期望,如表3所示。
也导致了运营商之间同质化竞争愈发激烈,数据产生的
引言
随着移动互联网时代的到来 , 传统通信行业正面 临着终端智能化、无线接入宽带化、业务融合化、运营 平台化的挑战,用户每天通过移动终端等信息载体、利 用基础网络进行无线接入和信息交互,以获得自己需要 的信息 。 无处不在的网络在给用户提供便捷服务的同 时,也带来了流量爆炸式增长的压力,这给运营商网络 扩建、升级带来难题。为满足用户需求,运营商不断加 大对网络建设的投资,但流量的激增并没有给运营商带 来相应的营业收入的快速增长 。 2013 年 , 中国联通实 现营业收入 2 950.4 亿元 , 同比增长 18.5% , 净利润达 104.1亿元,同比增长46.7%,而移动手机用户数据流 量增长则为120.3%,达到2 698亿Mb[1]。与此同时,以 腾讯、新浪为代表的大量OTT(Over The Top)企业通过 运营商提供的网络向自己的用户提供互联网产品及服 务 , 绕开了传统的运营商收费路径 , 通过客户端广告 植入、在线商店等进行盈利。另外,即时通信类的互联 网产品使得传统的语音、短信费用转换为低廉的流量费 用,从而大大降低了用户对于运营商的黏性,也对传统 语音和短信业务造成巨大冲击。运营商虽然投入大量人 力、财力和物力建设基础网络,但并没有通过数据流量 获得应有的营业收入,投入产出不成比例,面临“被管 道化”的危险。同时,用户规模和流量规模快速增长,
BSQV ARPU )ዐ‫*ڪ‬
BSQV ARPU )ߛ*
BSQV ARPU )ߛ*
图2 用户按照时间属性进行分类
由于实例中的样本量较小 , 第一层级的决策树形 (3) 由此得出属性age的信息增益为 成之后,就完全符合了用户行为跟ARPU的对应关系, 即处于第二层级的属性都是平等的 , 用户只要处于某
(4) 同理可得到其他属性的信息期望
(5) (6)
(7) (8)
2.2 数据挖掘,影响因素排序
根据数据挖掘的基本理论[6],任何样本分类的信息 期望为 (1) 其中,数据集为S,m为S的分类数目, C i为某分类标号 , P i为任意样本属于 C i的概率 , S i 为分类Ci上的样本数。 将用户群体划分为 A 1 、 A 2 、 A 3 三类 , 分别代表的 ARPU值为低,中等,高,则用户的信息熵为
研究与开发 Research & Development
移动互联网时代的用户上网行为分析浅谈
张 第1 罗晓娜1 杨静雯2
1 中国联通研究院 北京 100032 2 中国电信集团公司 北京 100031
摘 要
移动互联网技术的高速发展带来了数据流量的爆炸式增长,如何利用自身系统存储的用户上网行为数据
来摆脱目前流量增速远大于其对应的收入增速的困境,成为运营商在移动互联网时代面临的一大难题。文章从数 据挖掘的角度出发,分析数据中隐藏的用户行为,并细化分类,构建流量差异化计费体系,从而全面提升流量价 值,增强运营商的核心竞争力。 关键词 移动互联网;数据挖掘;用户行为分析;精细化营销;流量经营
2
数据深度挖掘,分析用户上网行为
以WCDMA移动通信网络系统为例,运营商可在核
心网(Core Network,CN)网关GPRS支持节点(Gateway GPRS Support Node,GGSN)处通过一定的技术手段 获取用户同外部IP分组网络交互的信息,并利用自身服 务器集群,按照一定的录入数据库规则,实时存储用户 的上网数据。表1为用户上网信息的简单汇总,通过数 据挖掘的过程,可以分析出对于用户上网的影响因素, 从而细分用户群体,为精细化营销奠定基础。
图1 全球移动数据流量增长趋势(2011~2016年)
42
Research & Development 研究与开发
以中国联通为例,每月的上网记录数已超过2万亿 条 , 是目前运营商所有计费数据的 30 倍以上 , 并且以 每月 7% 的速度递增 [3], 运营商需要用数量巨大的服务 器来存储这些数据 , 虽然服务器成本逐年下降 , 但与 能耗相关的成本所占比重会逐渐平稳或者上升 , 如果 留存这些海量数据的意义仅仅在于查询流量 、 解决客 户流量争议,难免有些“大材小用”。 相比其他企业,运营商能够第一时间获得用户消费 行为的资料,有着得天独厚的优势。这些看起来毫无规 律可循的用户上网信息,内部是存在关联性的,利用数 据挖掘技术[4],能够定量地分析用户行为,如上网浏览 内容偏好、时间偏好等,通过对这些数据的分析,运营 商可以重新进行用户市场划分,提出更具有针对性的营 销体系。 本文主要是从数据挖掘的角度重新观察这些数据 并加以利用。由于电信运营商内部数据库中存储着海量 多维的信息,这些信息不仅包括常规的年龄、品牌、套 餐资费 、终端的IMEI、终端品牌、终端类型等基础信 息,随着运营商自身数据平台的完善,还包括用户何时 何地上网、上网的内容偏好、各种应用的驻留时间、手 机支付信息等等,从理论上来讲,这些丰富的内容为数 据挖掘提供了可能性,同时,运营商将借助数据挖掘技 术在日益激烈的流量竞争中制定准确的决策,提高流量 经营的质量。
为便于对初始数据处理 , 需要进行预处理 。 首先 对初始数据按照以下规则进行粗粒度的分类 , 形成训 练样本。 1) 按照年龄层次划分。小于20,20~30,30~40, 大于40,共计4部分。 2) 按照上网集中时段划分 。 对于上网集中的定义 为 : 以小时为计量单位 , 上网流量大于 10M/ 小时 。 系统需 要对 每个用 户的 小时用量 进 行累加 , 选出流 量最多 的一 个小 时 , 作为 上网 集中的时 段 。 本文 暂 不考虑日均流量小于 10M 的用户 。 9:00 之前归为上班 途 , 9:00~12:00 归为上午 , 12:00~17:00 归为下午 , 17:00~19:00归为下班途,19:00~24:00归为晚上,共 计5部分。 3) 按照主要流量划分 。 ①网页类 : 主要指利用手 机终端浏览各种门户网站,图片等。②即时通讯类:如 QQ、飞信、微信等。③视频类:优酷、PPLive、乐视 网等。④游戏类:网易游戏等。⑤社交类:开心网、人 人网、微博等。⑥其他类:如某些炒股软件等,共计6 部分。 4) 按照终端类型划分。Android、iPhone、
相关主题