当前位置:
文档之家› 《手机上网用户行为分析系统》结题汇报
《手机上网用户行为分析系统》结题汇报
整理课件
研究目标
• 建立一套完善的手机上网用户行为分析系统, 通过对用户手机上网访 问行为进行分析,获取用户的访问轨迹、浏览页面内容、网站信息、 浏览客户端信息、移动终端信息等,进行各类分析,形成各类用户模 型。
网
用
站 内 容
爬虫数据
网
数据清洗
络
爬
数据分析
网关数据
数据清洗
日
数据分析
志 采
户 行 为
– 分析结果展示层:它负责向读取网络统计和用户行为分析层产生的结果,并向用户展 示在浏览其中。
整理课件
难点及解决方案
• 项目的难点:
– 本课题首先是获取不同类型网页的正文内容,然后利用数据挖掘来分析用 户的喜好,其主要的困难如下: • 数据大规模性 • 网页类型多样性 • 分类要求的高效性 • 多分类性 • 分类体系的变化性
• 系统海量数据存储和计算功能是整个系统的核心功能实现模块,根据 功能的层次结构可以进一步细分为以下层次:
– 数据采集和接口层:它负责从不同类型的网络中的接入和采集数据。针对网络自身的 特性以及系统建设的实际情况,数据的采集可以是从硬件设备(如网关、Gn口、分光 设备)直接获取并解析,也可以是从其它系统(如BOSS和VGOP)导入。
– “客户-内容-业务”三维矩阵模型的构建 • 用户数据的零散性 • 垃圾数据的清理 • 用户数据业务偏整好理的课识件 别
项目的难点及解决方案
• 相关解决方案:
– 系统架构采用云存储和云计算的方式,有良好的扩展性; – 建立适应性分类体系变化的海量网页快速分类体系和系统
• 基于主题的分类方法正是为解决这些问题应运而生。它基于PLSA模型,计算 出文本的主题分布,再根据贝叶斯分类来预测文本所属的类别。由于PLSA模 型在训练的时候比较耗时,但在训练过之后,计算文本的主题分布的时间是 线性的,所以在实际应用中,计算文本的主题分布并不是很耗时。另外,基 于主题贝叶斯分类消耗的时间也是有限的,因为主题数通常都在1000以下, 相比于特征词来说,维度已经降低了很多,所以时间花费也比较少。
客户特征快速聚焦及 分析管理器
客户标签管理平台
客户标签信息管理器
“客户-内容”特征标签 分层可扩充体系
“客户-内容-业务” 三维匹配矩阵
客 户
-
内海
容量
海 量 信
信 息 处 理
息管
处理 理器
平
台
客户偏好与内容分类的行为挖掘模型构建器
网页文本关键字搜索技术的动态归类器 网页内容可扩展逻辑分类体系构建器
上网流量同比上升112.3%
流量收入同比上升49.4%
高速发展的流量并没有带来相关收入的同步增长
整理课件
研究背景
• 在以用户为中心的发展时代下,了解用户需求成为我们面对课题的第 一步工作,这就需要我们对我们网络中的流量有深入的了解,掌握我 们用户的行为情况,便于我们针对性的调整运营战略,在正在到来的 移动互联网大潮中未雨绸缪,迎接即将到来的挑战。
• 针对用户的需求分析作为中国移动具有先天的优势,海量的CMWAP、 CMNET的日志信息蕴含着巨大的财富,通过用户移动互联网行为分析 ,一方面让我们更了解我们的用户,实现个性化需求的识别。同时在 有限的资源情况下及时的为用户提供个性化的产品生产、个性化的匹 配/分发。
• 通过针对用户上网行为的分析实现个性化需求的识别,成为数据部迫 不及待需要解决的问题;同时在流量经营和精细化的营销方面具有非 常重要的战略意义。
分
虫
内容树 网站树
数据索引
集
分
析
WAP黄页库
用户行为模型
GPRS
析
内容属性
分析竞争业务
精确发展整用理户课件 细分营销活动
用户属性
个性化内容
结 果 呈 现
5 个 引导自有业务 应 用
研究目标
• 研究一种适应分类体系变化的海量网页快速分类系统,要求如下: – 实现一个快速爬取手机用户访问日志的方法,需要深入到用户访 问页面的标题、正文信息以及相关网页链接。 – 针对手机互联网,提出一种正文提取的方法。基于分块的基础上 ,提取每个信息块的信息量,并计算各个分块和网页title的相似 度,最终确定正文块。 – 基于主题的多分类方法。文本不被看作仅仅是由一些特征词所组 成的,而是被看作是由一些主题构成的,主题是由一些特征词构 成的。通过样本中不同类别的主题分布,实现预测出一个新的文 本到底属于什么类别。
整理课件
研究总体框架
• 手机上网用户行为分析项Fra bibliotek研 究的总体架构如下:
– 多数据海量数据预处理 – 海量数据存储和计算 – “客户-内容”特征类标签分
层可扩充体系 – “客户-内容-业务”三维匹
配矩阵 – 前台应用管理模块
“客户-内容”特征标签 可视化筛选界面
前台应用管理平台
热点关注活跃客户 明细导出器
– 数据清理和融合层:它负责对采集的数据进行清洗,归一化后存入海量数据存储设备 。为了更深层次分析用户行为,它还负责网页收集和爬取、网页分类、应用协议分析 ,以及用户属性的获取等功能。
– 网络统计和用户行为分析层:它负责系统的核心应用功能实现,分为手机和有线网络 流量统计分析、用户个体和群体行为分析、以及游戏、音乐等应用业务专题分析等。
内容分类 更新器
多数据源海量数据预处理平台
海量数据存储及计算平台
多数据源海量数据预处理管理器
海量数据存储及计算管理器
整理课件
数据接入 采集器
数据清洗器
Hadoop分布式 计算系统
Hive分布式 数据仓库
运 行 状 态 监 控 器
系
统
监
系控
统及
管运
理 器
行 管
理
平
台
系 统 日 志 管 理 器
研究总体框架
中国移动集团级重点研发项目 结题汇报报告
项目名称:手机上网用户行为分析系统
4/1/2021
目录
一. 课题目标实现情况 二、主要研究成果(整合后)
整理课件
研究背景
“十一五”期间,我国网民规模跃居全球第一,宽带普及率接近100%, 手机网民规模迅速发展,互联网应用更加深入,推动着社会进步和人们 生活方式的变革。随着移动互联网近几年快速的发展,作为移动互联网 关键环节的中国移动正在感受这个浪潮带来的冲击。
• 基于主题的分类方法以PLSA的模型的理论基础,通过抽象出一个虚拟的主题 层,通过文档和关键词之间的共生关系,来求解主题和各文档的关系及主题 和关键词的分布情况。以及在求解过程中所采用的EM迭代算法。
整理课件
主要技术方案和关键技术