移动互联网业务端到端感知分析白皮书
(V1.0)
中国移动通信有限公司网络部
2014年3月 移动互联网业务端到端感知分析白皮书
- 1 - 目录
1 总述 ..................................................................................................................... 2
2 整体分析思路 ..................................................................................................... 2
3 14年工作的突破点 ........................................................................................... 4
4 感知评估 ............................................................................................................. 5
4.1 业务分类 ...................................................................................................... 5
4.2 通用质量评估指标 ...................................................................................... 5
4.3 分业务的质量评估指标 .............................................................................. 6
5 关联定界 ............................................................................................................. 7
5.1 端到端感知关联定界理论和总体分析思路 .............................................. 7
5.2 端到端业务质量关联定界方法 .................................................................. 9
6 后续试点内容 ................................................................................................... 12
移动互联网业务端到端感知分析白皮书
- 2 - 移动互联网业务端到端感知分析白皮书
1 总述
移动互联网业务端到端感知分析是集中性能管理的核心应用,主要用于对客户在使用移动互联网业务时进行端到端的客户感知评估,并对客户感知问题关联定界到终端-网络-平台的某一端到端环节。
移动互联网端到端感知分析主要包括两大内容,一是通过每用户每业务过程的解析和客户感知评估,实现总体客户感知和业务质量的评估;二是对客户感知问题进行端到端环节的关联定位。
对移动互联网端到端感知分析的应用主要包括两大方面,一是客户感知的实时监控,主要包括对重要客户的感知及重要业务质量的实时告警监控,预处理和派单;二是客户感知的专题分析,包括对总体客户感知情况,各重要业务质量的分析。
2 整体分析思路
目前端到端感知分析整体上有两类方法:
方法 描述 优点 缺点
自下而上:
从KPI入手自下而上多维度模拟用户感知 先尽可能多地从各环节的数据源收集KPI信息,包括网元、网管系统等,然后建立模型通过KPI的关联去映射KQI。 1、该方法主要基于现有网元、网管数据,信令数据不是必须的。
2、基于各环节KPI定位网元问题较直观方便。 1、不直接直观反映客户感知,准确性难验证。
2、易造成数据源的泛滥,收集大量不必要的数据。 移动互联网业务端到端感知分析白皮书
- 3 - 自上而下:
从KQI入手自上而下进行钻取关联分析 先根据业务需求确定要管理的哪些业务(画出SOC需运维的最小颗粒业务树),每类业务通过哪些指标衡量业务质量?在此基础上采集数据评估这些KQI,再通过模型向下,实现钻取。 1、通过KQI可真正的、直观的反映客户感知。
2、根据客户感知分析,再向下钻取关联KPI的需要,采集有用的KPI数据,避免数据泛滥。 1、需采集信令数据。
2、通过有限点的信令定位端到端的问题技术难度高。
经研讨,各省一致认为基于KPI自下向上模拟用户感知的评估方法不能直观反映用户感知,且准确性难以验证,而基于KQI自上而下的方法更能直观反映客户感知,并能进行性能问题的钻取和关联定界,最终落地到终端、网络、SP三个维度的问题,相对更好。
因此,建议后续分析主要采用自上而下的方法。具体到感知评估、问题定界,思路如下:
1、感知评估方法:
(1)针对全网感知评估考核,建议采用简单统一的指标,比如成功率、时延和下载速率等。
(2)针对热点业务精细专题分析,考虑到不同业务的特点有较大的不同,建议建立针对不同业务类型的指标体系。例如浏览类业务评估5项指标(首页响应成功率、首页响应时长;页面刷新成功率、页面刷新时长;页面下载速率)、视频业务评估5项指标(播放成功率、播放等待时长;停顿次数、停顿时长占比、播放中断率)。 移动互联网业务端到端感知分析白皮书
- 4 - 2、关联定界程度:
集中性能管理团队开展端到端分析发现性能问题,定界到质差网元、质差小区、质差用户、质差终端、质差SP;
专业维护团队进一步关联信令、话统、拨测、投诉、告警等进行根因溯源,分析定位问题原因,可将成熟的关联分析规则梳理前移至性能管理系统。
3 14年工作的突破点
14要重点围绕4G移动互联网业务,开展端到端感知分析。与以往传统的端到端的信令监测分析相比,14年要实现3个突破:
(1)要实现真正KQI统计分析。以时延为例,传统是按照单一事务操作关联统计Get时延、Post时延等指标,现在是按照完整业务过程关联统计打开页面时延等KQI指标,精准表征客户感知。
(2)要直观反映客户感知。以往是基于KPI建模模拟客户感知,现在是直接基于KQI反映客户感知。
(3)从面向网络向面向业务转变,且能更精准的定界问题。以往是面向网络、网元、小区聚合指标,基于均值寻找问题,可发现网络自身问题,但对终端和业务平台引发的一些问题,不能及时发现,也不能精准地定界。例如:某业务平台的服务器由于拥塞,导致其TCP链接成功率仅50%,该业务质量劣化明显,但从网络来看,总体的TCP链接成功率达99%,该业务的质量劣化就被淹没在大量成功TCP链接中而不易被发现。今年要从面向网络向面向用户转变,实现每用户每业务的感知评估,并总结自上而下的溯源关联规则,实现精准的移动互联网业务端到端感知分析白皮书
- 5 - 问题定界定位。
4 感知评估
通过对移动互联网业务进行分类,对每类业务制定相应的贴近客户感知的KQI指标,对每用户每业务过程进行KQI计算,实现客户感知的评估。
4.1 业务分类
业务的分类可以随着移动互联网的发展而不断更新,对每一种移动互联网业务应将其归为其中某一类。详情见《业务分类和DPI识别需求规范》。
根据4G业务大带宽的特点和目前现网4G业务的模型,重点关注四类移动互联网业务,即网页浏览类、视频类、即时通信类、应用下载类。
4.2 通用质量评估指标
针对全网感知评估考核,建议采用简单统一的指标,比如成功率、时延和下载速率等。
通过紧扣关键感知点建立用户感知评估标准,将不同业务的感知(网页能否打开、网页打开快慢、视频能否打开、视频播放是否流程、业务登录是否成功等)聚类成3类感知评估指标。
1、http业务建立成功率;
2、小流量http业务时延;
3、大流量http下载速率。
移动互联网业务端到端感知分析白皮书
- 6 - 4.3 分业务的质量评估指标
业务端到端感知指标体系设计的目的是让用户真实体验能通过指标进行量化,并使指标对于用户和业务人员易于理解。从用户感知角度,虽然各种客户端的实现机制各有不同,但用户可观察到的体验指标应基本一致。从客户主观角度,“信息交互的可用性”、“信息交互的及时性”和“信息交互的稳定性”是衡量业务质量和客户感知的三个关键维度。
从3个关键维度出发,不同业务类型建议业务质量KQI指标分类如下:
业务类型 信息交互的可用性 信息交互的及时性 信息交互的稳定性
浏览类 首页响应成功率
页面显示成功率 首页响应时长
页面显示时长
页面下载速率
视频类 流媒体播放成功率 流媒体播放等待时长
流媒体业务下载速率 流媒体播放中断率
即时通讯类 业务登陆成功率 业务登陆时延
大数据(视频/图片)传输上下行速率 异常掉线率
应用下载类 应用下载成功率 应用下载速率
四类重点业务的KQI指标描述如下:
业务类型 指标名称 指标描述
1、浏览类业务 首页响应成功率 用户手工打开浏览器,首次输入URL单击进入页面后,浏览器成功响应的比例或概率
首页响应时长 用户手工打开浏览器,从首次输入URL单击进入页面后,到浏览器窗口栏开始有响应的时长 移动互联网业务端到端感知分析白皮书
- 7 - 页面显示成功率 用户手工打开浏览器后,数次输入URL打开(或刷新)页面,页面能够完全显示的成功比例
页面显示时长 用户手工打开浏览器后,输入URL打开(或刷新)页面,页面能够完全(重新)显示的时长
页面下载速率 用户手工打开浏览器后,输入URL打开(或刷新)页面,页面源文件完全加载到客户本机缓存的速度
2、视频类业务 流媒体播放成功率 当用户浏览视频网站播放音频、视频等多媒体文件时,从点击“播放”按钮开始,到多媒体文件开始播放的成功率
流媒体播放等待时长 当用户浏览视频网站播放音频、视频等多媒体文件时,从点击“播放”按钮开始,到多媒体文件开始播放的时长
流媒体播放中断率 当用户浏览视频网站播放音频、视频等多媒体文件时,在流媒体缓冲器未下载满之前,限于客户端和服务器端的流媒体处理能力或网络传输质量等原因,导致下载过程重启或中断的几率
流媒体下载速率 用户播放音频、视频等多媒体文件时,文件下载速率
3、即时通信类业务 业务登陆成功率 用户登陆即时通讯业务的成功率
业务登陆时延 用户登陆即时通讯业务的成功率
异常掉线率 用户正常使用中(如长连接或者心跳过程),异常发生的掉线比率
大数据传输上行速率 发送图片、视频等大数据时,计算上行传输速率
大数据传输下行速率 在接收图片、视频等大数据,计算下行传输速率
4、应用下载类业务 下载成功率 下载会话完成次数/全部下载会话次数;下载成功指从HTTP请求到正确响应再到会话结束整个过程全部正常
下载速率 下载会话流量/下载会话时长;下行流量: 全部会话的下行流量之和,下行时长: 全部会话开始时间到会话结束时间之和
5 关联定界
关联定界,是通过采集相关信令、网管等数据,对感知问题定位到终端、无线网、核心网及业务平台的一个或几个环节,并对问题原因进行初步的描述。
5.1 端到端感知关联定界理论和总体分析思路
用户手机上网按时间先后要经过附着(ATTACH),PDP激活,DNS解析,