当前位置:文档之家› 电视用户大数据分析报告

电视用户大数据分析报告

电视用户数据分析文档修改记录目录1 总体描述 (4)1.1 建设目标 (4)1.2 整体架构 (4)2 功能实现 (6)2.1 数据采集模块 (6)2.1.1 数据收集 (6)2.1.2 数据处理 (6)2.2 数据分析 (7)2.3 数据可视化 (8)2.4 系统管理 (9)3 初步方案 (10)3.1 C平台接口日志分析 (10)3.2 流水文件分析 (11)4 技术实现 (11)1总体描述1.1建设目标互联网电视是建立在通信网络上的互动性视频服务,可以非常灵活地实现电子菜单、节目预约、实时快进、快退等操作。

通过对OTT用户的实时数据收集,统计分析,建设实时数据分析系统,对OTT的EPG界面设计、内容运营有着重要意义。

系统在通过对OTT业务运营平台数据收集的基础上,实时(定期)获取用户行为数据,结合业务运营平台数据日志、用户端APK上报日志等数据,通过大数据处理平台(如Hadoop),对OTT的各纬度指标进行统计分析,并提供用户自定义分析功能,进行数据展示,为EPG的界面设计和运营建设提供决策依据。

1.2整体架构负责整个互联网电视运营中心平台或者分平台系统的原始基础数据的获取,包括2部分内容:(1)平台日志:结合运营平台的日志管理模块,实现获取并接收用户的行为数据;(2)APK日志上报。

提供数据接口,且支持FTP等传输导入。

数据抓取用于接入存储数据,目前分为三部分:(1)C平台各业务系统通过AOP方式将各接口调用情况输出标准日志,由FLUME进行抓取;再通过KAFKA将数据输送到STORM 中;STORM 将元数据直接存放到HDFS中。

(2)各业务系统的错误日志转换为json后直接存放到ES中,方便查找。

(3)将流水文件(需转换为csv格式)和流水日志(导出txt格式)通过文档上传系统上传到HDFS中,文件所在的文件夹以当天日期命名(减少需处理的文件数量,提高效率)。

●数据分析基于hadoop大数据处理技术,将数据收集获取到的基础数据,进行数据预处理、数据统计计算,包括数据排重、数据清洗、结果展示指标计算等,并将原始数据、结果表数据进行存储和备份。

根据多维度的数据展示需求,设计结果表数据,并对其进行实时统计计算,并将结果数据,推送给前端展示平台。

另外还提供用户自定分析功能,用于对原始数据和结果表数据的自定义查询和分析功能,便于非数据分析人员对系统进行二次分析。

数据分析用于对指定数据进行切割分解为各个维度,给展示系统提供数据支撑:(1)由STORM 对C平台接口日志进行处理,将处理后的数据存放到ELK中进行展示。

(2)由SPARK离线处理HDFS上的流水文件,将处理后的数据保存到mongodb中。

(设定时任务每天零点自动开始SPARK任务,对以前一天日期命名的文件夹下的数据进行处理)。

●可视化系统(BI)BI系统负责可视化数据分析模块建设,将数据分析的数据,在显示终端进行可视化图形展示。

BI系统是对分析后结果进行展示,用于图形化展示最终的分析结果:初期是使用ECharts 等图表插件绘制展示图形;后期由项目根据传来的数据和模型自动绘制图形。

数据挖掘对离线数据进行分析,形成相关模型,并用模型对数据进行计算分析:使用SPARK Mllib (机器学习)训练模型,来完成精准推荐和视频打分等功能。

●元数据管理与数据质量管理系统元数据管理对接入的数据进行管理,数据质量管理是对云平台上存储数据进行质量控制,保证数据真实可靠。

2功能实现2.1数据采集模块2.1.1数据收集互联网电视运营大数据分析数据来源于各业务运营平台,数据分为APK上报数据、业务平台后台日志数据。

(1)终端首次开机上电后,主动向运营平台上报认证信息,终端经过认证后才能激活,认证信息包含了终端的基本信息;(2)获取到终端开机、心跳、浏览访问、直播、点播、回看、订购、遥控器按键、停留时间等行为数据;(3)获取到OT终端SN/MAC、软件版本号;(4)获取各终端活跃度信息:首次活跃时间,最后活跃时间,活跃总时长等活跃详情。

(5)获取用户搜索影视内容关键词信息,包含影视名称、演员名称等。

(6)获取用户点播详情:开始结束时间、点播内容、点播时长等。

(7)获取用户订购信息:订购时间、订购金额、退购时间、订购次数、退购次数等。

2.1.2数据处理(1)将运营平台上报提交的数据进行收集和预处理;(2)用户行为原始数据,经由数据标准化处理,支持对日志合并、数据清洗。

数据过滤操作,形成统一的数据结构;2.2数据分析通过对互联网电视运营平台的数据收集,建立OTT用户行为数据库,并在此基础上建立OTT用户行为分析指标,该指标主要包括以下内容:(1)提供OTT核心指标统计分析,包括日(总)用户数、日(总)访问量、视频播放量、人均停留时间等。

实时统计OTT在线用户数、总活跃用户数、总点击用户数、开机用户数、视频播放用户数、视频播放转化率、播放时长等指标;针对各指标展示,提供可视化图表展示,以及历史数据查询功能。

(2)提供用户健康度分析统计OTT总用户数、当日用户数、新安装用户数、留存率、活跃度等健康度指标,并提供图形化图表展示,以及历史数据查询功能;(3)提供用户终端信息统计分析,包括终端型号、MAC地理位置分析按终端盒子厂商、型号为纬度,统计分析OTT的访问用户数、播放用户数、播放量、播放转化率等指标,并提供可视化图形展示和历史数据查询;按终端软件版本,统计分析OTT的访问用户数、播放用户数、播放转化率等指标,并提供可视化图形展示和历史数据查询;按省份、运营商为纬度,统计OTT的访问用户数、播放用户数、播放量、播放转化率等指标,并提供可视化图形展示和历史数据查询;(4)提供用户所有页面的访问量、人均停留时间分析等统计OTT的各个页面的访问量、访问时间、访问时长等指标,并提供可视化图形展示;统计OTT各页面的来源路径和流出路径的用户量、访问次数等指标数据,并提供可视化图形展示;(5)提供节目内容播放路径分析按照关键路径分析,统计各核心业务的转化率,分析用户在标准路径中各步骤的流失情况,并以直观图表展现。

(6)提供页面热力图分析提供页面热力图功能,用户可以框选热力图区域,页面显示该区域的用户量、转化率、播放内容、次数等数据。

(7)提供节目内容分析,提供按播放类型分析,如点播、专题等;提供按内容分析,包括电视、电影、综艺、体育等对点播业务,提供从内容分类到节目名称不同纬度的指标统计,统计指标包括访问量、播放量、播放转化率、排名等指标;对其他业务类型,按照节目内容的不同纬度,提供访问量、播放量、播放时长、节目排名等指标统计。

(8)提供用户订购分析,订购是否成功、订购来源、订购失败原因、订购编号、订购时间等分析。

,统计产品的订购量、取消订购量、续订、订购总数计费、业务量排名等指标统计;次数的统计;(9)提供用户兴趣分析根据用户产品包订购记录及观看记录进行用户画像,并对用户观看偏好进行分析,建立用户兴趣表。

2.3数据可视化(1)提供大屏数据可视化针对大屏数据展示,进行定制化,实时展示当前在线用户数、点播用户数、直播用户数、回看用户数等核心指标。

(2)提供多种用户视角,多种指标纬度数据可视化展示针对OTT的各项数据,系统提供基于整体概况、分业务、地理信息、页面、路径、内容、运营等多种纬度,包括访问量、转化率、播放量等多项指标的统计,并提供可视化展示。

(3)支持用户自定义分析系统支持用户自定义查询,允许用户根据自身业务需要,自定义查询分析系统数据,并支持选择指标,定制折线图、饼图等可视化图形进行展示,可以将分析结果以EXCEL 形式输出。

(4)提供数据导出功能提供将统计结果的数据以EXCEL文件的形式导出,便于相关人员对数据进行二次分析和图表制作。

2.4系统管理(1)用户权限管理针对业务不同层次的需求,提供系统管理员、普通用户等不同角色的页面权限管理;(2)提供自定义功能任务管理针对自定义分析,提供任务管理功能,包括任务创建、删除、状态查看、结果查看等功能。

(3)元数据管理与数据质量管理元数据管理对接入的数据进行管理,数据质量管理是对云平台上存储数据进行质量控制,保证数据真实可靠。

3初步方案3.1C平台接口日志分析1、通过C平台VOD/OMS/BMS等模块收集系统日志,Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

2、采用分布式消息系统kafka中间件,处理用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。

3、对采集到的数据进行实时分析,采用apache的storm。

4、HDFS分布式文件系统完成海量消息信息的存储。

HDFS 通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。

5、采用分布式计算算法,完成数据分析、数据挖掘。

3.2流水文件分析一期:完成数据抓取保存元数据。

二期:完成数据分析,完成BI系统。

三期:优化全套流程,提高性能,用户可自定义模型,BI系统自动完成对应维度的图形展示。

四期:完成数据挖掘。

4技术实现采用Hadoop处理系统,实现对用户行为数据的实时处理和统计分析,主要功能如下:(1)采用Hadoop2.X,支持多种平台组件Hadoop系统最新的版本,并支持HDFS、Hbase、Map/Reduce、YARN、Hive等一系列组件。

(2)平台管理可对平台的系统服务,硬件进行安装部署,监控告警,方便运维人员对系统进行管理。

对所有功能提供基于Web的控制台操作页面,并支持良好的UI操作,使得管理员能够轻松驾驭大数据平台。

对常用的管理功能,如软件的启停、软件中某类服务的启停、节点角色配置、高可用设置、负载均衡等,管理系统也将提供一键式的操作,降低管理员的工作复杂度,减少管理工作量。

(3)监控功能提供各组件全面的监控功能,对平台中各个层次的软硬件状态、性能等进行全方位的监控,并以直观的方式加以展现。

设备监控将提供各服务器节点、存储设备、网络设备的状态和运行性能监控,以及设备中各部件的基本信息监控,如CPU、网卡、硬盘等部件的信息。

(4)告警功能对平台中各软硬件资源全面监控的基础上,提供健全的告警机制,在故障发生的第一时间将告警通知给管理员。

管理系统提供多种方式的告警探测方式,可以对各种状态异常直接进行告警,也可以基于某项监控指标设定阈值进行告警,如磁盘空间利用率到90%需告警。

(5)调参功能实现大数据平台内各种软件的参数修改,自动完成相关参数在各软件、各服务节点上的设置并让其生效。

相关主题