当前位置:文档之家› 用户行为分析系统技术建议书

用户行为分析系统技术建议书

信利SensitiView宽带用户行为分析系统技术建议书西安信利软件科技有限公司(版权所有)目录1、简介 (3)1.1.开发背景 (3)1.2.术语: (3)2.项目概述 (4)2.1.产品简介 (4)2.2.商业机会 (4)2.3.系统组成 (4)2.4.子系统功能描述 (5)2.5.运行环境 (8)3.系统总体架构 (9)3.1.系统目标 (9)3.2.技术方案说明 (9)3.3.网络拓扑图 (10)3.4.网络拓扑说明 (11)3.5.系统整体结构图 (11)3.6.系统中各服务器介绍 (12)3.7.模块清单 (13)4.各模块说明 (14)4.1.数据采集模块 (14)4.1.1 功能概述 (14)4.1.2 模块设计要素说明 (15)4.1.3 结构 (15)4.1.4 详细功能说明 (16)4.2.数据汇总存储模块 (17)4.2.1模块功能概述 (17)4.2.2模块设计要素说明 (17)4.2.3结构 (17)4.2.4详细功能说明 (18)4.3.数据分析处理模块 (18)4.3.1模块功能概述 (18)4.3.2模块设计要素说明 (18)4.3.3详细功能说明 (18)4.3.4程序逻辑流程 (19)4.4.数据展示模块 (19)4.4.1功能描述 (19)4.4.2模块设计要素说明 (21)4.4.3结构 (21)用户信息管理:对用户信息进行查询、统计等。

(22)4.4.4程序逻辑 (22)4.4.5系统页面设计 (22)5.其他接口说明 (24)1、简介1.1.开发背景互联网应用纷呈,市场空间快速扩张。

电信运营商在获取宽带接入收入之外,需要进一步参与互联网市场价值分配,不断开发出能够发挥电信运营商优势的互联网业务。

而这需要电信运营商及时掌握互联网用户的需求特点。

面对庞大的互联网用户群体、广泛多样的用户需求,针对性营销成为提升营销效率、改善营销效果,达成营销制胜的必选手段。

而为了能够有效的实现针对性营销,需要首先获得目标用户的范围。

1.2.术语:HOST:特指HTTP协议中的HOST信息,如访问某一页面/z/2008qglh/index.shtml则对应的HOST信息为:URL:特指访问WEB站点的地址信息,如访问某一页面/z/2008qglh/index.shtml则对应的URL信息为:/z/2008qglh/index.shtml一级域名:特指访问WEB站点的一级域名信息,如访问某一页面/z/2008qglh/index.shtml则对应的一级域名信息为:应用分类:指按照预先建立好的分类模型,将用户的行为信息进行分类,例如访问,进行应用分类则为新闻类。

用户分类:根据用户的网络行为信息及信息对应的应用分类的结果,将用户进行分类,每个用户可以在多个分类中,如新闻类用户等。

用户聚类:根据用户的网络行为及分类结果进行数据挖掘和各类关联,从而可以获得用户的相关聚类信息。

例如喜欢新闻类的用户一般也喜欢某类。

2. 项目概述2.1.产品简介该产品通过对用户的网络相关行为进行有效分析,根据提取出的应用特征对用户进行有效分群,细致把握用户互联网应用需求,为实现基于分群的针对化营销提供有效支持。

2.2.商业机会目前电信拥有大量的宽带用户,使用的大多是简单包月+物理带宽为基础的粗放型业务发展模式;然而该模式无法真实的反应用户的潜在需求,网络消耗率日益增长,随之扩容的频率也越来越高,不符合集约化,精细化的发展趋势,无法给电信带来更大的收益。

另外电信在向信息超市的提供者与管理者的角色转型过程中,缺少“叫好又叫座”的SP/CP业务,同时电信本身所推出的绿色上网、在线服务等增值业务对用户也缺少足够的吸引力。

为了实现宽带业务的精耕细作,推进SP/CP业务以及多样增值业务的快速、健康发展,目前电信急需对宽带用户的上网行为进行了解,从而能够及时获知整体用户的网络行为或倾向、从而推出相关的业务,更好的吸引用户,进而提高自身的收益,促进宽带业务的健康发展。

同时面对庞大的互联网用户群体、广泛多样的用户需求,针对性营销成为提升营销效率、改善营销效果,达成营销制胜的必选手段。

而为了能够有效的实现针对性营销,需要首先获得目标用户的范围。

2.3.系统组成用户行为分析系统由四大模块组成:信息采集,信息汇总存储,信息挖掘统计,系统展现、输出:ID 名称功能描述08PN03-SRS-BHCOLLECT 信息采集模块采集用户行为数据,负责用户行为数据的来源。

目前主要通过星空极速客户端,采集用户行为信息,主要包括访问的网站、搜索的关键字、计算机进程、电脑硬件信息、网页收藏夹等信息。

采集到的数据上传给数据存储汇总模块。

08PN03-SRS-BHSTORE 信息汇总存储模块汇总并存储采集插件上传的数据。

汇总后的数据输出到原始数据库中。

08PN03-SRS-BHANALYSIS 信息挖掘统计模块系统的核心模块,定期从原始数据库中提取出数据并进行统计、挖掘和分析。

包括简单的排名统计、用户行为分类、用户分类、用户聚类等;分析结果输出到统计数据库中。

08PN03-SRS-BHPRESENT 系统展现、输出模块展示用户行为分析的结果。

从结果数据库中获取数据,以web、列表、统计图、报表等形式展现出来。

08PN03-SRS-BHOTHER 其他模块系统后续相关功能的完善,如增值业务使用情况,用户自然属性信息等相关功能。

2.4.子系统功能描述各个模块对应的子系统功能如下:模块名称功能点ID实现版本核心价值工作内容其他重点跟进信息采集模块采集用户计算机主要配置信息08PN03-SRS-BHCOLLECT-F011.0了解用户计算机配置情况获得用户计算机的硬件、软件配置信息,如CPU、内存、已安装软件等信息。

部分信息也可以从星空极速后台直接获取。

采集用户上网基本信息08PN03-SRS-BHCOLLECT-F021.0反映用户基本上网行为获得用户上网的基本信息,如上网时长、上网流量等信息部分信息也可以从星空极速后台直接获取。

采集用户访问URL信息08PN03-SRS-BHCOLLECT-F031.0反映用户页面访问行为获得用户进行WEB访问的有用URL,过滤掉图片等无用信息,并能够支持进行过滤,同时可以进行信息简单统计,上传指定数量信息(TOP N 机制)过滤条件可变,TOP N值可支持动态给定采集用户搜索关键字信息08PN03-SRS-BHCOLLECT-F041.0可以获知用户所关心信息获得用户使用baidu、google,yahoo等主要搜索引擎进行搜索的关键字信息,并且需要进行相关字符的解码处理先仅记录页面搜索信息,其他分类搜索暂不考虑采集用户使用进程信息08PN03-SRS-BHCOLLECT-F051.0可以获知用户日常使用程序的信息获得用户机器中启动的进程名称和使用时长过滤掉系统相关的进程采集用户收藏夹信息08PN03-SRS-BHCOLLECT-F061.0可以获知用户喜爱,同时可验证用户分类正确性获取用户收藏夹相关信息采集用户对应的邮箱地址信息08PN03-SRS-BHCOLLECT-F071.0为针对性营销提供目的地采集获取用户所对应的软件、WEB等邮箱地址信息WEB邮箱可以仅选常用邮箱其他采集信息08PN03-SRS-BHCOLLECT-F081.0其他反映用户行为信息例如用户访问网站是否收费,访问流量较多的前多少IP,P2P\VOIP信息可以逐步添加细化等采集信息上传08PN03-SRS-BHCOLLECT-F091.0将用户信息上传,进行汇总、分析将用户信息上传,进行汇总、分析上传过程需要进行加密,防止采集行为被用户感知,同时尽量做到压缩上传,减少通讯数据量信息汇总存储采集信息接收08PN03-SRS-BHSTORE-F011.0接收采集信息获得采集插件上传信息如果上传前压缩,则接收到数据之后需要解析。

采集行为信息入库08PN03-SRS-BHSTORE-F021.0保存行为信息将接收到的采集信息进行保存信息挖掘统计分类模型建立08PN03-SRS-BHANALYSIS-F011.0为分类提供前提根据行为特征划分不同的类别参见附录中的用户行为分析模型设计文档分类相关特征库形成08PN03-SRS-BHANALYSIS-F021.0为用户分类、行为统计等提供数据依据根据分类模型,形成URL,搜索关键字,进程等各类的特征库,为进行自动分类提供依据。

特征库需要长时间逐步完善。

数据清洗转换08PN03-SRS-BHANALYSIS-F031.0丢弃无用信息数据根据已过滤库、网页标题等信息将原始行为数据进行过滤,并以特定的格式进行保存。

应用分类08PN03-SRS-BHANALYSIS-F041.0对用户行为进行分类依据分类特征库,对用户行为数据进行分类并保存分类结果用户分类08PN03-SRS-BHANALYSIS-F051.0对用户进行分类根据用户的行为数据及其分类,将用户进行分类并保存分类结果用户聚类分析08PN03-SRS-BHANALYSIS-F061.0判定用户类别根据用户行为信息和类别,挖掘用户其他感兴趣类别相关热门统计08PN03-SRS-BHANALYSIS-F071.0获得整体以及每个用户的热门信息根据用户行为信息和分类结果,统计获得整网及各用户的热门信息模型训练验证08PN03-SRS-BHANALYSIS-F081.0验证整个模型的有效性通过一定时间内,根据大量数据统计的结果验证模型的正确、有效性。

需要不断逐步改进系统展现、输出WEB展现08PN03-SRS-BHPRESENT-F011.0以web形式展现统计信息以web页面的形式将系统统计信息进行展现自动生成报表08PN03-SRS-BHPRESENT-F021.0以报表的形式展现统计信息以报表的形式将系统统计信息进行展现提供对外接口08PN03-SRS-BHPRESENT-F031.1为其他系统提供接口为其他系统提供接口其他衍生业务分析08PN03-SRS-BHOTHER-F011.1了解现有增值业务使用情况获得用户试用现有增值业务的使用情况用户相关属性等信息收集08PN03-SRS-BHOTHER-F021.1获得用户基本信息,便于分类统计获得用户自然、社会、网络等属性从电信相关服务器获得定期营销调研08PN03-SRS-BHOTHER-F031.1更深入了解用户情况由市场营销人员进行完成、开发上可能需要提供输入、报表生成等接口2.5.运行环境操作系统采集插件 Windows XP 及以上中文简体操作系统 服务器 WINDOWS2003 或linux 系统 数据库 DB2或ORACLE系统支持语言 中文3.系统总体架构3.1. 系统目标本系统的主要目标是,通过分析用户的计算机行为(主要是上网行为),来确定用户的类型(喜好、兴趣等),从而实现对用户进行群分,并可将具有相同喜好的用户进行聚类,对不同类型的用户进行定向的营销和广告推送等商业活动。

相关主题