当前位置:文档之家› 一种基于用户商业行为的数据采集分析方案_卞琛

一种基于用户商业行为的数据采集分析方案_卞琛

2015.07随着中国互联网和移动网络的普及、全国网络带宽的全面提速和手机的价格一降再降,互联网用户数越来越多[1]。

同时,互联网的应用也出现了爆发式增长,原本单机的应用,几乎都在逐渐增加互联网功能,原本基于互联网的应用,现在正在积极扩展功能并疯狂搜集数据。

用户在互联网上活动的增多,留下的痕迹和数据也越来越多[2]。

如何利用好用户在网上留下的痕迹数据从而能够洞察用户的一些使用习惯,深层次挖掘用户需求,就非常值得研究。

一些互联网平台的沉浮都在彰显着大数据分析的威力。

从2012年开始大数据概念开始进入人们的视野,并有了一些初步应用。

大数据(big data)[3]又被称为称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[4,5]。

因此,对于用户行为的分析和研究是基于大量真实数据样本的,而不是随机抽查。

而在电子商务平台,为做到有的放矢,提高利润率,对海量用户活动数据的采集、分析和推荐必不可少[6]。

研究用户商业行为数据的采集分析问题,提出用户数据的采集、分析和推荐的一整套解决方案。

文章分为两个阶段,第一阶段将用户商业行为划分为两类:访问日志数据和行为操作数据,以行为操作数据为重点,制定采集规则和指标体系,设计采集过程;存储结构采用Hadoop 的数据仓库[7],以应对大数据负载压力,Hive 工具完成ETL 工作[8]。

第二阶段,通过应用关联规则推荐模型将用户行为数据进行关联规则比对,向用户呈现最优推荐。

1用户行为数据采集和分析电子商务平台运营的核心是利润。

利润可以由图1中的公式直观体现。

暂不考虑营销手段提升的访客数,仅关注访客到达网站后的“购买转化率”。

通过上面这个简单的公式化推导,得到这样的结论:无论是流量引导还是购买都存在各种转化率问题。

比如,打广告引导流量,就要知道广告会展现多少次,然后广告点击率就是到店的转化;这些人进入店面后会不会购买也不确定,这就会产生购买转化率……这些环节都是一条链上的组成部分,只要任意一环出现问题,都会导致营业额下降从而引起利润下降。

作为电商的运营者最关心的一个指标是“购买转化率”。

购买转化率就是成功进行了购买动作的访问量/总访问量,该指标用于评估网站内容与网站宣传对访问者的吸引和引导效果。

比如,某个商品页面点击率很高,但是购买的很少,那就很能说明问题,该商品很可能放置了虚假宣传信息或者其他什么原因,从而使得当前商品描述页面的转化率降低,那必然导致最终成交量的降低。

通常来说,用户行为数据采集和分析的主要过程步骤如图2所示。

一种基于用户商业行为的数据采集分析方案卞琛1,2,英昌甜2,修位蓉3(1.乌鲁木齐职业大学信息工程学院,乌鲁木齐830002;2.新疆大学信息科学与工程学院,乌鲁木齐830046;3.乌鲁木齐市技工学校信息工程部,乌鲁木齐830031)摘要:为了有效利用用户在互联网上留下的痕迹数据,提高电子商务平台的购买转化率,提出一种基于用户商业行为的数据采集分析方案。

该方案对痕迹数据进行分类采集,通过即定评价指标进行深层次挖掘,与关联规则库进行比对匹配,形成满足用户需求的推荐内容。

应用表明,痕迹数据的采集全面可靠,评价体系指标设定合理,推荐内容符合用户满意度。

关键词:大数据;商业行为;数据挖掘;推荐系统基金项目:国家自然科学基金资助项目(61262088,61462079);新疆维吾尔自治区自然科学基金资助项目(2011211A011)。

作者简介:卞琛(1981-),男,讲师,博士,研究方向:网络计算、分布式系统;英昌甜(1989-),女,博士,研究方向:分布式文件系统、内存计算;修位蓉(1979-),女,讲师,硕士,研究方向:电子商务、数据挖掘。

收稿日期:2015-01-11图1利润及提升方式示意图图2用户行为数据采集过程57DOI:10.16184/prg.2015.07.0282015.07从上述基本过程可以看出,用户行为数据的采集是整个过程的起点,足够的正确的用户行为数据是后面所有处理过程的基础。

那么,所谓“足够”的用户行为数据指的是什么呢?从用户登录网站所留下的痕迹来看,主要有两种数据:(1)用户访问Web 网站所留下的服务器端的访问日志数据。

(2)用户在Web 网站的每个网页中的具体行为操作过程数据。

1.1用户日志数据用户日志数据的采集过程比较简单,在服务器端设置好日志策略,定时从服务器中备份日志,交由统计工具生成报告。

目前很多统计工具都主要是针对第一种数据类型做的各种分析。

例如,Google Analytics [9]、百度统计、百度移动统计等。

这些统计平台通过用户对网站地址的访问来研究用户在互联网上的使用习惯,通过这些分析工具的指标解析,可以完成内容分析、移动分析、转化分析、社交分析、广告分析等分析报告[10,11]。

对于非电商平台来说,上述分析报告已经可以给企业的经营提供足够的指导和决策支持。

但是对于电子商务平台来说,这些上述分析结果远远不够。

1.2用户行为数据一般来说,访客从进入网站首页开始到购物付款完成,至少会经历以下6个步骤:(1)搜索商品。

(2)查看商品详细。

(3)进入购买向导。

(4)填写购买数量和送货地址。

(5)选择支付方式。

(6)成功支付。

其中每一步都有可能造成用户流失,为了提高最终的购买,尽可能地提升产品销量,就需要对每一步的顾客行为做出精确分析,找出流失率过高的步骤,查找原因,及时改进,才能够有效地提升产品的销量。

这就需要找到真正的问题根源,提高整个网站的购买转化率。

在用户行为数据采集过程时,评价指标包含以下几个方面:(1)PV :page view 页面浏览量。

(2)UV :unique visitor 访客。

(3)CV :click visit 页面元素点击量。

(4)IP :独立IP 数。

(5)PT :用户在某一页面的停留时间。

(6)PageFrom :贡献下游浏览量。

(7)Source :访问网站来源。

具体的数据的分析过程如下:(1)记录用户行为数据。

行为数据的记录分为两大类:用户请求网站资源形成的服务器日志和用户在每个页面中的具体操作过程。

这一过程需要记录大量的用户访问网站资源的数据(资源请求数据大多可从网站访问日志中获取;页面具体操作数据可通过JS 进行记录)。

(2)统计和分析访客数(Unique Visitor ,UV ),独立IP 数(IP ),关注页面的访问量(PageView ,PV ),页面中重点元素的点击量(Click Visit ,CV ),页面停留时间(Page StayTime ,PST )等数据。

然后根据条件对分布式数据库的数据进行初步过滤和清洗,对产生的中间数据进行计算和统计,从而确定购物过程中每个过程的流失率。

(3)计算页面内关键元素的点击操作相关数据,操作时间,页面内容浏览完整度等数据,作为推荐系统的基础数据,也可以形成单独的数据统计报告。

(4)将用户行为数据提交关联规则库进行比对,选择匹配度最高的规则,向用户进行推荐。

2解决方案及核心实现对于一个大型的电商平台来说,用户访问数据每天可高达10TB 甚至更高。

针对如此大量的数据还要做到有效快捷的存储,只能抛弃所有的传统关系型数据库,采用分布式数据库Hadoop 来应对,同时后续的数据清洗和过滤过程,也可以借助Hive 数据仓库工具的高并行性和高性能来实现。

2.1Hadoop 分布式系统Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System )[12],简称HDFS 。

HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost )硬件上;而且它提供高传输率(high throughput )来访问应用程序的数据,适合那些有着超大数据集(large data set )的应用程序。

Hadoop 文件系统数据存储流程图如图3所示。

2.2HIVE 工具集Hive 是建立在Hadoop 上的数据仓库基础构架。

它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。

Hive 定义了简单的类SQL 查询语言,称为HQL ,它允许熟悉SQL 的用户查询数据[13,14]。

同时,这个语言也允许熟悉Map/Reduce 开发者的开发自定义的mapper 和reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。

图3HDFS 写入数据流程图582015.072.3解决方案框架提出的用户行为数据采集分析系统采用分布式数据库Hadoop 来存储,同时后续的数据清洗和过滤过程,借助Hive数据仓库工具的高并行性和高性能来实现[15]。

经过Hive 清洗之后的数据,会将其存储在Microsoft SQLServer 群集上面,利用Microsoft SQL Server 强大的商业智能分析工具来完成二次统计,再通过专门编写的用户行为分析系统(Web 平台)呈献给决策者,供决策者查看分析结果甚至回放指定用户某一时间在某个网页上的操作过程,具体框架如图4所示。

2.4核心实现用户行为数据分析的最终目的是:根据大量用户的历史浏览或购买商品记录,利用一定的规则推算出商品之间的相关关系,向用户进行商品推荐,从而提高购买转化率。

因此解决方案核心部分采用关联规则推荐模型进行设计。

关联规则模型是一种基于数据挖掘技术的推荐模型,经典的算法是Apriori 算法,核心是采用逐层迭代搜索的方式挖掘频繁项目集合,使集合中的项目数目不断增加,以此获得关于用户的频繁项目集合,然后定义推荐系数为关联规则的置信度乘以区间距离,最后利用推荐系数选择N 个值较大的项目作为推荐项目集合向用户推荐[16,17]。

由用户行为数据分析到项目推荐的基本过程是,首先对用户历史访问数据进行离线分析,构造事务数据库,并通过关联规则挖掘建立关联规则和用户的频繁项目集合,然后根据关联规则集合找出用户支持的所有关联规则,以此为目标用户进行推荐。

关于关联规则挖掘,就是发掘大量数据文件中项目之间的相互联系,它属于数据挖掘领域的一个重要分支,其形式化表示为:令C 、D 为项目集合I 的一个子集且满足C 哿I 、D 哿I 、C ∩D=,则关联规则是形如C →D 的一种蕴含表达式,其中C 为关联规则的条件,D 为关联规则的结论。

再令事务Transaction 为I 的一个子集且满足Transaction 哿I ,不同的事务构成事务集T 存放于事务数据库中。

关联规则从某个侧面揭示了事务之间的某种联系,此时关联规则C →D 在事务集T 中的支持度表示为:Support (C →D ),它是T 中包含C ∪D 项目集的百分数,用于表示T 中同时出现C 和D 的概率,概率越大说明C 、D 之间的联系越密切;同时C →D 在T 中的置信度表示为:Confidence (C →D ),它是指T 中支持C 的事务中同时支持D 的百分数,用于表示在出现C 的条件下出现D 的概率,即条件概率。

相关主题