2010年第12期 福 建 电脑 75 非对称性相关技术应用于商业数据分析的研究 吴学超 (福建新大陆电脑股份有限公司福建福州350015)
【摘要】:通过条码识读设备和税控收款机可以容易地收集到大量的商业数据(购物篮数据),对这样 的商业数据的相关分析是商业辅助决策系统的一项重要内容。文章首先研究了购物篮数据项间的相关性, 分析了其非对称性的特点,引入了衡量非对称相关性的方法;并对统计独立性进行了研究,提出基于信息 熵的新方法用于检验非对称相关的统计独立性。最后,通过一个实例验证了上述方法的有效性。 【关键词】:数据挖掘;购物篮分析;相关性;对称性
在商业领域.条码技术和税控收款机技术的发展 使得商场、超市能容易地收集、存储大量的销售记录, 这些商业数据也称为购物篮数据(basket data)… 。在研 制新大陆税控收款机增值服务系统(商业营销辅助决 策系统)过程中,我们提出使用数据挖掘模型作为系统 的基础技术架构.购物篮数据分析是其中的一项关键 技术。 关联rassociation)分析是数据挖掘技术在购物篮数 据分析中的一项典型应用.其目的是挖掘购物篮数据 项间的有趣联系。在关联分析领域,已提出著名的 Apriori算法用于关联规则挖掘.Brin等人将关联规则推 广到相关(COrrelation)分析,文献[4,5]给出了相关分析 在商业领域的一些应用。然而.在构造商业数据挖掘模 型时.我们发现商品间的相关性存在明显的非对称现 象.这种特性使得上述经典技术和方法的有效性大大 降低。为此,本文研究了一种描述商品间这种非对称相 关的方法.并对其统计独立性进行了分析,在指出传统 方法缺点的基础上。提出了一种基于信息熵新方法.并 在实际购物篮数据上进行了实例验证 本文第1节主要介绍相关性分析的有关背景知识 和相关研究工作:第2节探讨非对称相关性的度量方法 以及基于信息熵的统计检验方法:第3节通过实例对研 究成果进行验证:最后在第4节结束语中对本文研究成 果进行总结并简要介绍研究成果的应用成效。 1、购物篮数据及其相关分析 商品间的相关性分析由关联分析延伸而来.下面 使用关联规则挖掘 中的一些记号和定义来描述购 物篮数据及其相关分析。 定义1事务:事务是顾客一次交易所购买的全部 商品的集合 所有事务的集合构成一个事务数据库,记为T。T也 就是本文涉及的购物篮数据的集合。ITl表示T中的事务 总数。 定义2项:事务数据库中的一个字段,也就是一种 商品,用x1,x2,…表示。 定义3项集:项集I ={x。,x:,…,x }为k个项的集合。I 也称为k一项集 定义4关联规则:对于包含n个项的事务数据集T. 形如AfB的规则为T的关联规则,其中A、BcI 是非空项
集.且AnB= 关联规则描述的是各种商品之间的关联关系.这 种关系以(一些商品A)f(另一些商品B)的形式表示,其 含义是顾客在购买商品A的同时也倾向于购买商品B 关联规则的“有趣程度”用下列的支持度和置信度衡 量。 定义5支持度:考虑任意项集I,若T中s%的事务包 含I.称I的支持度为s%。 定义6置信度:对于形如A B的关联规则,若T中 包含项集A的事务中有c%的事务也包含项集B.则关联 规 ̄JA(B的置信度为c%。 从统计学的角度看.项集A、B在事务数据T中的出 现可以看作两个随机变量X、Y的2个事件X=A和Y=B。 为叙述方便.在不引起混淆的情况下,下文将直接使用 A表示事件X=A,B表示事件Y=B。这样,规则AfB的支 持度可以表示为概率P(AuB1,置信度为条件概率P(BI A),分别反映了规则的有用性(同时购买项集A和B的所 有商品的可能性有多大)和确定性f购买了项集A中的 商品的顾客同时购买了B中商品的可能性有多大1。若 一条规则的支持度和置信度分别大于给定的最小阈 值.称这样的规则是“有趣的”。相关分析从使用支持 度一置信度架构的关联分析扩充而来.通常.当A并非独 立于B出现时.称A和B是相关的。 定义7相关:对于项集A和项集B,若P(AuB)≠P (A)P(B),则项集A和项集B是相关的。 定3L8相关规则:形如I ={x ,x2,…,xk}这样的项集, 其中项xI’x 一,Xk的出现是相关的。 购物篮数据项间的此类相关性是很常见的.但其 中的一些相关可能是随机发生的。假设某个顾客根据 76 福建电脑 2010年第12期 自己的需要同时购买了两样商品.此时可以认为这两 样商品是有关联的.因为它们同时出现在了一个事务 中,但是对于商家每天产生的大量事务而言,某一个顾 客的行为并不具备统计上的意义.该顾客也许只是一 次偶然的需要而同时购买了这两样商品.构成了这两 样商品之间随机的相关。直观上理解,只有“许多”顾客 都同时购买了这两样商品.才可以判断为这样的关联 购买行为具有普遍意义 因此.需要检验商品间这种相 关性的可信度。 有许多方法可以进行统计独立性的检查.统计假设 检验就是其中一种常用方法。这里,首先假设A和B是独 立的,构造一个合适的统计量,如x (卡方),用x‘值度量 A和B实际同时出现的概率和期望同时出现的概率之间 的偏差,查自由度为1的卡方表,可以得到一个概率p%, 说明可以在1-p%的置信度上接受A和B是相关的这个 假设。特别地,当x‘=3.84fl ̄p=5%。即x‘≥3.84时可以获得 95%以上的高置信度 在购物篮分析中.使用卡方检验 是发现统计上显著非随机关联的有效方法… .但也存 在局限性.例 ̄8lAhmed已经证明在大于2x2的相关表上 ‘检验是错误的【4]。 2.非对称性相关及其检验 本节首先分析购物篮数据的非对称相关现象.给 出衡量项问非对称相关性的方法.最后研究一种适合 于对这种非对称相关性进行统计检验的方法 2.1购物篮数据项间的非对称相关性 基于项间的相关性挖掘定义8所示的相关规则对 商家而言有重大的现实意义。例如,相关规则fx.,)【',…,x ) 可以提示管理人员xl'x 一'xl历代表的商品是紧密相关 的,对其中呈现正相关的商品f能够互相提升购买的商 品),应调整商品陈列、主动促销,产生更大的效益;对 于负相关的商品。应调整商品结构,积极调整扶持对能 给商家带来最大效益的商品或品类 通过对实际购物 篮数据的分析,我们发现相关规则fx''x 一,x }中项间的 相关性是非对称的。下面给出一个直观的例子。 例1在我们的实际购物篮数据f详见第3节.总事务 数为52020)中有一对商品(a,b),事务集中包含a的事务 数为86。包含b的事务数为31.同时包含a和b的事务数 为l8。这样,购买a商品的顾客同时购买b商品的概率可 1o 估计为P(1)Ia)= 一21%。而购买b商品的顾客同时购买 a商品I ̄P(alb)= 58%。 31 显然。项对<a,b>与<b,a>的相关性是有很大差异 的。P0ala)为21%表明购买a商品的顾客中有21%的可能 会购买b商品。意味着f若这种相关性有很高的置信度 的话1 a商品对b商品的提升率只有20%左右。另一方 面。从P(alb1—58%可知b商品对a商品的提升率达到了 50%以上。因此,对商家来说.b商品显得更为重要,因 为促销b商品的效果将明显好于促销a商品的效果。 项间内的这种非对称性相关在实际的购物篮数据 中是普遍存在的,有必要对其进行深入研究,探讨度量 项间非对称相关性和检验此类非对称相关性置信度的 有效方法.为商家实施商品,品类的精细管理提供辅助 支持。2.2节和2.3节将分别研究这两个问题。 2.2非对称相关性的度量 考虑两个有序项集对<A,B>和<B,A>,A f'lB=(,根 据定义7。其相关程度通常用以下公式计算 : cD elafion(A, ):—P(A—u B) (1)
P( )P(B) 这里,Correlation(A,B)小于1表示A和B负相关:大于 1表示正相关.意味着每一个的出现都蕴含另一个的出 现。由公式(1)可知Correlation(A,B)=Correlation(B,A), 意味着若基于这种传统的相关性衡量方法,<A。B>和< B,A>将具有相同的f对称的1相关性。这无法满足2.1节 指出的实际购物篮数据普遍存在的非对称相关分析的 需求。 为此,引入一种新的度量:提升度Lift,用于衡量有 序项集对<A,B>和<B_A>的相关性: L/fl<A,B>:—P(A ̄B)-—P(A)P(B) (2)
尸( )
Lift<B,A>:—P(AwB)-—P(A)P(B) (3)
P ) 数值上.Lift<A.B>是实际A和B同时出现的概率与 期望A和B同时出现的概率差除以A出现的概率。 Lift<A,B>≠Lh<B,A>,体现T<A,B>和<B,A>非对称 的相关性。使用例l的数据,Lift<a,b>:—18-86x3—1/52020
86 0.2087,Lift<b,a>:—18-86x3—1/52020 0.5790。根据2.
3l
1节分析.Lift<a’b>和Lift<b,a>的数值比较客观地反映 了<A,B>和<B'A>有区别的相关程度。 根据贝叶斯公式同,P(A u B)=P(A)P(BIA)=P(B)P(AI B),因此公式(2)和(3)可进一步简化为Lift<A,B>=P(BIA)
一P(B) ̄NLift<B,A>=P(AIB)一P(A),这与Ahmed定义H是相 符的。1:2Lifl<A,B>为例,从简化公式易知Lifl<A,B>∈[一 1,十1],当A与B相互独立时,Lift<A,B>接近于O;当A相 对于B是正相关时Lift<A。B>大于0;当A相对于B是负 相关时Lift<A,B>dx于0;ILift<A,B>I越大,表示相关程度 越高。 由于当A与B相互独立时.Hft<A。B>等于或接近于 0,故可以在数据挖掘模型中设定了一个阈值6 >0, Lifl<A,B>≥6. 时认为A相对于B可能具有显著的正相 关性(这里不考虑负相关,因为A与B间若存在显著负相 关,则应存在有满足uft<B,A>≥8。 的项集对),再使用