当前位置:
文档之家› 电子商务数据挖掘常用公式和算法
电子商务数据挖掘常用公式和算法
(x )
2
/N
f ( x) P( X x)
标准差标准化 标准差标准化是将各个纪录值减去纪录值的平均值,再除以纪录值的标准差,即:
x ij
x ij x ia Si
其中, xia 为平均值,其表达式为:
1 n xia xij n j 1
设 Si 是标准差,有:
Si
正类的比例。 这二者相比自然就解决了如果使用者用分类器分类会使得正类产生的比例会增 加多少的问题。Lift 曲线的横轴 RPP(正类预测比例,Rate of positive predictions 的缩写)的 计算公式是 RPP 支持度和置信度 用概率公式来表示支持度和置信度:
( FP TP ) /(TP TF FP FN ) 。
Support( AB ) = P ( AB ) Confidence ( AB ) = P ( B | A)
极差标准化
1 n ( xij xia ) n j 1
2
极差标准化是数据标准化的另外一种常用方式。 对纪录值进行极差标准化变换是将各个纪录
值减去纪录值的平均值,再除以纪录值的极差,也就是数据集中的最大值和最小值之间的差 距,即:
x ij
极差正规化
x ij x ia max( x ij ) min( x ij )
PR 值的简化公式是:
PR (u )
ቤተ መጻሕፍቲ ባይዱ
PR (v ) vBu L ( v )
在公式中 PR (u ) 、 PR (v ) 是页面 u 和 v 的 PR 值, L (v ) 是页面 v 的外链数, Bu 是链向 页 面 u 的所有页面集合。
消除重复记录的算法 消除重复记录的算法有优先队列算法, SNM 算法(Sorted-Neighborhood Method, 近邻排序 算法) ,MPN 算法(Multi-PassSorted-Neighborhood, 多趟近邻排序算法)等: 优先队列算法通过减少记录比较的次数, 提高匹配的效率, 而且该算法几乎不受数据规 模的影响,能很好地适应数据规模的变化。但是算法复杂度比较高,实现相对困难。 SNM 近邻排序算法采用滑动窗口的方法,每次只比较窗口中的 w 条记录,提高匹配效 率; 采用滑动窗口也提高了比较速度, 只需要进行w×N次比较识别重复记录的精度很 大程度上依赖于排序所选择的关键字,而且滑动窗口的大小w的选取很难控制。 MPN 多趟近邻排序算法精确度高,但是不能正确地检测出数据库中没有包含主键域的 记录。
图 II-2 ROC 曲线图
图 II-2 是一张很典型的 ROC 曲线,从图中可以看出该曲线的横轴是 FPR(false positive rate), 纵轴是 TPR(True positive rate) 。前面说过,分类中比较关心的都是正类的预测情况,而且 分类结果常常是以概率的形式出现的, 设定一个阈值, 如果概率大于这个阈值那么结果就会 是 1。而 ROC 曲线的绘制过程就是根据这个阈值的变化而来的,当阈值为 0 时,所有的分类 结果都是 1,那么 TPR=1,而 FPR 也是 1,这样曲线达到终点。随着阈值的不断增大,被预 测为 1 的个数会减少,TPR 和 FPR 同时减少,当阈值增大到 1 时,没有样本被预测为 1,此 时 TPR 和 FPR 都为 0。 由此可知, TPR 和 FPR 是同方向变化的, 这点在上图中可以得到体现。 由于我们常常要求一个分类器的 TPR 尽量高, FPR 尽量小, 表现在图中就是曲线离纵轴越近, 预测效果就越好。为了更具体化,人们也通过计算 AUC(ROC 曲线下方的面积)来评判分类 器效果,一般 AUC 超过 0.7 就说明分类器有一定效果。在图 II-2 中的 ROC 曲线中,曲线下方 的面积 AUC 数值超过了 0.7,所以分类器是有一定效果的。
电子商务数据挖掘常用公式和算法
几何平均数
n
1 x1 x2 x3 xn ( x1 x2 x3 xn ) lg 1[ (lg x1 lg x2 ... lg xn )] n
1 n
总体方差 2
2 (x ) / N
2
标准方差 把 2 开平方根就得到标准方差 随机变量的概率分布 随机变量的概率分布可以用下面的公式表示:
二元混淆矩阵(Confusion Matrix) 我们通常用二元混淆矩阵来判定一个二元分类方法是否有效。请看下图:
图 II-1 混淆矩阵示意图
在图 II-1 中各个数据的含义解释如下:
TP (True Positive) :预测值和真实值相一致都为 1 的个数。 FP (False Positive) :预测值为 1 而真实值为 0 的个数。
关于 F 的通用公式
|| A || * || B ||
A B
F (1 2 )
precision recall 2 precision recall
当 =1 时,所表示的就是 F1 的公式
F1 2
PR 值
precision recall precision recall
Lift 曲线分类器判定 Lift 曲线也是一个用来判定二元分类器好坏的方式。Lift 曲线的绘制方法与 ROC 曲线是一样 的,不同的是 Lift 曲线考虑的是分类器的准确性,也就是使用分类器获得的正类数量和不使 用分类器随机获取正类数量的比例。 以直邮营销为例, 分类器的好坏就在于与直接随机抽取
极差正规化又是另外一种常用的数据标准化方式,可以把所有的观测值转化到[0,1]的区间 之内。 对纪录值进行极差正规化变换是将各个纪录值减去纪录值的极小值, 再除以纪录值的 极差,即:
xij
xij min( xij ) max( xij ) min( xij )
相似度公式
similarity ( A, B ) cos( A, B )
邮寄相比,采用分类器的结果会给公司带来多少响应客户(即产生多少最终消费) ,所以 Lift 分类器在直邮营销领域的应用是相对比较广泛的。
图 II-3 Lift 曲线图
由图 II-3 可以发现, Lift 曲线的纵轴是 Lift 值,它的计算公式是
Lift pv / k
,其中
pv TP /( FP TP ) ,这个参数的含义是如果采用了分类器,正类的识别比例;而 k (TP FN ) /(TP TF FP FN ) ,表示如果不用分类器,用随机的方式抽取出
FN (False Negative) :预测值为 0 而真实值为 1 的个数。 TN (True Negative) :预测值和真实值相一致都为 0 的个数。
ROC 分类器效果评估 下图是一张 ROC 曲线图,ROC 曲线(receiver operating characteristic curve)是受试者工作特 征曲线的缩写, 该曲线常用于医疗临床诊断,数据挖掘兴起后也被用于分类器的效果评价。