数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。
关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。
1、 基本概念设},,,{21m i i i I =是项组合的记录,D 为项组合的一个集合。
如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D 。
我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A 游泳衣,B 太阳镜,B A ⇒,但是A B ⇒得不到足够支持。
在规则挖掘中涉及到两个重要的指标:① 支持度 支持度n B A n B A )()(⇒=⇒,显然,只有支持度较大的规则才是较有价值的规则。
② 置信度 置信度)()()(A n B A n B A ⇒=⇒,显然只有置信度比较高的规则才是比较可靠的规则。
因此,只有支持度与置信度均较大的规则才是比较有价值的规则。
③ 一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。
关联规则挖掘实际上真正体现了数据中的知识发现。
如果一个规则满足最小支持度,则称这个规则是一个频繁规则;如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。
关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。
在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。
关联规则挖掘可以使我们得到一些原来我们所不知道的知识。
应用的例子:* 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。
* 英国超市的例子:大额消费者与某种乳酪。
那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。
二、特征化与比较1、特征化是一种描述性数据挖掘,特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总,如银行优质客户的特征,从而发现潜在的优质客户;转向其他银行的优质客户的特征,从而设法留住可能会转向其他银行的优质客户,特征化在银行客户关系管理等领域具有很大作用。
描述性数据挖掘——特征化的基本原理①属性删除某一类的特征化就是找出某一类的共性,因此如果某个属性具有大量不同的值,而且每个值所占的比率都不能达到事先给定的临界值,同时在这个属性上没有概化操作符(指标上卷),则数据挖掘对其进行属性删除。
②属性概化如果在属性上存在概化操作符,并且原属性取值没有达到事先给定的临界值,则数据挖掘就将这个属性概化到较高层次,即使原属性取值已经达到临界值,数据挖掘也可以继续进行属性概化。
通过属性删除和属性概化,可以得到特征化的数据挖掘。
2、比较特征化是给定某一类样本的特征,而比较则是区分不同的类,比较又通常称为挖掘类比较。
如信用卡诈骗者和非诈骗者,这两类信用卡持有者的比较。
类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较,类比较的基本方法是:首先在目标类上发觉特征,然后在对比类上进行同步概化,这样就可以挖掘类比较。
特征化与类比较具有很广泛的应用领域。
如:被外资并构公司与没有被外资并构公司进行类比较;不同审计意见的公司的类比较;信用卡诈骗与非诈骗类的比较;银行优质客户中忠诚客户与转向其他银行的原优质客户的比较;等等。
三、聚类分析聚类分析就是根据样本之间的相似程度,将样本分成几个不同的类。
如我国各城市社会经济发展程度的聚类分析,利用聚类分析研究我国女子成衣的尺寸标准。
原来测量了成年女子14个部位的指标数据:上体长、手臂长、胸围、颈围、总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。
经过聚类分析发现可以聚集为几类,每类主要在反映身高与反映胖瘦上有所区别,这样就可以制定几种标准尺寸,可以照顾到我国绝大多数成年女子的购衣要求。
聚类分析在金融领域中有广泛应用,如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者、尤其对投资基金来说,可能就是很重要的信息。
聚类分析也是分类,但是要划分的类是未知的,这是聚类分析与一般判别分析的区别。
聚类分析的基本原理,样本间距离的度量。
距离采用绝对值距离、欧氏距离、切比雪夫距离等,其中:||max ),(1t t pt y x y x d -=≤≤,利用距离可以度量不同样本之间的相似程度,在测量距离时,往往首先需要进行标准化变换,以消除量纲带来的影响。
当指标为非数值指标时,相似程度的测量。
最短距离法是测量相似程度的一种方法,利用最短距离法进行聚类分析的基本过程。
采用测量相似程度的不同方法,所得到的聚类分析结果可能有所不同。
在聚类分析中,希望得到的类数可以事先确定。
聚类分析即可以对样本进行聚类,也可以对指标进行聚类,因此可以采用这样的思路来考虑建立借款人违约概率预测模型。
四、相关的算法关联规则:关联规则是形式如下的一种蕴含或规则,XÞ Y ,其中X 和Y 分别是两个物品集合,这两个物品集中没有共同的物品。
用于关联规则发现的对象主要是事务型数据库(transactional databases ),其中针对的应用则是售货数据,也称货篮数据。
一个事务一般由如下几个部分组成:事务处理时间,一组顾客购买的物品(items ),有时也有顾客标识号(如信用卡号)。
由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。
因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。
例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。
由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。
我们对电信行业的客户电话记录事实表作为测试数据,利用关联规则进行分析,得到较为有意义的规则。
决策树是一种非常有效的机器学习分类算法。
决策树方法的起源是概念学习系统CLS ,然后发展到ID3方法而为高潮,最后又演化为能处理连续属性的C5.0。
有名的决策树方法还有CART 和Assistant 。
决策树学习着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。
它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。
所以从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。
基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这也同时是它最大的缺点),只要训练例子能够用属性-结论式的方式表达出来,就能使用该算法来学习。
考虑到递归算法对大数据量而言,系统的开销较大,我们设计了非递归且能处理连续属性的决策树算法。
同时,为了能使用户能清楚直观的理解产生的决策规则树,我们设计了m-叉树的画法,这两个算法在广东地税稽查案例应用中,收到良好效果。
粗糙集:波兰的Z.Pawlak 针对G.Frege 的边界线区域思想提出了Rough 集。
他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。
由于它有确定的数学公式描述,所以含糊元素数目是可以计算的,即在真假二值之间的含糊度是可以计算的。
我们对粗糙集中的一种重要表示方法-差别矩阵进行了拓广,提出了广义差别矩阵的表示和可变属性度量的概念。
可变属性度量用于属性选取的启发式评价函数时较好地克服了粗糙集中的属性重要度方法的一个限制:由于只考虑异类对象之间的差别致使偏向于选取不同值个数多的属性。
实验结果表明,在采用粗糙集技术的分类规则发现方法中使用可变属性度量方法与属性重要度方法相比,能得到更高的预测准确度和更简洁的规则。
统计分析:本课题中,我们主要研究多个的统计模型的综合。
通过对不同的统计模型的比较和组合,可以得到更为理想的结果,同时,我们的系统中包括了常用的统计模型,应用范围方面受到的限制要少一些。
我们包括的统计模型有:线性回归模型、非线性回归模型、确定型时间序列模型、随机型时间序列模型、自回归-移动平均模型(ARMA)、相关分析。
神经网络:是指一类新的计算模型,它是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型。
这种计算模型的特点是,利用大量的简单计算单元(即神经元)连成网络,来实现大规模并行计算。
神经网络的工作机理是通过学习,改变神经元之间的连接强度。
常用的神经计算模型有多层感知机、反传网络、自适应映射网络等。
在神经网络中,由权重和网络的拓扑结构决定了它所能识别的模式类型。
一个学习算法是用于发现给定任务的权值的程序。
最流行的神经网络学习算法是BP算法(Back-propagation algorithm)。
支持向量机(SVM):是一种建立在统计学习理论基础上的机器学习方法。
通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的推广性能和较高的分类准确率。
SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。
而且SVM一个重要的优点是可以处理线性不可分的情况。
用SVM实现分类,首先要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。
模糊聚类:通常使用基于传递闭包的方法, 该方法是否失真最小在理论上缺乏保障,为解决这一问题, 我们提出了基于摄动的模糊聚类方法,简称FCMBP模糊聚类。
FCMBP模糊聚类比传递闭包法失真小, 而且在基于模糊相似阵的模糊聚类方法中, FCMBP方法是失真最小的。
FCMBP方法不仅失真最小, 而且有时与传递闭包法的聚类结果还有本质差异。
FCMBP方法比传递闭包法计算复杂, 但聚类层次丰富。
基于范例的推理(Case-Based Reasoning 简称CBR):为了解决一个新问题(目标范例Target Case),CBR进行回忆, 从记忆或范例库(Case Base)中找到一个与新问题相同或相似的源范例(Source Case), 然后把该范例的有关信息和知识进行修改就复用到新问题的求解之中,得到问题的解答。