当前位置:文档之家› 统计学与数据挖掘_中国人民大学统计学系数据挖掘中心

统计学与数据挖掘_中国人民大学统计学系数据挖掘中心

统计学与数据挖掘中国人民大学统计学系数据挖掘中心*(中国人民大学统计学系,北京100872)工业界的广泛关注。

统计学是搜集、展示、分析及解释数据的科学。

统计学不是方法的集合,而是处理数据的科学。

数据挖掘的大部分核心功能的实现都以计量和统计分析方法作为支撑。

这些核心功能包括:聚类、估计、预测、关联分组以及分类等。

统计学、数据库和人工智能共同构成数据挖掘技术的三大支柱。

许多成熟的统计方法构成了数据挖掘的核心内容。

比如:回归分析(多元回归、自回归、Logistic回归)、判别分析(Bayes判别、非参数判别、Fisher判别)、聚类分析(系统聚类、动态聚类)、探索性数据分析(Exploratory DataAnalysis,简称EDA)、列联分析等统计方法,一直在数据挖掘领域发挥着巨大的作用。

与此同时,从数据挖掘要处理的海量数据和数据的复杂程度来看,基于总体假定进行推断和检验的传统统计方法,已显露出很大的局限性。

统计能否继续作为数据挖掘的有力支撑,数据挖掘将为统计学提供怎样的发展机遇,是我们最关心的问题。

本文中,我们将以统计学最近40年的发展走势作为论述的起点,逐步对统计方法在数据挖掘算法设计、开发过程中的应用情况,进行全面、系统的考察与分析,进而提出统计学和数据挖掘协同发展的广阔前景。

二、统计学近40年的走势20世纪60年代是稳健统计盛行的时代。

稳健统计开创性地解决了与理论分布假定有偏差的数据分析问题。

其成果主要包括回归系数的敏感性分析;对异常值(Outliers)、高杠杆点(Leverage values)以及其他一些对少量污染异常敏感的回归诊断;M -估计量(M -estimator)等稳健估计量。

稳健统计标志着基于正态假定的理论框架正在打破,打破框架的源动力来自于客观世界里真实的、具有复杂结构的数据。

20世纪70年代早期, John Tukey提出探索性数据分析(EDA),他通过箱线图等简单方法,指出了统计建模应该结合数据真实分布情况。

EDA的主要观点是,对数据的分析,不应该从理论分布假定出发去建构模型,而是从数据的特征出发去研究和发现数据中有用的信息。

这一观点恰恰是数据挖掘的核心思想。

EDA思想的直接体现是,重新提出了描述统计在数据分析中的重要性,这一简单、直观方法在理解数据方面是极为有用的。

EDA的这种思想与数据挖掘过程中的数据理解极为相似。

EDA更深刻的意义则在于,它为统计学指明了发展方向——和数据相结合的道路。

继EDA之后,统计学在数据分析的道路上,硕果累累。

20世纪70年代后期,广义线性模型,概括了一个时期以来基于正态理论以外的线性模型研究,该理论通过将响应变量的方差分解成系统和随机两部分,允许建模者通过严格单调的关联函数(Link function)g(μ)=∑xjβj,调节协方差效应。

虽然当时的函数还只是限定在指数分布族上,但这些模型毕竟为服从两点分布数据和定性数据提供了Logistic回归模型,对非对称分布的连续数据也提供了统一的统计理论。

这些统计理论同时推动了统计计算的的发展,其中一些成果以算法的形式出现。

比如著名的期望—极大化算法(ExpectationM axim ization,简称EM )EM算法,该算法提出了解决不完整数据估计问题的数值方法。

EM算法的价值还在于,它传输了这样一个观点,即使数据是完整的,缺失值在最优估计的计算中也是有用的。

Logistic回归和EM算法的可操作性,在数—5—[统计学与数据挖掘]中国人民大学统计学系数据挖掘中心:统计学与数据挖掘listicmodeling Evolutionary algorithm,简称PMEA),来展示统计的广泛适用性。

1.统计理论在人工神经网络技术中的应用——概率分析网(PLN)人工神经网络是由一系列称为节点的处理单元组成,通过调整节点、输入和输出的权-域值来实现非线性模式识别。

该技术自20世纪80年代复兴以来,经过90年代研究热潮至今,显示了其在解决模式识别、非线性回归优化等方面独有的优点和成效。

PLN网络是基于概率逻辑的神经网络,它是在传统权-阈值神经网络(典型的一类是Back propagation Hopfield,简称BP学习算法)的基础上提出的。

它的学习速度比相同问题的BP算法的学习速度快百倍(两个数量级),这说明基于统计逻辑的PLN网络在某些性能上比权-阈值网络强。

在理论研究中,由于神经网络节点构造的特殊性,人们早已通过随机过程,比如马尔科夫链(M arkov)等工具,对PLN网络进行定量分析,研究神经网络各状态之间转移的概率和收敛情况。

甚至在未完全知道网络对应的转移矩阵的情况下,借用统计模拟计算工具,给出平均收敛步长的变异结果。

2.统计思想在数据挖掘学习方法上的贡献——贝叶斯网络早在20世纪80年代,贝叶斯网络就成功地应用于专家系统,成为表示不确定性专家知识和推理的一种流动方法。

近来,贝叶斯学习一直是机器学习研究的重要方向。

由于概率统计与数据采掘的天然联系,数据挖掘兴起后,贝叶斯网络日益受到重视,再次成为引人注目的热点。

贝叶斯网络是一个带有概率注释的有向无环图。

这种概率图模型能表示变量之间的联合概率分布(物理的或贝叶斯的),分析变量之间的相互关系,利用贝叶斯定理提示的学习和统计推断功能,可以实现预测、分类、聚类、因果分析等数据挖掘任务。

学习贝叶斯网络指的是利用样本数据更新网络原有参数或结构的先验分布。

比较简单的问题是:给定贝叶斯网络的结构,利用给定样本数据学习网络的参数(概率分布)。

更为复杂的问题是:网络的结构也没有确定,利用给定样本数据学习网络的结构和参数。

当样本数据不安全时,除了少数特例外,一般要借助于近似方法,如蒙特卡罗(Monte-Carlo)方法,求极大似然(ML)或极大后验(MAP)等。

3.统计在遗传算法中的应用——概率进化算法(PMEA)遗传算法(GeneticAnalysis,简称GA),是基于人工选择和交叉、变异、重组等操作构成的一种优化方法,GA通过对大量的构造块进行选择和重组操作,再生和混合更多好的构造块,最后逼近解,但由于实际的重组操作常导致构造块破坏,导致算法或者逼近局部最优或者早熟,构造块破坏问题一般称为连锁(Linkage)问题。

为了克服GA因交叉重组导致的连锁问题,人们通过从优选的解集合中提取信息的方式代替重组操作,然后利用这种信息的分布概率产生新的解,由此实现算法的连锁学习,这种将构造性概率模型引入进化算法的思想形成概率分析进化算法(PMEA)的理论依据。

此外,如何将压缩遗传算法的概念进一步扩展到其它概率模型,达到降低算法复杂性的目的;如何将问题的预先知识引进PMEA,使得算法更为快速和精确;以及PMEA中的各种参数的选择(如群体规模,选择机制和选择比例等)等等都是目前该领域的热点研究问题。

目前,概率分析进化算法已成为并行计算中的重要和流行的研究方向。

PMEA的特点是把自然进化算法和构造性统计分析方法结合,以指导对问题空间的有效搜索。

(二)统计对数据挖掘过程的贡献数据挖掘是一个过程,它从大量数据中抽取出有价值的信息或知识。

由于不同数据挖掘技—7—[统计学与数据挖掘]中国人民大学统计学系数据挖掘中心:统计学与数据挖掘世时,就成为其中著名的方法。

80年代以后,由于计算机的引入,数据模拟和非参数统计方法得到很大的发展。

首先是产生于50年代后期的刀切法(Jackknife)应用的开始,它通过剔除一个或更多个观测值重新计算估计量,得到许多虚拟值(Pseudovalue),用虚拟值加权平均作为参数的估计。

这样做的好处在于,不仅可以减少估计的偏差,而且提供衡量任意一个估计变异程度的计算方法。

之后,Efron在此基础上,提出了有放回的重抽样(Resampling)方法,称之为自助法(Bootstrap)。

这些方法的可操作性,为统计的广泛应用打开了方便之门,数据挖掘通过它很快将其中的一些技术用于模式识别之中。

80年代后期在非参数领域中,核光滑方法(KernelSmoothing)以局部估计的特点,展示了统计在处理变量的非线性关系中的作为。

90年代,由于许多应用问题和统计问题都存在对象复杂和正确识别模型结构的困难,这些问题推动了统计技术的研究,比如,通过马尔可夫链蒙特卡罗方法(M arkov ChainMonte Carlo,简称MCMC)模拟,解决复杂性问题。

此外,由于MCMC和Bayes的渊源,许多新的统计技术诞生,他们为统计的应用开辟了更加广阔的前景。

综上所述,统计早在60年代末就开始了其研究思路的转变,Elder和Pregibon于1997年指出:从EDA出现以后,统计学逐渐摆脱古典框架,即正态假定,注重数据分析方法的研究,研究的重点逐渐从模型解释转向模型选择研究,研究范围涉及生成模型结构的整个搜索过程。

全部搜索过程包括数据的理解、污染数据的鉴别、异常数据的诊断、数据建模、模型参数估计、模型的评价等各个方面。

这个过程恰恰与KDD解决问题的系统流程是相似的。

而后者通常会包括问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型。

从这条线索不难看出,统计的发展方向和KDD所要实现的目标是一致的。

事实上,早在EDA提出之时,就已经显露出“数据挖掘”的萌芽。

那么数据挖掘的概念为什么没有从EDA提出时就形成概念并发展起来呢?笔者认为,这主要是受当时的计算能力和信息发展水平的限制。

EDA提出时的信息技术还相当局限,待处理数据的量不大,数据存储结构也不足够复杂,这样,数据挖掘就一直以一种弱化的方式存在于统计学的研究中。

另外,统计学的发展没有和信息技术紧密结合,也是一个不容忽视的问题,统计学在充分利用数学工具来完善理论的过程中,没有实时地关注信息领域对数据分析工具的要求,致使统计最新的方法由于缺乏普遍的算法表现形式,在信息领域没有得到充分的施展。

随着信息化水平的提高,统计与数据挖掘的应用平台渐趋统一。

从数据分析到KDD,再到数据挖掘,这一过程演变的诱因同样影响着统计学和信息技术的发展。

随着数据源的不断膨胀和数据结构的日益复杂,单纯依靠数据挖掘技术,已渐露力不从心之态,而统计学的同步发展, 正不断充实、完善着数据挖掘技术。

三、统计学在数据挖掘技术创新中的贡献(一)统计学在数据挖掘方法创新中的贡献数据挖掘方法主要包括决策树、关联分析、人工神经网络、遗传算法、机器学习和可视化方法等。

最近几年,由于统计的加盟,使这些方法焕发出勃勃生机,笔者只列举几个计算机领域的热点问题,如概率分析网(Probability AnalysisNet,简称PLN)、贝叶斯网、概率进化算法—6—统计与信息论坛2002年第1期:2001-12-10*本中心成员有袁卫、吴喜之、谢邦昌、易丹辉、王星、薛薇、赵绍忠、戴稳胜、匡宏波、伍叶峰等。

相关主题