当前位置:文档之家› 大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。

一、引言随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。

据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。

大数据时代已经到来。

基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。

依照美国咨询公司麦肯锡(McKinsey)[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。

与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。

凭借存储成本更低、运行效率更高的现代信息技术,大数据可以认为是一切可记录的数字化信号集合。

从数据特征来看,Grobelink. M(2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性( Velocity)[3]。

在此基础上,国际数据公司(IDC)认为大数据还具有价值密度低的特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity)。

[1]近年来,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。

伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力、有代表性的观点。

其中最典型的要属舍恩伯格和库克耶(2013)提出的大数据时代三个重要的思维转变:更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)[4]。

上述观点在业界、学术界引起很多共鸣,同时也存在很多质疑[5,6]。

此观点对于大数据时代统计学的发展方向具有一定的指导性作用,然而却很少有文章在探讨统计学科如何发展的背景下系统地对其进行反思。

因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍氏“三个重要的思维转变”提出自己的看法。

二、统计学与大数据大数据包含了宽泛的理论及应用领域,统计学作为提取大数据价值的核心学科该如何发展?要想弄清楚这个问题,我们不妨先简略回顾一下统计学的发展历史,从历史的角度来把握大数据时代统计学的发展定位问题。

统计学作为一门学科已有三百多年的历史。

按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。

古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。

政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。

在这一时期,以威廉.配第和约翰.格朗特为代表的政治算术学派与海尔曼。

康令(HermannConring)创立的国势学派相互渗透和借鉴,服务与指导了国家管理和社会福利改善。

18世纪末至19世纪末为近代统计学发展时期。

这一百年间欧洲各国先后完成了工业革命,科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。

对事物现象静态性的描述也已不能满足社会需求,数理统计学派创始人凯特勒(A·J·Quetelet)率先将概率论引进古典统计学,提出了大数定律思想,使统计学逐步成为揭示事物内在规律,可用于任何科学的一般性研究方法。

一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。

20世纪科学技术的发展速度远超过之前的时代,以描述性方法为核心的近代统计已无法满足需求,统计学的重心转为推断性统计,进入了现代统计学阶段。

随着20世纪初细胞学的发展,农业育种工作全面展开。

1923年,英国著名统计学家费雪(R.A.Fisher)为满足作物育种的研究需求,提出了基于概率论和数理统计的随机试验设计技术以及方差分析等一系列推断统计理论和方法。

推断性统计方法的进步对工农业生产和科学研究起到了极大的促进作用。

自20世纪30年代,随着社会经济的发展和医学先进理念的吸收融合,人们对于医疗保险和健康管理的需求日益增长,统计思想渗透到医学领域形成了现代医学统计方法[8]。

例如在生存质量(Quality of life)研究领域,通过分析横向纵向资料,逐步形成了重复测量资料的方差分析、质量调整生存年(QALYs)法等统计方法[9]。

这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计、MME算法等方法应运而生。

随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求。

高维海量的基因数据具有全新的数据特征,由此一系列面向高维数据的统计分析方法相继产生。

回顾统计学史可以发现,在不同的社会背景下,统计学的发展都是以实际需求为驱动,伴随着需求和数据的改变逐步向前发展。

在以数据信息为核心的大数据时代,人类社会各个领域的发展都需要从大数据中汲取动力,这无疑对统计数据分析产生了大量的需求。

而大数据所具有的数据特征使得部分传统统计方法不再适用。

根据学科特点和历史沿革,不难看出,在大数据时代,统计学需要针对大数据的特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论。

三、统计学与计算机自上个世纪以来计算机经历了飞跃式发展,计算机技术催生了大数据,并支撑了它的处理与分析。

计算机技术可以说是大数据发展的基础。

大数据时代对统计学发展的探讨自然离不开对计算机科学的关注。

大数据的价值产生于分析过程,作为大数据分析的主要工具与方法,统计学与计算机技术共同成为服务于大数据的核心科学。

两者关系密切,它们之间存在着合作与竞争并存的关系。

计算机为统计学的发展起到了极大的促进作用。

计算机使人类所拥有的数据水平达到了全新的高度,无论是从数量,类型,还是粒度等方面进行考察。

新型的数据或者数据特征催生出新的数据处理方法,例如社交网络的发展直接要求了基于网络的统计方法的产生;大数据流环境对数据流算法的要求等。

计算机技术也融进统计方法中,促进了新的统计方法的诞生。

自20世纪计算机兴起,一系列建立在计算机基础之上的统计方法就被开发出来:MCMC模拟计算、Jackknife、Bootstrap等。

此类方法不仅拓展了统计学领域,而且开创了解决问题的新思路。

进入大数据时代,以互联网为中心的云计算技术为大数据提供了保管、访问的场所和渠道。

伴随着分布式和并行计算(云计算核心技术)的快速发展,Bag of LittleBootstraps算法(2012)、Memory-Efficient Tucker Decomposition(2008)、基于MapReduce的K-means算法(2009)、基于MapReduce的并行Apriori算法(2012)等一系列面向大数据的抽样、分类、聚类、关联分析方法应运而生。

[10,11,12]在数据统计分析方法蓬勃发展的同时,以数据库技术为关键支撑的计算机信息处理技术在很多领域上也得到大量发展。

例如,在数据获取方面,DEEP WEB技术可以用于感知数据,以及进行高质量的数据继承和整合;在数据存储方面,谷歌、IBM和百度等公司大量运用的GFS技术,能够实现高效率的分布式数据存储,并且可以给大量用户提供总体性能较高的服务;在数据索引方面,当前比较主流的索引技术之一是BigTable,它是一个分布式的、可扩展的、高效的非关系型数据库;在可视化方面,Clustergram技术可以进行聚类,从而优化大数据分析结果的形式[13]。

大数据时代,统计学与计算机互相促进,存在着紧密合作关系。

另一方面,由于统计学的发展是以实际需求为驱动,如果要解决的问题随着计算机的发展可以得到很好的解决,那么相应的统计方法可能就埋没在浩瀚的历史长河里了。

比如在大数据时代,出现了超高维数据,LASSO、SCAD等方法在处理超高维数据下计算效率远远不够[14]。

对于超高维数据,Fan和Lv[15]提出的SIS(SureIndependence Screening)方法可以快速有效地把维数从超高维降到相对小的规模。

这是一种基于相关准则的降维方法,相关准则把特征重要性按照它们与因变量的边际相关来排序,并把与因变量的边际相关弱的那些变量过滤掉。

这种统计方法可以有效地降低计算成本,然而当计算机的速度和性能得到很大提升后,它的价值却在减小。

基于分布式系统的大规模数据软件平台Hadoop,通过并行处理可以成倍地提高计算机性能,作为显卡核心的图形处理器GPU拥有一个专为同时处理多重任务而设计的由数以千计小而高效的核心组成的大规模并行计算架构,经过并行计算的优化,理论上在GPU上的计算速度会比CPU快50-100倍[16],不借助SIS方法的“GPU+Hadoop”就可以直接处理超高维数据。

部分统计学方法有可能淹没在计算机技术的发展洪流中。

从学科的发展角度来看,统计学与计算机技术也存在一定的竞争关系。

与计算机的竞争关系揭示出统计学所面临的被替代的危机,而面对这个危机最好的态度是积极地拥抱计算机技术,让计算机技术融入统计学。

在大数据时代,统计学应该与计算机技术更加紧密地结合。

四、大数据分析的若干误区关于大数据的数据分析理念,学术界展开了很多研究与讨论,一定程度促进了统计学的发展和数据分析理念的更新,但是也出现了一些误区。

接下来,我们探讨大数据分析中的几个主要误区。

(一)因果关系大数据时代一个显著现象就是更关注于数据的相关关系。

舍恩伯格等在《大数据时代》[4]中提到大数据的一个思维转变:“相关关系比因果关系能更好地了解这个世界”。

国内外学者也开始更多地关注大数据时代相关分析方法的研究[17,18]。

针对相关分析展开的研究,使得人们对于自身和世界的认识拥有一个开放的信息系统视角,对事物的认识不再局限于封闭领域[4,19]。

相关主题