大数据的研究方法及可能应用王磊【摘要】:如今,“大数据”已经成为了一个十分热门的词汇,新闻媒体对其进行长篇累牍的报道,与之相关的学术文章数量激增,大数据图书也受到了极力的追捧。
其实,随着以云计算、移动互联、智能化为特征的信息社会的深入发展,人类储存的数据总量在不断增大,数据增长的速度也在持续的加快中。
维克托•迈尔•舍恩伯格也曾说过:“世界的本质是数据,大数据将开启一次重大的时代转型。
”社会生活的方方面面和我们认识世界的方式都受到了大数据带来的冲击,但是,对于大数据的认知和应用还有许多值得我们探索的地方。
【关键词】:大数据、数据挖掘、贝叶斯分类、图模型、协同推荐、客户价值、社会网络、文本挖掘一、关于大数据1、数据的海洋20世纪90年代后期,以信息技术、计算机技术、网络技术等为代表的高新技术快速发展,以此为标志,人类社会正式迈入数字时代。
现在,伴随着各种各样的智能设备和轻巧灵便的可穿戴计算设备的普及,我们的行为、地理位置、收入与支出、身体生理状况等衣食住行的方方面面都成为了可以被记录和分析的数据。
数据量也就由此在不断增大,而且,数据的种类和形式也在持续的更新。
可以说,我们的生活已经被日益增长的数据所充斥。
事实上,各行各业都先后受到了数据增长带来的冲击。
在天文学领域,2000年美国的斯隆数字巡天(Sloan Digital Sky Survey)项目启动,位于美国新墨西哥州的大型天文望远镜在短短几周内收集到的数据已经比天文学历史上总共收集到的数据还要多。
到了2010年,天文望远镜收集到的数据总量已经高达1.4×2^42字节。
在生物学领域,2003年人类第一次破译人体基因密码,全世界的优秀科学家们辛苦工作了十年才完成了30亿对碱基对的排序。
而到了现在,世界范围内的基因仪每15分钟就可以完成相同的工作。
在金融领域,美国股市每天的成交量高达70亿股,更令人惊讶的是,其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。
在互联网领域,Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢(Like)”按钮或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量的数据线索。
[1] 总之,在各个领域都出现了爆发式增长的数据。
这种增长的速度超过了我们创造任何一种机器的速度,甚至超过了我们的想象。
那么,我们周围究竟有多少数据呢?这些数据增长的速度又有多快呢?根据南加利福尼亚大学的统计学家马丁·希尔伯特(Martin Hilbert)的估算,在2007年人类大约存储了超过300艾字节(EB)的数据。
[2]在这里,1艾字节(EB)等于2^60字节(B)。
这是个什么概念呢?一部完整的电影总可以被压缩为1个吉字节(GB)的大小,而1个艾字节(EB)相当于10亿吉字节(GB),是一个非常巨大的单位。
这就是说,2007年人类储存的数据总量超过了3000亿部电影的数据量。
如果我们一天看一部这样的电影,需要近10亿年的时间才能看完!这还不是最为庞大的数字,2010年全球数据总量约为1.8泽字节(ZB),预计2020年全球数据总量将达到40泽字节(ZB)的规模。
[3] 1个泽字节(ZB)是1024艾字节(EB),是比艾字节(EB)更为巨大的单位。
由此可见,人类现在创造的数据总量是相当庞大的。
不仅如此,人类存储数据的信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。
[4] 我们真的是被数据的海洋淹没了。
2、大数据的概念及特征如此巨大和快速增长的数据量催生了大数据(Big Data)概念的产生。
大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
[5] 从这个概念上看,大数据必然不能通过单台计算机进行处理,也不能使用传统的方法进行分析,必须依托于云计算这一先进的技术。
同时,大数据具有4个基本特征。
第一,数据体量巨大。
前文也已提及,现在数据总量已经达到EB级别,甚至达到了ZB级别。
第二,数据类型繁多,来源广泛。
各种各样的网络文章、音频资料、视频资料、图片资料、地理位置信息等等都是数据的不同类型与来源。
第三,价值密度低,商业价值高。
体量如此巨大的数据不可能全部都是有用的信息,而这极少量的信息蕴含的价值往往是巨大的。
以视频资料为例,公安机关在侦破刑事案件时通常需要调取案发现场的监控视频。
而在连续不间断的监控过程中,有用的数据可能仅仅只有一两秒,而有时恰恰是这一两秒的数据就能帮助公安机关发现破案的蛛丝马迹。
第四,增长速度快。
正如前文所说,现如今数据增长的速度远远超过了世界经济增长的速度,而且这一速度还在不停地加快中。
这就是所谓的大数据4V特征,即V olume(大量)、Velocity(高速)、Variety(多样)、Value (价值)。
由此可见,大数据的核心问题是如何在种类繁多、体量巨大的数据中快速获取有价值的信息。
[6]3、大数据的意义1)、公共卫生变革2009年,甲型H1N1流感病毒爆发,牵动了全世界人民的心。
与以往流感爆发的疫情不同,在这次疫情中,谷歌公司发布的数据代替习惯性滞后的官方数据成为了一个更有效、更及时的指示标,公共卫生机构的官员从谷歌公司获得了非常有价值的数据信息。
实际上,谷歌公司获取疫情数据的方法是建立在大数据的基础之上的。
在如今的互联网时代,很多人在身体不适时,总会首先在网络上搜索与之相关的词条再决定是否去看医生。
例如,如果我们出现咳嗽和发热的症状,或许我们会搜索“哪些是治疗咳嗽和发热的药物”这种词条。
于是,这种特殊的检索词条就会流露出流感侵袭的信息。
而作为全球最大的搜索引擎公司,谷歌公司每天都会收到超过30亿条的搜索指令,而且,谷歌公司保存了多年来的全部搜索记录。
以此为基础,谷歌公司把疫情蔓延时5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,如此这般分析人们的搜索记录就可判断这些人是否感染了流感病毒。
于是,谷歌公司通过观察人们在网络上的搜索记录成功预测了流感病毒的传播,而且不仅仅是美国范围内的传播,可以精确到特定的地区和州。
不仅如此,谷歌公司的判断十分及时,不会像美国疾控中心那样在流感爆发一两周之后才可以做出判断。
谷歌公司的这种方法以前是一直被忽略的,也是一种前所未有的方式,这就是“通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见”。
[7]拥有如此先进的统计技术和庞大的数据储备,我们有理由相信下一次流感来袭的时候,世界将会拥有一种更好的预测工具来预防流感的传播。
2)、商业变革大数据不仅改变了公共卫生领域,商业领域也因为大数据发生了深刻的变化。
以购买飞机篇为例,美国计算机专家奥伦·埃奇奥尼(Oren Etzioni)专门开发了一个系统,用来预测当前的机票价格在未来的一段时间内是会上升还是下降。
也就是说,这个系统需要分析所有特定航线机票的销售价格并确定机票价格与提前购买天数的关系。
如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。
反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。
埃奇奥尼的预测系统是十分成功的,帮助许多乘客节省了一笔不小的开支。
当然,这个预测系统也是在大数据的基础上建立的,所以不可避免的是系统的运转需要海量数据的支持。
埃奇奥尼找到了一个商业机会预订机票价格的数据库,而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。
基于这个机票价格预测系统,埃奇奥尼创立了一家大数据科技创业公司,名为Farecast。
到目前为止,Farecast公司已经拥有了多达2000亿条飞行数据记录,预测的准确度高达75%,而且使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。
[8] Farecast公司是大数据公司的一个缩影,也代表了当今世界发展的趋势。
计算机的处理能力和存储能力的大幅提升、数据分析能力的突破为大数据公司的出现奠定了基础。
3)、思维变革在大数据诞生以前,人们通常认为数据是静态的,而且一旦完成了收集数据的目的之后,数据就完全没有用处了。
而到了现在,大数据的出现改变了人们的认知,颠覆了人们利用数据的理念。
数据已经成为了“一种商业资本,一项重要的经济投入,可以创造新的经济利益”。
而且爆炸式增长的数据由量变引发了质变,大数据成为了“人们获得新的认知、创造新的价值的源泉”;成为了“改变市场,改进组织机构,改善政府与公民关系的方法”。
大数据时代已经来临,大数据对我们的生活,对整个世界都提出了挑战,而这仅仅只是一个开始。
面对海量的数据,我们不必关心数据间的因果关系,而应该更加注重相关关系。
也就是说,我们只需要知道“是什么”,而不需要知道“为什么”。
这是一个极为重大的改变,在不久的将来,或许我们的认知方式和理解世界的基础都将因为大数据而受到不同程度的冲击。
二、大数据的研究与分析方法1、数据挖掘1)、数据挖掘的内涵与基本特征1995年,法耶兹(Fayyad)在知识发现会议上第一次提出了数据挖掘(Data Mining)的概念,法耶兹认为数据挖掘是“一个自动或半自动化的从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模式的复杂过程”。
法耶兹的定义突出了数据挖掘的工程特征,阐释了数据挖掘是一种用于在海量数据中发现其中存在的有价值的数据模式的分析机制。
其实,在技术的层面上,数据挖掘是网络时代必然的技术热点。
在电子商务和互联网商业中,数据挖掘有着极为重大的应用价值。
数据挖掘就是解决各种实际问题的数据分析过程,而在通过大量数据解决实际问题的过程中,复杂问题的解决往往不是一两个数据模型的简单套用就可以完成的,经常需要很多步骤综合构成一个系统性的解决方案,需要多个模型协作完成。
所以,对于数据挖掘来说,选择模型可能比应用模型更重要。
而且,数据挖掘不仅仅是对数据的概括和归纳,更是数据中的复杂关系的发现过程。
2)、数据挖掘的产生数据挖掘技术的产生是一个逐渐演变的过程。
在数据处理初期,人们希望通过某些方法和技术实现自动决策,当时机器学习受到了人们的广泛关注。
机器学习就是将人们已知的能够成功解决某一类问题的算法输入计算机,计算机便可以代替人类进行决策。
[9]对于某一类特定的问题,机器学习可以总结出相应的解决规则,并且这种解决规则具有一定的通用性。
20世纪70年代,神经网络技术正式形成并逐渐发展,随之非线性复杂结构应用到复杂数据关系的模型建立中。
到了80年代,知识工程取代机器学习成为了人们关注的焦点。