大数据如何改变了我们与信息的关系
正文
评论⑴
更多WSJ博客的文章»
分学到新浪微陣分字到搜狐微博转播到腾讯微陣分亨到QQ空间分亨:到优T:网
投稿
打印
转发
字体
Irving Wlada wsky-Berger
近的几篇文章透露出一些担忧,认为大数据侣ig Data)在所谓的新兴技术炒作周期中可能已处于期望过高的巅唸期,很快就会开始落入幻火的谷底。
这在一种颠覆性技术的早期阶段并不罕见。
关键的问题是这种技术会继续跌穿谷底、迅速被人遗忘呢还是最终会继续向前,沿着复苏的斜坡走向生命力长久的成熟期。
你怎样才能辨别它会朝哪方面发展?
根据我的经验,一种颠覆性的技术只要能持续吸引严肃研究人员和分析师的眼球就能成功。
这些研究人员和分析师经过一段时间会揭穿炒作行为,对技术的开发和营销予以规范,提岀解决诸多技术障碍的办法,淸理不切实际的承诺,重新勾勒这种技术实现目标的范围和时间表。
互联网(The Internet)就是从导致dot-com泡沫的一片炒作中重获新生的,继续朝着高度成功的未来在发展。
云计算目前正在经历一个类似的严肃评估与发展期,大数据也同样如此。
在《大数据的兴起:它是如何改变我们看待世界的方式的》这篇才发表在《外交》杂志(Foreign Affairs)上的文章里,《经济学家》杂志(Economist)的编辑肯尼思•库克耶(Kenneth Cukier) 和牛津大学教授维克托•迈尔-舍恩伯格(Viktor Mayer-Schonberger)很好地阐述了为什么 "大数据标志着信息社会终于迎来了履行其名字中暗含的承诺的时刻”。
这篇文章节选自他们2013年3月出版
的著作《大数据:一场行将改变我们生活、工作和思考方式的革命》(Big Data:
A Revolution That Will Transform How We Live, Work, and Think)
c
库克耶和迈尔-舍恩伯格解释说,大数据已经迅速兴起,成为它所占据的舞台的中心,原因就是现在四处飘散的数字信息比以往任何时候都多。
2000年的时候,全世界存储的信息中只有四分之一是数字信息,因此必须进行搜索和分析。
自那以后,数字数据差不多每三年就会翻一番,因此到目前为止,所有存储的信息中只有2%不是数字信息。
没有数字化革命,大数据就不可能产生,而由于摩尔上律(Moore's Law)的存在,数字化革命使人有可能大大降低存储和分析海量信息的成本。
网络就跟移动设备和智能传感器的爆炸性增长一样,也让数据的收集方便得多了。
"但是就苴核心而言,”作者写道,“大数据只是人类寻求认识并量化世界的过程中的最新举措而已。
嗷据化(Datafication)是他们使用的术语,用来描述当今捕获世界上以前从来没有量化过的很多方而信息并将其作为数据的能力。
我完全赞同他们的观点,认为大数据不仅应该被视为过去几十年里数字和互联网革命的一部分,而且应该视为过去几百年间科技革命的一部分。
在今年5月举办的2013年麻省理工学院斯隆商学院首席信息长研讨会(the 2013 MIT Sloan CIO Symposium)±,麻省理工学院教授埃里克•布林约尔夫松(Erik Brynjolfsson)在他主持的“大数据的现实”小组讨论中表达了类似观点,他说纵观历史,新工具都会引发革命。
当新工具让我们有可能开展各种新的测量和观察活动时,科技革命就开始了。
早在17世纪,伽利略(Galileo)对发明不久的望远镜进行了重大改进,使他能够作出大大改变我们整个宇宙观的发现。
几个世纪以来,我们看到在物理、化学、生物和其它学科实现重大科技突破之前都会有新工具、新测量方式和新发现产生。
我们新的大数据工具有可能会引发一场基于信息的科技革命。
就像望远镜、显微镜、光谱分析仪和DNA测序仪导致了新的科学学科产生一样,数据科学现在正迅速成为大数据的学术伴侣。
数据科学最让人激动的地方之一是,鉴于我们刚刚获得了收集差不多任何主题(包括医疗保健、金融、管理和社会科学)方面有价值的数据的能力,大数据可以应用于差不多任何知识领域。
不过,就像所有的科技革命一样,这需要时间。
按照库克耶和迈尔■舍恩伯格的说法,数据化需要在我们处理数据的方式上发生三个深刻变化。
第一个变化他们称Z为n二全部(n=all),也就是说,收集并利用大呈数据,而不是像统计学家至今Z前所做的那样只满足于小样本。
“当收集数据的成本太高,处理数据既麻烦又耗时的时候,抽样的样本成为了救星。
现代抽样技术是基于这样•个思想的:在-定的误差范围内,个人可以根据小团体的数据推断出整体人口的某种情况,只要抽取的样本是随机的。
”
抽样需要预设数据将要被如何使用,因此你可以设计哪些是合适的样本。
这样做在论及全体样本的时候是有用的,但当你深入到小一些的团体时,这样做就不是很有用,因为你可能没有足够的数据来有效地做到这一点。
还有,如果你对白己想从数据中得到的内情改变了想法, 你通常必须抽取新的样木。
当你可以收集并存储所有数据而不是•个样本时,所有这些问题都不复存在了,也就是说,样本呈n=全部的时候。
下一个变化是,要求人们接受零乱的而非纯净、秸心整理过的数据。
“在越來越多的悄况下, 稍失准确是可以接受的,因为使用质量参差的海量数据带來的好处超越「使用少量粘准数据的成本……当周邀没有那么多数据的时候,研究人员必须保证他们费劲收集的数字是尽可能准确的。
发掘海量数据意味着我们现在可以允许一点不准确的数据无意屮流入(只要数据集不是完完全全不正确的),换来的是巨大体呈的数据带给我们的视野。
”
我发现最后•个重大变化,即从因果关系到相关性关系的变化,这特别让人感兴趣。
正如作者所说:“人数据帮助回答是什么而不是为什么的问题,这往往就足够了。
”或者说,至少在经验科学的早期阶段这就足够了。
在这一阶段,我们寻求的是能够帮助我们预测未來事件和行为的方式,没有必要拥有可以解释事情为何发生的良好模式或理论。
那些模式和理论今后会有的,不过有时它们根本不会岀现。
比如,在麻省理工学院首席信息长研讨会上,麻省理工常院教授季米特里斯•波特西吗斯(Dimitris Bertsimas)参加了布林约尔夫松教授主持的“人数据的现实”小组讨论。
他谈到了自
己最近的研究:分析数十年的癌症治疗数据,希望能够以合理的成本提高癌症病人的寿命和生活质疑。
他和他的三个学生一道开发了模型,利用病人的个人资料数据和他们接受的化疗药物及剂量方面的数据预测生存和死亡的几率。
他们的论文《用分析法设计癌症临床试验》(An Analytics Approach to Designing Clinical Trials for Cancer)表明,根据过去的数据预测未来临床
试验的结果是有可能的,哪怕要预测的确切的药物组介以前从来没有在临床试验中测试过,哪怕这个特泄药物组合为何有效的原因不为人所知。
"使用大数据有时意味着放弃追究为什么,以换取弄淸事物是什么……这表示人们开始放弃了解世界如何运作背后的深层原因,转而仅仅去了解现象之间的联系并利用这种联系来完成任务,"库克耶和迈尔-舍恩伯格写逍,"当然,弄涓事物背后的原因是可取的。
问题是原因经常很难查明,很多时候我们认为自己找到了原因,其实那不过是一种沾沾自喜的错觉。
行为经济学已经证实,人类在原因不存在的地方也习惯于看到原因。
因此我们需要特别警惕,防止我们的认知偏见迷惑我们;有时,我们只需要让数据说话。
"
"在一个数据越来越多地决左判断的世界里,对于人、直觉和违背事实的行为来讲还会留有什么用途呢?”作者在结尾部分问适,"如果人人都诉诸于数据,利用大数据工具,能够成为区分焦点的就是不可预见的东四:本能的人为因素、冒险、事故、甚至错误。
如果真是这样, 那么会有一种特殊的需要人为来开辟一块地方:为直觉、常识、和意外发现的本事留出空间, 确保它们不会被数据和千篇一律的答案挤岀去……不管大数据的威力多么令人眼花缭乱,它诱人的光芒绝对不能让我们对其固有的缺点视而不见。
我们必须在既感受到大数据的威力又了解它的局限性之后才去采用这种技术。
"。