当前位置:文档之家› 大数据时代与社会科学研究范式变革

大数据时代与社会科学研究范式变革


开展的研究得以开展,同时也带来新的挑战。大数据 可揭示一切问题,理论变得可有可无。这一观点撼动
其量之大超出一般传统统计软件所能处理的范围, 了不少社会科学研究者,使他们开始憧憬“传统方法
而且解释变量增加会导致高维数据中的“维数灾 的终结”。此外,不少研究者至今仍然认为大数据虽
难”,解决这些问题需要新的分析方法和工具。三是 然不是绝对精确,但由于数据量极大,所以误差必然
〔收稿日期〕2017-09-10 〔基金项目〕国家社会科学基金重大项目“基于大数据的中国宏观经济景气衡量方法研究”(16ZDA008),负责人刘涛雄。 〔作者简介〕刘涛雄(1973-),男,湖北崇阳人,清华大学社会科学学院教授、博士生导师,主要研究方向为宏观经济、大数据
经济分析、产业经济等。 尹德才(1982-),男,山东临沂人,清华大学社会科学学院博士后,主要研究方向为宏观经济、大数据。
析人员和技术实践者对大数据有不同的定义。从狭 所带来的无意的或未经设计的结果。”〔5〕7 各种社会
义上讲,大数据是指数据量的大小超过了传统意义 现象可视为已发生的不可控试验,其背后存在某种
上的尺度,一般的工具难以进行捕捉、存储、管理和 潜在的本质规律或因果关系。考虑到因果联系的普
分析。〔1〕该定义仅仅描述了大数据的“大”,没有涉及 遍性和复杂性,数据作为对不可控试验的特殊描述
改进加快了大数据的处理速度。社会科学研究如何 具有理论意义和理论突破的研究,小数据可能比大
吸收和利用这些强大的技术手段,使之成为社会科 数据更适合〔9〕。另外,很多时候我们采集到的大数据
学家工具箱中的利器是未来社会科学家们必须面对 并非真正的全样本数据,它可能是总体中某一部分
的问题。〔 4〕
的数据,比如就互联网上的在线数据而言,网民并不
数据的非结构化。大数据的来源和形式都十分多样 在可以接受的范围之内。
化,如互联网信息包含文本、图片以及影音等多种形
较之于大数据而言,传统社会科学研究中使用
式。这些信息中到底哪些包含我们所需要的信息?社 的数据可称之为“小数据”。传统“小数据”方法的缺
会科学研究如何充分利用数据挖掘技术,将这些非 点是往往采用人工收集数据的方法,成本高昂,数量
学科成为数据富集的研究领域,而“社会科学是被 痴迷中蜕出”。《连线》杂志主编 Anderson 甚至认为
‘样本 = 总体’撼动得最厉害的学科”〔3〕42。大数据提 “数据爆炸导致科学的研究方法落伍了”〔8〕,大数据
供的“全样本”数据不仅使得许多因数据缺乏而无法 时代分析和理解世界,只关注数据就足矣,数据分析
视“相关而非因果”也引起诸多争议,对以因果探究 为核心的传统社会科学研究产生冲击。在这种情形 下,社会科学研究者该如何看待大数据带来的机遇 和挑战?如何利用大数据进行社会科学研究?大数据 将如何影响社会科学的研究范式?现有文献对此类 问题的研究较少,为此基于对大数据时代社会科学 研究面临机遇与挑战的分析,本文探究大数据时代
结构化信息转化为统计模型所能利用的形式?这些 较小,时效性较差,滞后性严重。但其优点是在严格
都是需要解决的问题。四是数据分析的技术手段日 的统计抽样规范下形成,数据质量相对较好;而且
新月异。伴随着数据规模的扩大,新的大数据分析技 “小数据”通常是根据研究需要有目的获取的,比被
术不断地涌现,机器学习、并行计算等技术的发展和 动收集的“大数据”具有更强的针对ห้องสมุดไป่ตู้。因此,对那些
二、研究路径变革:“数据驱动”的知识发现 数据驱动的知识发现,是指利用统计学、机器学 习等方法从掌握的大数据中提取隐含在数据背后、 人们事先不知道,但存在潜在效用、能被人理解的信 息和知识的过程。其中,精细的概率模型、统计推理、 数据挖掘与机器学习相结合,成为从大数据中提取 知识的有力途径。基于数据的知识发现催生了 2007 年图灵奖获得者吉姆·格雷(Jim Gray)提出的科学研 究“第四范式”。他指出,科学发展经历了几千年前的 实验科学(主要用于描述自然现象)、几百年前的理 论科学(用模型或归纳法进行科学研究)、计算科学 (主要模拟复杂现象),而当今“科学世界发生变化, 对此毋庸置疑。新的研究范式将首先基于计算机模 拟或者仪器捕捉获取数据,然后利用软件处理数 据,并在计算机中保存得到的知识或信息。科学家 仅在该过程的最后阶段才开始审视他们的数据。这 种数据密集型科学的技术和方法是如此不同,应该 将 其 作 为 科 学 探 索 的“ 第 四 范 式 ”以 区 别 于 计 算 科 学”。〔 10〕 相对于“数据驱动”而言,当前社会科学的主流 研究范式可称为“理论假设驱动”。社会科学家进行 一项研究时,强调首先要通过广泛的文献调研以了 解现有知识体系的前沿边界,然后提出本研究可能 给现有知识体系带来的贡献,即研究的基本“问题” 所在;然后从该问题出发,在一定的理论框架和必要 的理论推演下提出待实证检验的“新知识”,也即“理 论假设”,然后设计统计模型、收集数据,最后利用所 得数据验证理论假定并得出结论。这一过程深受波
每个人可能随时随地在制造数据。社会科学应充分 言大数据分析不可行〔6〕。而且科学哲学经验———理
利用数据的实时性,大大提高研究的时效性。二是可 论这一单线理解模式也难以应对大数据时代的认识
得数据是海量的。正如 Mayer-Sch.nberger 和 Cukier 论这种新情况〔7〕。另外,流行的观点认为,大数据分
所言,传统统计学处理的主要是样本,而在大数据时 析关注的焦点不再是因果关系,而是相关关系。大数
代,你能得到的数据可能就是总体本身〔3〕17。如就个 据的支持者认为,“有了足够的数据,数字会自己说
人迁徙而言,手机等随身设备可能将每个个体的移 话”,因而“相关关系足够了”〔8〕,“大数据时代最惊心
动都记录在案。大数据时代的到来,许多数据贫乏的 动魄的挑战,就是社会将需要从对因果关系的某种
大数据的其他属性。当前一般认为,大数据的典型属 必须尽可能的丰富,唯此才是更全面、更接近真实的
性概括为“4V”,即数据体量大、数据产生速度快、种 描述。大数据驱动的知识发现已经对传统社会科学
类多样和价值密度低。
认 识 论 和 方 法 论 的 研 究 方 法 产 生 巨 大 挑 战 。 Steve
就社会科学研究而言,大数据时代到底为我们 Kelling 等认为,传统的认识论“以专家为中心”,传统
带来什么?借鉴 Einav & Hendry 的概括,至少有四点 科学方法论的研究依赖于以“专家为中心的参量分
很重要〔2〕。一是数据的实时可得。如互联网上的大 析”,其研究中心是理论模型与经验证据的关系〔6〕。
量信息是实时的,移动互联网和物联网的发展导致 该方法论在大数据时代具有局限性,对单个专家而
刊登的《大数据的处理程序》一文,此后《自然》杂志 在于认识各种社会现象并尽可能地发现关联,而核
2008 年出版“大数据”专刊,“大数据”一词得到普遍 心在于探究因果关系。正如哈耶克所言“社会科学研
认可和使用。关于大数据的定义学术界并没有达成 究的不是物与物的关系,而是人与物或人与人的关
共识,由于关注点不同,科技企业、研究学者、数据分 系。它研究人的行为,它的目的是解释许多人的行为
·28·
万方数据
《理论探索》2017 年第 6 期(总第 228 期)
大数据与社会科学研究范式变革专题
等同于“公民”的总体。进一步而言,实际上以当代计 算机信息技术领域的数据挖掘专家为代表的大数据 分析方法和社会科学家们拿手的小数据实证方法代 表的是不同的研究范式。前者产生于大数据社会,充 分利用信息产生和获取的便捷,基于计算机计算能 力的不断增强,直接对海量的大数据进行分析处理, 通过数据量之大和计算力之强减少对理论的依赖。 后者是在信息收集成本高昂的工业文明时代发展形 成的,注重基于已有的理论知识缩小研究范围,以先 验的理论假设明确研究方向,依据严格的统计抽样 规范收集数据以提高数据质量降低收集成本。在大 数据时代来临之际,我们应该在洞察两类不同范式 形成的不同机理,深入分析各自优越点和应用场景 的基础上,探寻未来社会科学研究的新范式。而本文 认为,大数据时代社会科学研究范式的变革至少包 括以下三个方面。
《理论探索》2017 年第 6 期(总第 228 期)
大数据与社会科学研究范式变革专题
特邀主持人:刘涛雄(清华大学社会科学学院教授、博士生导师)
毫无疑问,大数据已经掀起一场革命,正在深刻地改造人类社会、经济和政治秩序的各 个方面,我国亦于 2016 年明确提出“十三五”期间将实施国家大数据战略。无论大数据作为研究对象抑 或是研究方法,均对社会科学研究范式的创新产生了深刻影响。为了加深学术界对于大数据与社会科 学发展的认识,促进学术对话与交流,我们组织了两篇文章集中探讨大数据对社会科学研究范式的复 杂影响。第一篇文章区分了大数据对社会科学研究范式的直接影响和间接影响。大数据时代通过为社 会科学研究提供“全样本”数据、大数据技术和数据驱动的知识发现产生了巨大的直接影响,还间接地 推动着社会科学研究范式在研究路径、研究手段和研究功能上的深刻变革。第二篇文章以“计算社会科 学”为研究对象,阐述了这一交叉学科的缘起、学科嬗变以及其推动社会科学研究范式转换的方向。大数 据为新兴学科发展与范式突破创造了机遇,并形成了一系列围绕着数据驱动和算法驱动采取不同融合 方式的“问题解决性、应用导向”多元化研究进路。作为技术进步、数据爆炸和方法创新的产物,计算社会 科学融合了社会科学的计算传统,基于海量数据资源和多元化数据分析学推动着社会科学范式转换。
·27·
万方数据
大数据与社会科学研究范式变革专题
《理论探索》2017 年第 6 期(总第 228 期)
社会科学研究范式变革的方向。
但是,相对于上述直接影响更为重要的是,我们
一、大数据时代社会科学研究范式面临变革
需要思考大数据时代到底给社会科学基本的研究范
“大数据”一词正式出现于 1998 年《科学》杂志 式带来哪些影响?社会科学的研究对象为社会,目标
相关主题