信息化时代的心理学大数据作为一个随信息时代应运而生的概念,近年来得到了各行各业的共同关注,其中也包括心理学。
文本从技术的角度介绍了大数据的概念及其技术工具,总结了传统心理学的研究逻辑和研究方法,在此基础之上介绍了心理学研究中的大数据问题以及一些相关的实际应用,总结了大数据对心理学的研究逻辑和研究方法产生的影响。
大数据的出现是技术发展的必然产物,心理学作为以外部表现数据为分析对象的学科,理应抓住这样的机遇。
对于当前心理学研究的多个层面,大数据技术都能直接起到提高效率、增强效度的作用;同时,如果研究者从心理学研究的目标着手,充分利用现代信息技术,将大数据同心理学问题和心理学研究范式有机结合,则有望拓展心理学研究的领域和思路,促进心理科学体系的进一步发展。
一、引言大数据(Big Data),又称海量数据,是指所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息[1]。
李国杰和程学旗认为大数据是一种无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
大数据这一名称以及它的常用定义会使人误解数据的规模是判断其是否属于大数据的依据。
而实际上,数据的大小(size)并非衡量其是否是大数据的唯一标准[2]。
Laney认为大数据具备数据体量巨大(Volume)、数据类型繁多(Variety)和数据处理速度快(Velocity)的3V特征[1]。
也就是说只有数据同时符合容量巨大、处理高速和类型丰富三个条件才能算得上大数据,而非简单的规模大。
也正因为这三个特性,大数据才会如上述定义所说具备挑战系统性能的特性。
大数据时代已悄然来临,在物理学、天文学、大气学、基因组学、生物学、社会学等多个学科得到应用[3]。
大数据中包含的数据具备多样性,并且不同的数据类型之间具有关联性,这样一来便为挖掘数据中的隐含知识创造了可能。
大数据展示了格式塔心理学中“整体大于部分之和”的优势。
在总数据量相同的情况下,与分别分析独立的小型数据集(类似于经典心理学研究中的样本)相比,将各个小型数据集合并(类似于总体)后进行分析可以得出更多额外的信息。
这些信息可以用来判定消费者喜好、预测选举结果、监控疾病疫情或测定实时交通路况等,如谷歌的流感趋势就是利用大数据对流感进行的预测。
能够有诸如上述众多应用开发正是大数据风靡的原因。
心理学是研究心理现象及其规律的科学,是一门既古老又年轻的科学。
人类对心理学问题的探究有着漫长的过去,其前身可以追溯到人类历史早期对灵魂活动的阐释。
两千年前,我国先秦诸子的著作中,就已出现若干对于人类精神活动的思考。
古希腊哲学家亚里士多德的《论灵魂》则是人类历史上最早关于心理现象的专著。
然而,直到19世纪中叶以前,心理学的研究方法都是思辨式的,带有经验描述性质,尚不能称之为科学。
德国心理学家威廉·冯特把实验法引进心理学,并于1879年在德国莱比锡大学创建了世界上第一个专门的心理学实验室,由此开创了科学心理学。
心理学成为科学体系中的一门独立学科,至今仅有百余年历史,因此, 心理学又是一门年轻的科学。
科学心理学采用实验方法,使得心理学研究从经验描述发展到对行为的科学、深入分析,进而揭示心理现象的发生发展规律。
这必然要求科学心理学研究立足于反映心理活动的外部表现的客观材料,即建立在客观数据的基础之上。
然而由于条件所限,长期以来心理学研究者几乎无法获取覆盖研究对象全体的客观数据,从而不得不发展出一套以实验室实验和抽样统计为核心的学科操作规范。
这种操作规范为心理学研究者进行符合现代科学标准的探索提供了极大便利,使得心理学学科知识得以迅速积累,但同时也使研究结果的真实性、可用性和可推广性受到极大约束。
大数据理论与技术的出现,特别是当下数据采集技术的飞速发展和应用范围的极大拓展,使得我们有可能开展极大规模的用户实验,进行全时全程的跟踪记录,并实现数据颗粒度的灵活变化,从而使得心理学研究的数据基础更全面坚实。
本文结合中科院心理研究所计算网络心理实验室(Computational Cyber Psychology Lab,CCPL)近年来开展的计算网络心理研究, 从心理学研究的视角分析大数据为心理学带来的新机遇。
图1 心理学研究的一般流程图1 心理学研究的一般流程二、心理学研究概述心理现象作为一种主观精神现象,摸不着看不见,没有体积、大小和重量,不具有外显特性。
因此, 需要依靠对心理现象的外显表达来推测背后的心理现象的特点和规律。
心理学的基本任务是探究心理现象发生发展和变化的规律,最终目的是实现对心理现象的有效解释,从而预测和干预不同的心理现象,提高人们的生活质量。
心理学研究试图通过研究人们的外显表达,间接摸清背后心理现象的变化规律,打开心理现象这个黑盒子。
心理学研究的一般流程如图1所示。
(一)研究逻辑心理学研究逻辑与统计学中的假设检验思想有密切的联系,不是通过肯定的结果去证实而是通过否定的结果去排除,即不直接检验备择假设,而是判断虚无假设的正确与否。
心理学研究通常以提出假设为起点, 一般包括备择假设(H1)与虚无假设(H0),前者是希望被证实的推测,后者是与之对立的推测。
通过对假设的检验,运用心理学的研究方法获得所需内容、分析该内容得出结果,这是研究中最重要的一步。
最后,再根据研究结果支持哪一种推测来确定是接受或是拒绝虚无假设,拒绝虚无假设证明了研究结果与预想的一致,反之意味着预想不正确(见图2)。
图2 心理学研究逻辑图2 心理学研究逻辑(二)研究方法观察法是对心理现象进行系统观察的研究方法。
对于一些无法直接操作或难以干预的变量,通常会使用观察法。
心理变量本身是无法直接观察到的,用观察法观察的是能够反映心理现象的行为。
调查法主要包括问卷法和访谈法。
问卷法是心理学中应用最广的方法之一,一般使用自陈的方式让被试回答有关问题。
访谈法是通过直接与被试进行对话的方式获取有关心理现象信息的方法,常作为编制问卷的前期工作或实验法的补充工作存在。
测验法是通过一套标准化的试题来测量所需研究的心理量的研究方法。
与问卷法相比,测验法使用的量表更加标准化,对结果数据的要求也更严格,一般应为等距或等比变量[4]。
测量法主要分为纸笔测验和操作测验两类。
前者需要用文字回答问题;后者可手动操作,更适用于受到文化程度和文化背景制约的情境。
实验法是心理学中的重要研究方法,它可以直接探究变量之间的因果关系。
实验法主要分为实验室实验与自然实验两类,前者要求对实验条件进行严格控制,后者则仅对自然情景进行恰当的干预。
实验法常常会结合问卷法进行实施。
个案法仅对少数案例进行深入研究,通常在一个问题的探索阶段使用。
个案法适用于探索why或how的问题,可以详细描述研究对象的特征和解释产生某些现象的原因。
(三)研究工具在心理学研究中,一类占重要地位的工具是问卷(Questionnaire)和量表(Scale)。
大部分的问卷和量表都是自陈式的,要求被试根据自身的情况回答问题。
测量某些心理特征(如人格)的工具,除了自陈量表之外还有投射式和情景式量表。
投射测验会向被试提供一些刺激情境(通常是图片、句子),让被试自由表达(如看图说故事、补充不完整的句子),分析其反应推断出其人格特征。
情景测验会把被试置于特定的情景中,观察其行为反应并由此推断其人格特征。
今天,问卷和量表类工具在调查、测验和实验等多种研究方法中都得以大量应用。
除此之外,心理学的研究中还有大量专门针对某一问题而设计的实验工具,如研究操作性行为的斯金纳箱、研究深度知觉的视崖、研究认知地图的触棒迷津,等等。
近20年来随着认知神经科学的兴起,EEG、ERPs、f MRI等神经生理记录技术与设备也大量运用于心理学研究中。
三、大数据之于心理学研究目前,利用大数据开展研究已经遍布各个学科,心理学也不例外。
2014年就有一篇关于情绪传染的研究备受争议,该研究对近70万Facebook用户的动态信息“动了手脚”,使一组用户接收到的信息以积极情感为主[5],另一组用户则以消极情感为主。
结果显示用户的情绪会受到这些动态信息所包含的情感影响,接收积极情感信息的用户情绪更积极,反之接收消极情感信息的用户情绪会变消极。
在传统的心理学研究中,很难想象收集近70万个样本要耗费多少人力与时间成本,而大数据技术却轻松解决了这个难题。
大数据的兴起为心理学研究带来了极大的机遇,下面笔者分别从研究逻辑、方法和工具三个方面阐述大数据对心理学研究的促进作用。
(一)研究逻辑心理学假设检验的研究逻辑是先验的,是在得出结果之前作出的推断。
不同于心理学的研究逻辑,大数据是根据数据分析得出结论,其研究逻辑是后验的。
心理学采用先验逻辑,是对经典研究方法只能获得部分、有限的数据这一现实的妥协。
大数据的出现为心理学提供了一个后验的可能,进而提高心理学研究的科学性,同时也更符合从实践到理论再到实践的哲学思想。
假设检验的缺点还在于一个研究如果接受虚无假设,意味着排除了一个不正确的推断,但是要得到正确的推断还需要继续验证其他假设。
大数据则不必受到这种困扰,从数据中分析归纳出结果就相当于需要证实的备择假设,即“数据驱动”,这样一来大大提高了最终获取正确推断的效率与可能性。
(二)研究方法大数据不仅给心理学研究逻辑的完善带来了全新契机,在研究方法上也对心理学产生了深刻影响。
1.样本代表性心理学的传统研究方法中,样本规模都十分有限,研究多采用抽样的方式从总体中抽取样本,再把样本的研究结果推广到总体上,这就使研究结论的有效性不可避免地受到样本代表性的影响。
大数据研究可以不再通过样本间接研究总体,而是能够做到直接对总体的全部数据进行分析处理。
传统研究方法没有能力直接对总体进行研究,所以才采用“迂回”的方式研究样本;现在大数据技术为心理学提供了直接研究总体的可能,从根本上消除了样本代表性的问题。
2.客观性实验法的一个主要缺陷,在于对实验条件的控制通常会营造出不同于真实生活中的行为情境,并在实验过程中始终伴随着实验者效应、要求特征等干扰因素。
大数据的方法可以在不直接接触被试的前提下收集生活中的真实行为数据,从而避免了非自然的实验场景可能带来的种种负面效应,使收集到的数据更加客观准确。
3.数据的收集和处理对于大规模的问卷和测验研究,传统方法一方面数据收集过程比较缓慢,往往需要等待被试反馈足够的信息,另一方面在数据处理阶段需要大量人工计算整理,效率受到很大限制。
大数据技术具备对海量数据的高效存取能力,并能够通过对既存的、原始的数据记录进行分析,提取出有效特征,使心理学研究在数据基础的规模上实现了质的飞跃, 能够有效降低研究成本、提高研究效率。
4.时效性人的心理活动随时间流逝而不断变化,传统研究方法所收集的信息要么是回溯性的(容易受到遗忘等因素影响而产生误差),要么是截取单个或有限几个时间节点,却得出推广到整个时空的研究结论。