心理辅导缺失数据管理的最佳实践加布里埃尔·l·Schlomer施瑞鲍曼和诺尔卡亚利桑那大学这篇文章敦促咨询心理学研究人员识别和报告丢失的数据处理,因为消费者的研究不能准确地解释发现不知道数量缺失的数据和模式或策略被用来处理这些数据。
缺失的数据模式综述了,和一些常见的策略来处理他们。
作者提供一个例子,数据模拟和评估3处理缺失数据的方法:意味着替代,多个归罪,完整的信息极大似然。
结果表明,意味着替代是一个贫穷的方法处理缺失数据,而多个归责和完整信息极大似然推荐这种方法。
作者建议,研究人员充分考虑并报告缺失数据的数量和模式和策略在心理咨询研究和处理这些数据,编辑建议研究人员期望。
关键词:缺失数据、最佳实践、咨询心理学、多个归罪,完整的信息最大似然缺失的数据出现在大多数研究行为科学(翘起的,2005;埃里森,2005;Orme &里斯,1991;Pigott,2001;史蒂文斯,1996;Streiner,1996),APA特遣部队在统计推断(威尔金森&特遣部队在统计推断,1999)建议研究人员报告失踪的模式数据和统计技术用来解决问题这些数据创建。
虽然适当的报告和处理缺失的数据对于理解至关重要的结果,这个元素从报告的研究数据分析通常省略(彭,哈维尔,宾利,&伊曼,2006;桑德斯et al .,2006)。
与增加计算内存和处理速度、复杂现在可以通过对缺失数据的分析研究人员没有昂贵的专用软件。
然而,许多研究人员不知道报告的重要性和管理缺失的数据,和编辑基本上没有坚持作者提供这些基本信息。
最佳实践与研究要求两个缺失的数据项目的基本信息,应该在每一个报道研究:(一)缺失数据的范围和性质和(b)程序用于管理缺失的数据,包括使用方法选择的基本原理。
在本文中,我们首先检查最近完成的《咨询Psychologyto确定作者在这个杂志上有解决这两个项目。
然后我们提出建议改善缺失数据报告的期刊文章。
最后,我们提供一个对几种常见的管理方法缺失的数据为调整的方法和现在的指导方针处理缺失数据的具体情况研究。
目前在网上的咨询心理学我们检查了所有的文章在最新的完整的卷(卷55 2008年)的《咨询Psychologyto定位文章定量数据分析报告。
我们发现37(这样的文章46卷的文章),检查每一个决定缺失数据的比例是否报道,是否指定的方法来处理这些数据,是否方法提供了理论基础。
只有14个文章报道缺失数据的百分比(其中一个指出没有失踪数据),尽管三其他物品丢失的数据的数量从其他资料可以推断。
在11日的文章中,方法(陈述或推断)listwise删除;病例从分析与缺失的数据了。
在一篇文章中,10%以上的情况下缺失的数据被删除listwise,但是中并未提及nonresponse项是如何处理的剩余的病例。
另外,作者(年代)listwise的合理使用删除(9%的病例)指出,因为没有意义排除变量和之间的关系被发现感兴趣的其他变量,下降情况下没有偏见的结果。
Listwise删除被用在另一项研究与解释缺失数据的数量并不可观,虽然没有指定的数量。
在另一项研究中,意味着替代丢失的数据时使用小于预定的截止加布里埃尔·l·Schlomer和诺埃尔卡,家庭研究和划分亚利桑那大学人类发展,施瑞鲍曼的残疾和心理教育研究,亚利桑那大学。
作者要感谢黛博拉·m·卡斯珀托马斯c . DeBaca和阿什利·c·王对他们有用的评论本文的草稿。
我们还要感谢保罗Allison为他计算的建议吗本文的早期版本。
通信有关这篇文章应该寄给雪莉鲍曼,残疾和心理教育研究,210069年邮政信箱,图森市亚利桑那大学阿兹85721 - 0069。
电子邮件:咨询心理学杂志》©2010美国心理协会2010年,57卷,1号,1 - 10 0022 - 0167/10 / 12.00美元DOI:12.00 /a0018082SCHLOMER、鲍曼和卡片率,例如果缺失数据的下降测量结果。
在三篇文章中并未提及丢失数据,但建议所有与会者都包含在表所有的分析。
在另一篇文章没有includeNs表,没有被提及的缺失数据文本;本研究涉及多个管理措施,它是很困难的想象,每一个项目完成了每一个参与者。
在然而另一篇文章中,没有提到的丢失的数据文本,但是检查表显示,缺失数据的存在。
中值替换使用在一项研究中,除了当一个大数量的丢失的数据点被发现在一个变量中,这种情况下,回归归责方法;这些决定的理由是不提供的。
一个额外的文章指出,缺失值成对地删除,没有解释这一决定。
最引人注目的是,在只有一篇文章缺失数据的百分比报告,处理的方法这些数据描述,包括方法的理由。
这个调查表明,尽管普遍缺失的数据全面考虑缺失的数据和建议,咨询心理学尚未采纳这些建议。
我们建议研究人员报告缺失数据的数量在一项研究中,考虑的潜在来源和模式缺失的数据,并使用适当的方法来处理和报告缺失的数据分析。
在附录中,总结了这些建议,我们详细说明这些建议下一个。
最佳实践在报道缺失的数据丢失的数据量至少,研究者应该报告的比例缺失的数据(见附件)。
正如报道的响应利率在考虑潜在的调查研究是很重要的普遍性,丢失的数据量的报告参与者是很重要的。
框架报告的数量缺失的数据,研究人员应该考虑两个常见的来源missingness。
在很多研究中,将丢失的数据项nonresponse。
这里,参与者完成一项调查,但是测试或其他措施不给回应每一个项目。
在这种情况下,它是理想的报告失踪的比例为每一个项目的反应测量,可以包含在表连同手段和标准偏差等基本的描述性数据。
然而,如果空间限制和物品的数量使这个选项不切实际,至少,缺失数据的范围应该报道(见附件为例)。
当数据项级的比例缺失的数据不是报道的一篇文章中,我们鼓励作者在项目级别报告缺失的数据在网上补充表。
第二个缺失的数据来源是参与者磨损。
为在纵向研究,数据收集多次从相同的参与者,有些人可能不可用数据收集的至少一个波。
这可能发生摩擦无论是纵向自然的研究(如。
,在一个学校调查中,一个孩子在第一年可能已经离开了学校第二年)或实验/准实验设计,采用多种措施(如。
,一些参与者退出预防计划pre -和期末测验)。
参与者摩擦也可以发生在摄取横断面设计。
在这种情况下,参与者常常无法完成整个调查问卷由于疲劳或无聊。
在任何设计中,这是至关重要的报告的比例在每个波,在整个磨损研究(见附录)。
专家关于比例并没有达成共识缺失的数据,成为问题。
谢弗(1999)推荐的5%,截止。
然而,班尼特(2001)建议当超过10%的数据缺失,统计分析可能有偏见,和其他人(如使用20%。
彭,et al .,2006)。
在显示一个特定的截止日期的人相比,我们相信两个因素确定确定missingness是有问题的。
第一个是合成数据集有足够的统计能力检测的影响的兴趣。
我们稍后将讲述Nonstochastic归责方法部分和随机归责方法部分,现代归责程序保留的最大数量可能的统计力量,因此比删除方法。
第二个需要考虑的因素是missingness的模式。
我们接下来讨论,missingness说话的模式潜在的偏压对数据的影响。
缺失数据的模式研究人员应该考虑,除了和数量缺失的数据来源,缺失数据的模式。
这种考虑涉及以下问题:是数据失踪的随机的,还是非随机的和潜在的偏置?定量研究者扩展这个基本问题描述三个missingness模式:完全缺失随机(MCAR),随机缺失(3月),而不是失踪随机(NMAR)。
失踪的完全随机。
有MCAR数据没有缺失数据的模式和缺失值任何变量相关研究(歪斜着,2005;班纳特,2005;罗斯,1994)。
如果一个检查一个大表的所有数据的数据集,丢失的数据点是随机分布的在桌子上。
的含义完全随机missingness缺失数据的情况下,相当于整个样本的随机子集。
在实践中,很难确定数据是否MCAR;然而,小(1988)开发了一个综合的统计测试MCAR(见附录)。
谢弗和格雷厄姆(2002)认为MCAR是3月的一个特例,描述下一个。
失踪的随意。
randomis误导的termmissing不随机丢失,数据拟合这一模式至少不完全。
3月数据的概率缺失的数据点相关数据集,但另一个变量与感兴趣的变量(Allison,2001)。
把不同,在3月,缺失数据与观测数据相关(另一个变量的数据集),但不丢失数据(Graham& Elek-Fisk Cumsille,2003;罗斯,1994;谢弗和格雷厄姆,2002)。
在这种情况下,研究者必须包括观察变量的分析,以避免偏见。
例如,在一个问卷完成的咨询心理学家,假设一个项目要求受访者表示他们的兴趣进行家长教育项目。
关于这个项目反应失踪一些受访者表示在调查(另一个变量)是否有特定的培训deliver-2 SCHLOMER,鲍曼和卡片荷兰国际集团(ing)的教育项目。
如果反应项询问父母教育的兴趣3月在每个组(培训与没有培训),然后他们失踪随机的,即使数据没有丢失以同样的速度集团(罗斯,1994)。
换句话说,如果丢失的数据家长教育项目相关参与者的反应在培训经验变量(观察)但不相关感兴趣的家长教育水平变量(失踪),然后3月数据(歪斜着,2005)。
这可能是那些没有培训取消了这个项目,但在两个模式是随机的组。
可以区分MCAR和MAR计算一个虚拟变量代表数据是否丢失感兴趣的一个变量,然后检查这是否哑变量与其他变量在模型中(见附录)。
如果这哑变量(missingness)无关其他变量,那么这个模式不被认为是3月而MCAR或NMAR(参见下一节)。
然而,如果哑变量确实是与其他相关变量,然后我们结论3月而不是MCAR,虽然我们仍然不能完全排除NMAR。
这种可能性的NMAR意味着研究人员不能确定3月或明确数据MCAR。
但是,正如我们描述下,研究人员通常认为3月或MCAR没有相反的迹象。
不是随机缺失。
当有一个模式失踪数据,这样的可能性missingness分数有关相同的变量有参与者回应,这些数据NMAR,也称asnonignorable nonresponse。
最明显的很难确定NMAR之间的联系missingness和参与者如何回应不能被评估,因为我们没有缺失值。
所以,NMAR成为概念的可能性考虑:就是参与者可能高(或低)的变量更有可能缺失的数据(例如,跳过项或离开研究)?虽然无法实证评估NMAR是不满意,这并不意味着我们可以忽视这种可能性。
例如,我们可能会注意到,有一个高速度缺失的数据项询问参与者的年收入。
可能的情况是,参与者与高收入更容易忽略这个项目,因为他们是不舒服与别人知道他们的收入。
我们鼓励研究人员总是考虑NMAR的合理性和承认这一点当这个模式是合理的可能性。