706青年空间

706青年空间的Matters官方账号

开放科学与可重复性:科学心理学的危机 I 技术的社会面线上沙龙回顾

706湾区-开放科学与可重复性 - 胡传鹏(分享版)

嘉宾介绍:

胡传鹏 德国莱布尼茨心理韧性研究所博士后。Center for Open Science的推广大使、Psychological Science Accelerator的翻译与文化多样性委员会负责人之一、OpenScience公众号及Chinese Open Science Network的发起人。

导航

00:13:59 哈佛幸福课:老年词汇的启动

00:20:30 心理学研究的可重复性危机

00:29:59 What is the Problem?

00:44:00 作为一种解决方案的开放科学

00:49:59  新世代的新科研制度


活动回顾

主持人:欢迎大家参加706湾区「技术的社会面」线上沙龙。706是一个理想主义者的乌托邦,它在2011年创立时,就吸引了无数乐群且开放的青年人,我们在这里聚集、住宿、探讨文史哲,以及宗教和艺术,一起探索生活的更多可能性。欢迎大家关注706青年空间的微信公众号,也欢迎感兴趣的小伙伴加入我们的策划和运营团队,一起做有趣的事情,让有趣的谈话发生。

知识分子的真正陷阱是什么?哈耶克认为是沦入过度专业化与技术的状态,从而失去了对更广阔世界的好奇心,我们这个系列分享的话题叫做「技术的社会面」,希望能够探讨推动人类文明进步的一些技术,以及关于这些技术的更多面相,试图去描绘一个更广阔的图景。

我们本期的嘉宾是胡传鹏,他目前在德国莱布尼茨心理韧性研究中心做博士后,同时也是Center for Open Science的推广大使,他发起了一个叫做Open Science的公众号,以及Chinese Open Science Network。我是今晚的主持人Ling,我目前是科技媒体的编辑。

我们都知道科学基于实验结果的可重复性,胡传鹏会成为开放科学的推广者,也是源于自己的经验,他在研究生期间重复心理学家的实验,发现实验结果居然做不出来,进而发现,原来这并非个案。其实在心理学界会有大量的实验结果 都是无法被重复的,这称为心理学界的可重复性危机。为什么会出现这种可重复性危机?而开放科学又可以带来哪些改变呢?今晚我们就会探讨此话题。下面我们就把时间交给传鹏。

胡传鹏:非常感谢Ling的介绍,很开心有机会在线上和小伙伴们一起分享。我之前在实体的706做过几次分享,我非常认同706的理想主义,包括科技与社会这个主题。

今天我讲的是开放科学与可重复性,现在,可重复性是科学研究中的重要问题,这是研究者们提出的让科学更开放更透明去解决这个问题的一种方式,因为我自己是心理学背景,而心理学主要就是研究人的行为和大脑。因为真正的心理过程我们是没法观测的,我们叫做行为科学家或者认知神经科学家,大家如果关心心理学的话,那么可能听说过《哈佛幸福课》,这个课程通过讲述积极心理学——心理学里面的一个分支,来告诉大家如何去理解幸福。这门课非常受欢迎,我之前看过这门课,也是深受启发。

哈佛幸福课:老年词汇的启动

哈佛幸福课里面曾经提到过人会受到情境的影响,当我们改变一个情境,我们就可以改变人的信念。John Bargh在纽约大学的时候做过一个非常有趣的实验,实验中,他给这些被试或者叫做志愿者呈现了一些诸如“养老院”、“年迈”等和老年人相关的词汇。他发现如果给出这类与老年相关的词汇,他们走出实验室的速度,会比看到这类词汇前慢。他对这个结果的解读就是,当某些概念被激活后,人们就会产生某种信念,从而人的行为被改变,这就说明了人很容易受到情境影响。

John Bargh讲述了一个好故事,让我们发现人是很容易被改变,很容易受影响,然而结果是不是这样呢?

简单介绍一下John Bargh,他目前是耶鲁大学心理学系的一位著名教授,在社会心理学界是非常有影响力的。他早年的研究围绕关于情境当中一些无意识的现实会影响人们的心理活动和随后的行为,他将这种效应称之为“启动”。启动效应以及一系列的研究让John Bargh在心理学界声名鹊起,而他在哈佛幸福课里面提到的研究,就是他在1996年以第一作者发表在人格和社会心理学杂志(Journal of Personality and Social Psychology)上的文章,这是社会心理学界的顶级期刊。他发表这个研究之后,后来的研究者对其开展了很多重复研究,很多人也发现其中某个概念会给人带来什么影响,很少有失败的研究被发表出来。

John Barsh

但2012年,情况发生变化,欧洲的几个研究者直接重复了John Bargh在1996年的这篇文章中的实验,他们在摘要中写道:“惊!我们并没有发现这种走路变慢的效应,只有当这个实验的实验员相信被试会走路变慢的时候,我们才会关注到这个效应,反之这个效应就不存在。”他们重复了这个实验,没有发现原来John Bargh报告的效应。他们发现,原来是实验者的信念会影响实验的结果,这个直接重复的实验报告出来之后,就被一个科普写手Ed Yong进行了广泛的报道,因为Ed Yong在科普界影响力极大,所以文章一经发出,就引起了巨大争议。

他在这篇科普文章中引用了一个心理学经典案例「聪明的汉斯」。

“聪明的汉斯”是一个心理学的典故,是说在20世纪初的德国有一匹马,有人声称它会做高级复杂的数学运算,当时动物学家都非常惊奇:为什么会有这么聪明的马?有很多动物学家和生物学家就去研究,他们最后发现这个马确实能够做算术,但是大家仍然很困惑,不知道为什么它会做。后来心理学家们在进行研究的时候,决定把马和它的主人隔开,使这匹马看不到它的主人,这个时候再给”汉斯”去呈现这个数学题时,这个马就不知所措,完全不会做题了。

这说明,实际“汉斯”可能不会做算术题,但它确实聪明,能够看懂主人的暗示,可以根据主人的面部表情或者身体姿态等等,探测到这种微妙的线索,从而做出算术题,这件事成为心理学的经典典故。我们在做实验的时候一定要尽量做到双盲,以避免因为实验者有预期,被试就按照实验者的预期来表现的情况。

这篇重复实验的文章发后,John Bargh很生气,于是他写了一篇措辞激烈的博客,批评了这个重复他实验的这帮欧洲的研究者,也批判了PLOS ONE,称它是一刊非常低级的杂志,给钱就发文,最后也批判科普作家Ed Yong,说他是根本没有专业训练的媒体记者。欧洲的研究者都是受过专业训练的,而Ed Yong是著名科普写手,所以博客发之后在整个欧美社会心理学圈子引发很大争议,他后来又迅速删除这条博客,因为这是心理学可重复性事件中很重要的一个历史资料,有人对其进行了存档。

心理学的可重复性危机

John Bargh本人的实验到底能不能重复,其实远不止欧洲那一个小组重复过,后来有很多其他小组也重复过,他们都发现不能重复这个效应,其实大家可以在Curate Science网站上进行检索。

在“elderly priming”这里绝对不止我们刚刚说到的这篇文章,有很多其他人也重复过,都没有发现这个效应,所以结论就是,这一效应可能是不存在的。那么John Bargh为什么能够报告这个效应呢,没有人知道。即,我们在很著名的公开课里引用的现象都是无法重复的。

当然,你可以说这只是个案,可能只有一两个例子如此。那我们再看丹尼尔·卡内曼(Daniel Kahneman)这本非常有名的书。如果大家关注自己是如何思考问题的话,或者说关注人类是怎么思考,大概可能读过《思考,快与慢》(Thinking Fast and slow),在这本书里丹尼尔·卡内曼讲了人类思考的一些基本现象,他提出了“系统一”和“系统二”。

简单来说,系统一是快速、不易受控制、无意识的思考方式,或者说思考的捷径;另一种是受意识控制、平静的思考方式。在书中,第四章叫做“联想的神奇力量”,绝大部分都是关于priming,也就是刚刚提到的“启动效应”,后来就有人把这一章所提到的所有研究都去溯源,去找到原始文献以及对这个原始文献进行重复,结果是非常不理想的。我们就发现这个书里面提到的绝大部分实验,后来都被证实无法被重复出来。也就是说我们在科普中,在课堂上面当作知识进行传播的结论,它们不一定是对的。

通过这些问题,是不是说我们心理学确实有很严重的可重复性危机?毕竟可重复性是科学研究最重要的标准之一,于是,心理学的科学性受到了威胁。

这个问题在2012年前后,正好处于一系列历史事件当中,整个那段时间所有的心理学研究,包括国际上所有的心理学研究者都对可重复性的问题非常敏感,为什么呢?因为在此之前发现了几件其他的事情,比如2011年,康奈尔大学的社会心理学教授发表了“人可以预见未来”的结论的文章,提出你可能预见到接下来会看到什么刺激,你会对那个刺激按键更快,或者说你预期到会出现一个词汇可以用到以后要学习的表达上。他们认为这是一个非常神奇的效应,并且将这个效应的发现发表在一个十分有名的杂志上面,引起了非常大的争议。

另外一个事件发生在2011年年末的时候,荷兰蒂尔堡大学社会心理学的著名教授Stapel,他的造假事件被曝出来。2011年4月,他在Science上发表了一篇非常引人注意的论文,文中提到,人们在脏乱差的环境下会让他的刻板印象加深,比如你觉得女性不擅长于数学,那么假如你处在一个脏乱差的环境下面,看到一位女性,你会觉得她更加不擅长数学。

他们做了一系列实验来验证这个假设,因为这个实验非常有趣,并且在现实上也很有价值,于是就在Science上发表了。但是在11月份的时候被爆料,这个数据完全是被Stapel本人编造出来的,以这个事件为起点就对Stapel本人进行了一系列调查,结果发现50多篇论文数据都是他自己编造,或者没有用原始数据,爆料之后,整个社会心理学界乃至科学界一片哗然,因为他甚至可能创造了整个科学史上单人造假数量前三名的记录。

另一个影响比较小的造假事件是2011年发表在心理学期刊Psychological Science上面的一篇论文。这篇论文中作者发现的一个效应无法重复验证引起了实验人员的注意。后来实验人员发现心理学实验的某些操作会让实验结果出现假阳性。从2011年到2012年,这样的假阳性实验不断累积,直到John Bargh关于刻板印象的启动实验无法重复,引起多方争议,John Bargh本人也遭遇了很大的质疑。

心理学的可重复性现状如何,成为了2011年以后大家开始关注的问题,大家也开始大规模重复。例如多实验室项目(Many Labs Project)大规模地对经典的实验进行重复,即同一个效应,同一个实验由多个研究小组进行重复。这样可以汇聚多方面证据检验可重复性。另一个有名的项目叫可再现性项目(Reproducibility Project),该项目选择了2008年发表在三个心理学期刊上的100篇文章,并找了100个研究团队对这些文章的实验进行重复。

2015年,该团队以Open Science Collaboration的名义将该研究成果发表于Science,研究结果发现可重复率为39%,尽管这个可重复率的数值未必准确,但我们不能否认可能现有的文献有大量的实验无法重现。该文章发表后引起了很大关注,因为Science的阅读量常年居高。该文章也被评价为年度最有影响力的文章之一。另外,Curatescience.org的网站也记录了大量心理学实验的数据,帮助我们发现什么样的实验数据并不可靠。

其实,并非只有心理学的文章存在可重复率低的问题。在其他的学科,如行为经济学、基因研究、神经学科等也存在这样的问题。例如,维基百科还提到了在市场、哲学、体育等方面都存在不可重复的问题。

What is the Problem? 

据Nature的一项调查显示,52%的被调查者认为自己领域的科学实验存在极大可重复性危机,另外还有38%的人认为可重复性问题存在,但不严重。这项调查表明,近90%的人认为科学研究存在可重复性问题。这说明大量科学家认为,可重复性是科学研究一个很重要的标准,这样才能确保科学研究具有可证实性或者可证性。

当前科研出现可重复性危机的原因在于某些研究方法存在的问题将会导致实际试验中出现一些看似有效应,但实际没效应的结果。最重要的一个问题是对于原假设显著性试验(零假设显著性检验null hypothesis significance testing)(NHST)中的检验水平p值 [1-3] (0<p<1)的误解。在通常情况下,p<0.05表明接受实验的假设。这导致实验人员收集数据以后,直接统计p值,如果p<0.05,则表明实验数据具备统计显著性,并将这组数据收集整理,发表论文。

另外,对于检验水平p值的误解还会产生二分思维,也就是将p≤0.05当做唯一标准,对于大于等于0.05的p值被认为不值得发表。但实际上,这样会忽略很多问题。因为p值表示的是当出现误差且原假设为真的时候,我们拒绝原假设的概率,但这个p值可能是不稳定的。我们实际关注的是效应影响有多大,这样的效应有什么作用。

比如在医学研究中,我们需要研究一个新药是否有更好的药效,且药效有多大,就需要得出一个理论或实验上的显著性而不是统计上的显著性,但p值不能完全反映这样的特性。

为了研究是否所有人都明白p值的含义,笔者针对心理学和非心理学的研究者做过一项调查,调查内容为在六个场景中,针对每一个场景给出一个关于p值的陈述。并让受试者判断这六个陈述哪些是正确的。实际上,笔者故意让六个陈述都是错误的。结果发现,至少90%的人会判断错一题。事实上,对p值的理解应该是一个环状的过程,包括作出假设、设计实验、进行实验搜集数据、分析数据验证假设、分析结果、发表论文几个步骤。

在这一循环过程中,每一个环节在实际操作中都可能出现偏差。例如在作出假设的时候忽略了控制偏差;或者在设计实验时,敏感性不够,搜集数据的质量偏低;以及操纵数据分析方法得出自己想要的结论(这种情况属于学术灰色地带,但不属于学术不端);在分析结果时,为了论文能够顺利发表,修改原先的研究假设;对结论进行选择性报告等。

产生上面现象的原因可能有当前的学术文化、制度等方面的原因。研究人员通常不以科研的严谨性为第一目标,而是想尽快发表自己的科研成果。因为当前全世界的科研体系对科研人员的评估大多只包含科研成果和项目成果。如论文数量、论文影响因子、申请的项目数、项目的声誉和金额等。此外出版商对所谓新颖的结果或具有统计显著性成果的倾向性也会导致科研人员的功利心理。

此外,其他研究者大多不能够直接重复作者的研究,包括实验假设、数据分析等方面,因为研究者无法获取作者完整的的实验参数,包括各项数据、实验材料、实验过程等。因为数据通常被当做科学家的个人财产。

因而,通常科学家不公开自己的数据,但事实上,站在科学研究的角度,科学家应该公开自己的数据。因为科学研究,特别是基础科学的研究,其经费来源是公共资金,或是支持基础研究的私人基金。但无论是怎样性质的基金,做基础研究的目的是为了增进全人类的知识。因而,数据应该被当做公共财产。

但是学界多年形成的风气,就是数据为研究者个人财产,研究者并不会把自己的数据进行分享,我们没办法对一个已发表的研究(无论是个人的还是整体的)进行严格的审视。目前学术界的规则是奖励论文和项目,且只注重新颖和阳性的研究。这会导致研究者为了发表这些结果而做研究,否则他们就会出局。这种现象可以称作publish or perish,即不发表就出局。

这种情况下,研究者要想生存下来,就必须得到p≤0.05的结果,更倾向于保护自己的数据,避免自己的数据会被别人用来发表文章。学界成长起来的资深的研究者,就是这样一步步过来的:只看p≤0.05的结果、新颖的结果,但并不重视可重复性。后来成为决策者的他们,又进一步强化整个体系的机制。因为他们不会认为自己做的是错的,所以就形成了这样的循环。另一方面,考虑到生活中与我们息息相关的决策,都可能是基于这些发表的论文的结果,而这些结果又都是假阳性的、无法重复的结果,我们自己的生活是会受影响的。

作为一种解决方案的开放科学

解决这个问题,可以从制度和研究者两方面入手。开放科学首先是对研究者个人的问题的解决,它是个很广泛的概念,甚至有人觉得这个概念无所不包,慢慢变得没有用了。但目前来说还是有用的,它的核心理念是说我们的整个基础科研过程中,所有的过程都是开放的、透明的,包括数据、最终发表的论文,以及对论文的评审等。那么,开放科学为什么能够成为一种可行的解决方案呢?因为这有助于我们解决很多问题。

以方法(method)部分的开放为例,在提出假设的时候, 我们需要控制偏见。如果方法部分是开放的,那就可以对假设很好地评估。方法的透明可以让他人知道到底有没有遵循严格的规范,是否是很严谨的一种数学模型或理论模型,研究到底是如何设计的。对数据收集的质量可以进行较好的审视,对数据分析的过程也可以进行检查。现在回到我们刚刚说的HARKing。

在知道结果后,研究者也可以去修改原始的假设,对于这种现象也可以起到一定的监督作用。另外,如果在研究的开始就把假设公开,之后收集到的数据是否符合原先的假设是清晰的,这会制止研究者依据数据修改原先的假设。如果数据是开放的,我们便能了解到实验数据的质量以及在分析解释数据时是否操纵p值。评审过程的开放则利于我们意识到是否有明显的出版偏见。如部分审稿人看到阴性结果,会不推荐发表。这就是很明的publication bias。

另外,当研究是假设A>B,但实际结果为B>A时,如果如实报告研究结果,试图去解释这样的结果。可能会被审稿人告知调整原先假设,让论文更漂亮。但这并非是假想的,因而实际上违背科学的严谨性。另外,只看论文数量、论文影响因子、项目和论文结果的研究文化也对科研的深入造成了一些负面影响。这将迫使研究者进行一种不利于科学的选择。只强调单个的研究者去改变做法是很难的,因为人都是理性的,必须选择能够适应科研环境的生存方式。所以改变科研文化可能是更重要的问题。

现在也有一些研究者开始提倡更加开放的研究文化,是以B.A.Nosek为首的一批做研究方法的人。2014年年底,他们和各个学科的杂志、协会、出版社一起开会,商讨如何提升学术圈里的研究文化。

后来这些人提出了TOP的Guidelines,可以从八个方面对杂志的开放程度进行评估。杂志改变评价体系变化后,它将更注重开放,这时候就有利于把研究者的个人利益和发现真理的社会整体利益放在同一个方向,不让他们背道而驰,更有利于科学的发现。另外,在这种情况下,原来的科研评估体系如论文、项目等依然可以保持不变。这个过程,已经在局部开始启动。

新世代的新科研制度

关于科学研究的可重复性主要包含两个方面。第一,现代的整个科研体系如何适应这个数字化、互联网化的社会。第二,就是科研工作的职业化。

这种职业化意味着我们必须更好地、系统地对科研工作进行规范,把研究者的个人利益和发现真理的价值统一起来。如果不统一,最终会导致研究者偏向于个人利益而不是全局利益。因为人都是很难看到全局的。即使看到全局,牺牲个人利益换取集体利益,对个人来说也是一种痛苦。数字化和互联网可以很好地解决这个问题。因为科研论文会被更多人读到,而且马上就有科普的人把研究推广到大众中,当专业人士和大众更紧密地连接起来,论文的影响力会更大。如何消除研究的不良影响也是很重要的。数字化时代,数据的存储、分享都是非常快捷的,这为共享数据、研究方法公开等提供极大的便利。例如我们可以把原始数据、分析的代码放到Git-hub上面。

如果没有互联网的存在,Open Science基本上是不可能的。试想,这些问题并不是现在才有的,我了解的心理学在60年代,就有人讨论我们在方法上的各种问题(如样本量太小、没有说服力、p值的过度依赖等)。但是为什么到近些年,到2012年左右才被大家真正地重新讨论起来,最主要的一个原因就是互联网的发展让所有的研究者可以直接联系起来。例如B.A.Nosek在推特上发了个消息,我如果觉得很重要就进行转发,身边的朋友也看得到。大家联合起来,形成很强的声音,一起讨论科学的问题。如果没有互联网,这几乎很难做到。一个研究者发了关于可重复性的文章,可能会被归于方法学的问题。但不是方法学的研究者几乎不会关注方法学的文章,所以它的影响力有限。这也是现代社会提供给我们改进科研体系的契机。

我们认知神经科学背景的人,在设计实验时,会尽可能降低实验的复杂度。心理学的研究对象是人的行为,因而研究本身具有高的复杂性。因而,到目前为止,心理学的研究仍没有一个成熟的理论准确地预测人的行为、社会模式。面对这种情况,过分强调用简单的实验设计探索漂亮简单的效应,在复杂的社会体系中或许很难有较可信的解释力、预测力。当我们量化研究复杂系统时,例如社会科学,生命科学(研究大脑的神经活动),或许我们不一定要追求简单的方法,而是要用最合适的方法,这是值得我们反思的问题。

我今天的分享到这里。感谢各位在线聆听,如果说大家对这个问题感兴趣的话,非常欢迎大家关注公众号,甚至可以发邮件讨论这些问题。最后分享一下最近被接受的一篇文章的经验,整个过程从预注册,到最后发表的整个过程中要注意的地方,或者说会碰到什么问题,跟大家进行分享。如果你是做研究的,可以关注我们的公众号OpenScience。谢谢!

参考资料:

[1] https://www.zhihu.com/question/329413195

[2] https://www.zhihu.com/question/23149768

[3] 盛骤,谢世千.潘承毅,《概率论与数理统计》(第四版),高等教育出版社,第八章

嘉宾:胡传鹏

德国莱布尼茨心理韧性研究所博士后。Center for Open Science的推广大使、Psychological Science Accelerator的翻译与文化多样性委员会负责人之一、OpenScience公众号及Chinese Open Science Network的发起人。

邮箱:hcp4715@163.com

网站:huchuanpeng.com 

Open Science公众号:OpenScience


场记校稿人:康存义,高玉炜,邢智童,Ling,名蔚,Emma Cheng

音频剪辑:黄烨帆,刘梦雅,李晨晖





發佈評論

看不過癮?

一鍵登入,即可加入全球最優質中文創作社區