海外慈善
打个比方吧,盲目相信随机对照实验和这个情景类似:也许街灯下光线充足,是夜晚中最容易看清楚周围情况的地方,但这并不意味着街灯附近就是你最有可能弄丢钥匙的地方。
Stephanie Wykstra是一名居住在纽约的研究顾问和自由撰稿人。她曾在《Slate》杂志、Vox 网站和Inside Higher Ed 网站等媒体发表过文章。
本文由AEON授权《好奇心日报》发布,你可以在Twitter 上关注他们。
六年前,一位居住在肯尼亚农村地区的女性给我讲述了她的故事。每逢雨夜,她都要送孩子们去邻居家的棚屋避雨——她家的房子是千疮百孔的稻草屋顶,而邻居家的房子则是坚固结实的金属屋顶。但是后来一个名叫GiveDirectly 的非盈利性组织拨款1000 美元,使她有钱修缮房子的顶棚。如今她和家人可以在夜里安然入睡,再也不用担心突如其来的大雨将自己从梦中淋醒。多年后,我依旧记得当初和她一起坐在她的家中,内心暗暗渴望自己也有很多钱,这样就能向无数和她一样的贫困家庭伸出援手。
我和这名女性以及她村子里的其他村民都见了面。这段经历给我带来很大的触动,让我不禁心潮澎湃。但是,真正打动我的却是研究调查得到的证据和结论。
科研人员在许多低收入国家开展大量大规模随机对照实验(randomised controlled trials),研究各种类型现金援助手段的扶贫效果。数据表明,这种扶贫手段对贫困人群的健康水平和教育水平有着持续性的积极影响。不断增加的证据显示,穷人会利用获得的资金购买生活必需品,而不是将钱款挥霍在香烟和酒精等商品身上——此前捐助者担心的事情并没有发生。
这些研究背后还隐藏另一个引人注目的事实:它们都是相对较新的研究,开展于最近几年之内。过去20 年间,这类通过处于“微观”层面扶贫项目分析如何在低收入国家帮助穷人的研究数量飞涨。而导致研究项目戏剧性激增的原因是一场引人入胜而又意义重大的辩论:这类研究获得的证据究竟有没有价值。
2000 年之前,经济学家更倾向于研究国际经济发展情况以分析“宏观”层面的问题,而不是将精力集中在处于“微观”层面的扶贫项目身上。比如他们喜欢分析规模浩大的数据集合,对比横跨不同国家的诸多影响因素,研究富裕国家如何能在其他国家依旧经济凋敝的情况下促进经济发展。但是从上世纪90 年代末和本世纪初开始,包括麻省理工学院的埃斯特·迪弗洛(Esther Duflo)、阿巴吉特·班纳吉(Abhijit Banerjee)以及哈佛大学的迈克尔·克莱默(Michael Kremer)在内的很多经济学家开始提出,研究“微观”层面扶贫项目也很重要。在2011 年出版的《贫穷的本质》(Poor Economics)一书中,迪弗洛和班纳吉没有仅仅着眼于研究贫困的本质原因和扶贫手段的有效性。相反,他们提出的问题是:“我们知道什么才是帮助穷人的有效方式吗?”
在这种思维模式的影响下,他们两人和其他经济学家开始就一系列微观层面的问题进行探讨:为了对抗疟疾,我们应该直接向穷人免费分发蚊帐吗?和花钱购买相比,免费拿到蚊帐的人们使用频率是不是更低?(一项随机研究表明,和出售蚊帐相比,在肯尼亚免费发放蚊帐没有导致蚊帐的使用率下降)为穷人白手起家经营生计提供小额贷款作为启动资金,此举能否帮助他们摆脱贫困?(六个不同国家开展的六项随机对照实验表明,虽然小额贷款有其他积极影响,但很少有证据证明它能提升穷人的总体收入水平)为贫困儿童发放驱虫药物,对孩子们的上学出勤率和今后收入水平有什么长期影响?(虽然在肯尼亚进行的一项长期随机对照实验招致大量争议,但数据表明发放驱虫药对孩子们的上学出勤率和今后收入水平都有积极影响)
为了更好地表述观点,我首先要为大家补充一些背景知识。随机对照实验过程中,研究人员随机将一组参与者指定为实验组(the ‘treatment’ group),然后将他们的实验结果与随机指定成对照组(‘the control’ group)的参与者实验结果进行对比分析。相比之下,“观察性研究”利用的则是现有数据,并不进行任何的干预和介入(比如不会在实验过程中招收参与者)。当然观察性研究除了单纯观察之外,有时也可能采取其他干预措施,比如“双重差分研究”(difference in difference studies)就会在研究开始前后分别将通过非随机方式指定出来的实验组和对照组数据进行对比分析。
但是,在观察性研究中使用其他干预措施容易让人们对研究结论中因果关系的相关性产生强烈的质疑。比如说,研究人员将食用豆腐的健康人士与从来不食用豆腐的健康人士进行对比。但是,这两组实验参与者究竟有多大的不同?也许食用豆腐的人平时也经常食用蔬菜,也许他们的运动量更大。所以即便食用豆腐的人更加健康,研究人员也需要从统计学角度对两组实验参与者的差异进行“把控”。可是如果存在研究人员压根没想到的差异呢?又或者如果研究人员想到了差异的存在,但却没有办法对其衡量呢?
图片来自Capturing the human heart. on Unsplash
随机对照实验的好处就在于你无需为可能存在的干扰因子而担忧——从统计学角度来看,如果“零假设”(null hypothesis,统计学术语,又称原假设,指进行统计检验时预先建立的假设——译注)成立(大多数情况下,这意味着假设不成立),你就可以估计观察得出实验结果的可能性。
2010 年,我一心沉迷于随机对照实验。此前在非盈利性组织工作期间,我因为缺乏研究证据和数据而倍感受挫。每次看到大量因为“年龄超标”(通常是超过18 岁)而脱离寄养照顾的孩子会在18 个月内沦为无家可归的流浪者,我都感到惊骇万分。我曾在几个致力于解决人口问题的非盈利性组织里实习过,这些组织似乎不太了解——或者说压根不想了解——自己所采取措施的实际有效性。当时的我还是一名哲学专业的研究生,专门研究与怀疑主义有关的课题。最终,我认定随机对照实验是能让我们了解如何才能帮助他人的可靠手段。
我决定放弃纯理论哲学的研究工作,随后发现GiveWell 组织的工作与自己的兴趣完美地契合在一起。GiveWell 是一家美国非盈利性组织,依靠随机对照实验(但这并不是他们的唯一研究工具)分析帮扶措施的实际效果。刚刚入职时,我专门研究了致力于将多项随机对照实验(主要是与健康有关的课题)集中整理,进而综合分析它们累积效应的非盈利性组织Cochrane。似乎很少有人了解Cochrane 系统综述,这让我感到万分错愕。于是我就变成了Cochrane 的非官方“推销员”,不停向遇到健康问题的亲朋好友安利他们的综述研究。
很多开展于低收入国家随机对照实验的组织者都是美国的扶贫行动创新组织(Innovations for Poverty Action,简称IPA)。离开GiveWell 之后,我便加入了这个非盈利性组织。除了IPA 之外,还有很多组织也都努力号召研究人员在分析经济发展问题时开展随机对照实验。2003 年,迪弗洛、班纳吉和芝加哥大学的经济学家塞德希尔·穆莱纳森(Sendhil Mullainathan)成立了阿卜杜勒·拉提夫·贾米勒扶贫行动实验室(Abdul Latif Jameel Poverty Action Lab,简称J-PAL)。从本世纪初开始,J-PAL、IPA、世界银行以及英国国际发展部(Department for International Development,简称DFID)的研究人员先后在中低收入国家开展了数百个随机对照实验,研究内容涉及教育、普惠金融和健康等诸多课题。
很多圈内圈外人士都认为,这股随机对照实验的汹涌大潮产生了引人注目的积极影响。有时候,人们甚至称颂这次运动是一场革命。澳大利亚政治家、经济学家安德鲁·利(Andrew Leigh)在今年出版的《随机主义者:激进的研究人员如何改变了世界》(Randomistas: How Radical Researchers are Changing Our World)一书中就表达过类似观点。
虽然有很多不解和困惑,但我对随机对照实验的理解和认识随着时间发展不断改变,从最初的狂热不已变成现在的感觉还行。在多个非盈利性组织工作之后,我渐渐意识到人们对号召开展随机对照实验运动的批评不无道理。有时候,具体个案让我感受更为深刻。比如2012 年时,我与GiveWell 的同事合作撰写一份关于导致社会变革大众传媒的报告。面对研究项目缺乏足够随机对照实验的质疑,一些核心科研人员回应称,相较于依靠其他研究方法获取证明帮扶项目产生积极影响的证据而言,专门开展随机对照实验的做法既不必要也不可行。另外,很多人还以一种更为常见的方式批评随机对照实验中存在的弊端——至少在过去的十年时间里,英国杜伦大学的科学哲学家南希·卡特赖特(Nancy Cartwright)一直指责称,我们知道随机对照实验“能告诉我们究竟什么变量发挥作用”的想法大有问题。在她看来,这种观点太过单纯。
卡特赖特和诺贝尔奖得主安格斯·迪顿(Angus Deaton)都认为,开展随机对照实验的研究人员和各种组织通常会夸大所得证据的价值。在联合发表的论文中,他们提出随机对照实验和很多其他研究手段一样都能发挥效果,但我们不应该将其当作研究领域的“黄金标准”。为什么随机对照实验所得的证据不比其他研究手段所得的证据更好?在卡特赖特和迪顿看来,原因主要和外部效度(external validity,因变量与自变量之间关系的推广性程度,涉及到实验结论的概括力和外推力。外部效度通常要回答的问题是:研究结果是否具有代表性、在类似情境中能否验证研究结果——译注)有关。两人表示,社会干预发生的实际情景通常极其复杂,其中涉及大量发挥作用的影响因素。而且环境一旦发生变化,这些影响因素很容易就会消失不见。他们在论文中写道:“因果关系若想生效,通常需要周围环境满足极其具体的经济、文化或社会结构条件。”因此,如果想要在新的环境中应用检验随机对照实验的结论和发现,我们必须构建新的理论,弄清楚哪些“支撑因素”(supporting factor,比如与影响因素一起导致观察结果出现的其他附件因素)意义重大。
卡特赖特和迪顿列举出大量实例,证明随机对照实验中效果显著的帮扶项目在新的社会环境中魔力不再。在肯尼亚开展的一系列随机对照实验证明,NGO 运营的学校增加教师数量后,学生们的考试成绩出现大幅度提升。但是研究人员随后以相同方式复制实验,唯一变化的是实验地点定在公立学校。这一次,学生们的考试成绩没有出现提升。卡特赖特和迪顿还指出,澳大利亚国立大学的经济学家伊娃·维瓦尔特(Eva Vivalt)就社会干预普遍适用性问题的研究表明,研究人员未能成功在其他多种新环境中重现原有随机对照实验的结果。
卡特赖特和迪顿总结称,为了确保随机对照实验得出的证据和结论适用于新的环境条件,研究人员和决策人员不仅需要了解哪种干预手段(在特定环境下)能产生效果,还要了解这种干预手段生效的原因和机制。他们表示,在新环境中应用随机对照实验的结论前,我们要做很多假设。因此一旦我们要利用随机对照实验的结论制定社会政策(很多时候需要在脱离原有实验环境的新情境中分析问题),随机对照实验所谓的优点(比如研究人员只需要做出相对较少的假设)实际上就不复存在。不同环境(比如其他国家)会影响随机对照实验结论的有效性,不同个体也会影响随机对照实验结论的有效性。
面对这些批评的声音,随机对照实验的支持者通常想知道为什么人们直接将矛头具体指向随机对照实验本身,而不是责难调查研究这个领域。最近,有20 篇学术文章就这个问题对卡特赖特和迪顿的质疑做出回应。马里兰大学的经济学家帕梅拉·雅基拉(Pamela Jakiela)在推文中总结道:“迪顿和卡特赖特提出了非常不错的见解,但不知道为什么,他们总是将矛头直接指向随机对照实验,而不是分析研究领域整体普遍存在的问题。”
另外,人们还就随机对照实验的相关性和重要性有所怀疑。和易于用随机对照实验研究的课题相比,随机对照实验的结论究竟有多少真的能帮我们制定和完善政策?西方国家中,人们喜欢用这样的比喻形容在街灯下寻找丢失钥匙的人:也许街灯下光线充足,是夜晚中最容易看清楚周围情况的地方,但这并不意味着街灯附近就是你最有可能弄丢钥匙的地方。比如说,政府在贸易政策和财产性权利裁定领域的决策能够对一国人民的幸福安康产生巨大影响。但是,就这些领域的政策工具和实践手段开展随机对照实验却基本上不太可行。
图片来自Johann Walter Bantz on Unsplash
哈佛大学的经济学家兰特·普利切特(Lant Pritchett)认为,相较于政府决策所能带来的宏观变化而言,J-PAL 和其他组织开展的很多微观层面扶贫项目不太可能真的帮助人们脱贫。最近,包括不少经济学家在内的15 位知名学者联名致信《卫报》,表达了他们对号召开展随机对照实验运动的批评。他们写道:“人们对‘扶贫手段效果’狂热关注存在的真正问题在于,这会将我们的注意力局限在某个地区的微观干预层面,因为研究人员能够在短期内通过观察得到研究结论。”这些学者认为,相比检验各式各样“对问题根源所在的体制基本上无法造成任何改变”微观层面发展项目效果的随机对照实验而言,我们真正应该做的是针对“导致贫困的根本原因”下手。换言之,我们要集中力量处理不平等问题和气候变化问题。
很多随机对照实验的支持者回应称,究竟是开展随机对照实验还是专注于改变政府政策其实不是一个二选一的选择题,而是应该做到双管齐下。美国加州休利特基金会(Hewlett Foundation)全球发展和人口项目主管露丝·莱文(Ruth Levine)表示,处理导致贫困结构性因素这样的宏观问题时,随机对照实验发现的个体和社区行为模式能给我们提供帮助。她不认为随机对照实验的开展会导致其他类型的研究和实验项目渐渐边缘化。在她看来,这种观点简直不切实际,因为“大部分官方机构和私人组织的发展扶贫资金都用在了非随机对照实验项目身上,而且这种趋势以后也不会改变。”
除此以外,我们目前尚且不清楚批评人士口中微观层面项目只有少量令人郁闷成效的观点究竟是否站得住脚。后来更名为“机会项目”(Oportunidades)的墨西哥“进步项目”(Progresa )得出结论,证明有条件的发放现金能够帮助上百万人。同时,很多其他低收入国家也相继大量开展相同类型的研究项目。迪恩·卡兰(Dean Karlan)是IPA 的创始人,他在2011 年与雅各布·阿佩尔(Jacob Appel)联手出版了《好的意愿尚且不够》(More Than Good Intentions)一书。在他看来,这种发放有条件现金的随机对照实验“不能一举根除贫困,但在根除贫困的道路上,我们能够(也正在)取得真实、显著且有意义的进展”。
八年前,我第一次开始认真思考随机对照实验的利与弊。在我看来,最让我感到不安的忧虑之处是调查研究这个领域整体都存在问题。包括随机对照实验在内的学术研究项目存在很多潜在问题,它们可能突然出现,影响实验结果的可信度。其中,学术研究领域存在的一个重大问题便是发表性偏倚(publication bias):阳性结果的研究发表机会更多,发表速度更快,所发表刊物的影响因子更高,最终导致阴性结果的研究无人问津。证据表明,和其他研究方法相比,随机对照实验受这个问题的影响更小:经济发展领域的随机对照实验费用高昂,耗时漫长,结论非常有趣,因此无论结果是阴性还是阳性都能得到发表。不过,发表性偏倚依旧是一个值得担忧的隐患。
学术研究领域存在的另一个重大问题是选择性报告结果(selective reporting)。在医学等领域,学术期刊要求投稿作者预先在网上针对他们的研究进行“提前登记”,详细阐明他们计划测量和得到什么样的结果。这样做的原因在于,如果研究要对很多很多因素进行测量分析,研究人员就可以择优挑选出希望今后发表的部分。如此一来,研究人员很容易得出可能造成随机干扰(statistical noise)的所谓阳性结果。在此,我用一个非常惊人的例子来说明这个问题:美国国立心肺血液研究所(US National Heart, Lung and Blood Institute)要求研究人员就研究项目进行提前登记后,发现阳性结果的研究比例从57% 猛跌到8%。但是在经济发展领域的研究项目中,很少有人要求科研人员提前登记研究的结果和分析计划。人们最初就这种做法是否正确产生过争论,有的研究人员就提出提前具体阐明研究结果的做法拘束性太强。另一种做法是在研究开始前提前接收论文,接受标准只看研究项目的价值和设计。这个“登记报告”模式在心理学领域得到广泛应用,而《发展经济学杂志》(Journal of Development Economics)也在去年宣布将会尝试采用此类模式。
大部分人对发表性偏倚和选择性报告的担心都不仅仅局限于随机对照实验领域。但是,这些忧虑的确让我们用更为平和的心态看待如火如荼的号召开展随机对照实验运动,冷静分析它宣称能够得出干净纯粹结果的夸张能力。很明显,随机对照实验和其他研究方法一样,也存在很多使我们质疑其结果合理性的问题。号召开展随机对照实验的大部分研究人员似乎都清楚这一点,但是,其他人好像总是忽略这个问题。
我们把视野重新拉回GiveDirectly 组织在肯尼亚发放现金的那个村庄。大量研究证据显示,发放现金补贴对人们摆脱贫困有积极影响。但是,还有很多问题亟待解决:IPA 正在就GiveDirectly 的基本收入实验开展随机对照实验,每个月向肯尼亚农村地区的家庭发放补贴,计划连续发放12 年。这项研究将提供目前所急需的数据,告诉我们在肯尼亚的国情下,基本收入制度效果究竟如何。目前,已经有人对这项随机对照实验提出批评,认为它的开展模式和分析方式等细节存在漏洞。
我不觉得这类批评证明肯尼亚的随机对照实验出了问题。相反,我觉得批评之声恰恰是我们需要的——对特定随机对照实验的细节进行详细持久的监督和审查;讨论什么时候应该开展随机对照实验,什么时候应该采用其他研究方法;权衡应该在微观层面研究项目上投入多少资源,应该在能帮助人们宏观政策层面上投入多少资源。多年的经验告诉我,我们不能轻而易举地解答上述问题。但是,我们也不能就此停下探索的步伐。