随机对照试验

还提供: Español.
同义词:
随机对照试验,临床试验,随机对照试验,随机影响评价

随机对照试验(RCT)或随机影响评估是一种影响评估,它使用随机访问社会计划作为限制偏差的手段,并产生内部有效的影响估计。

一项随机对照试验将接受项目(或服务或药物)的患者随机分为治疗组和对照组。然后比较两组之间的结果;这个比较给了我们节目的影响。随机对照试验并不一定需要“无治疗”的控制——随机化可以很容易地用于比较同一项目的不同版本,或者不同项目试图解决同一问题。

通过这种方式,控制模仿了反事实。反事实的定义是,如果该计划没有实施,同一个人在同一时间可能发生的事情。根据定义,它是不可能观测到的——它是另一个宇宙!rct通过创建一个可以模仿它的组来工作。

很多时候,评估比较的群体与接受项目的群体完全不同。例如:如果我们比较接受小额贷款的妇女和不接受小额贷款的妇女的结果,结果可能是,选择不接受小额贷款的妇女在影响结果的重要方面是不同的。例如,不接受小额信贷的妇女可能积极性较低,或对金融产品的意识较低。

使用随机化方法意味着第一个由程序实施者确定目标群体,然后在该群体中随机化程序访问。

随机化可以在群集级别(如村庄、学校或诊所)进行,而不是对个体进行随机化。这些被称为集群随机对照试验。

在比个人大的水平下随机化有两种主要原因。首先,它可以解决污染:当治疗的个人混合和聊天,并可能与对照组中的个体进行聊天。这将“污染”我们的影响,我们的对照组将不再是一个很好的比较。在村级随机化可能会最大限度地减少发生这种情况的风险。其次,我们可能希望在实际实施干预的水平下随机化:例如,为学校提供电气化的干预。它是逻辑上是不切实际的 - 如果不是不可能的 - 以便在学童上随机化电力。

当在聚类级别进行随机化时,随机化的单位就是我们随机推出程序的单位;即集群(在我们上面的例子中,一个学校)。分析单元,定义为我们收集数据和比较结果的单元,通常是个人——例如,学生个人的考试成绩。当我们计算所需的样本量时,这种区别将变得很重要。其中,样本量受集群内相关(ICC)的影响,ICC是指集群内个体的相似程度或不同程度。ICC将确定每个集群需要抽样多少个人以及需要抽样多少个集群。

简单的例子

考虑这个假设的例子:非政府组织,iPad 4全部(I4a),计划将iPad分发给发展中国家的低收入儿童。I4A希望评估iPad对儿童教育,健康和未来收入水平的影响。他们可能永远不会有足够的iPad来涵盖所有“值得”的孩子。而不是向表达兴趣的儿童或附近的儿童分配,或者政府确定为“最佳”,而RCT会随机化他们的访问。

如果他们在个人级别随机化,他们会将所有符合条件的孩子的名字放入碗中,或计算机上的列表,并运行彩票。有些孩子会得到一个iPad。有些人不会。如果他们在学校一级随机化,他们会为学校名称做这件事,有些学校将获得iPad。在一个阶段/管道设计中,最初没有收到iPad的个人或学校将被放置在队列中,以便如果研究发现他们有效并且可用资金。

除了这个简化的例子,RCT方法可以适用于各种各样的环境。

与所有人类的研究一样,RCT受到严格的道德评论,以确保在研究过程中没有人类受试者受到伤害。

RCT的步骤

  1. 可选的前奏是需求评估,可以提供关于上下文及其约束的信息。例如:需求评估可能会告诉我们有多少名儿童在Rajasthan农村接受了全面免疫课程。它可以引导我们指定假设或关键评估问题。
  2. 一种计划理论开发(可选地,逻辑模型)。该计划理论描述了该计划,解开其影响的途径,并阐明了可能妨碍成功计划的所有风险和假设。在这个阶段,它也是有用的,以考虑可以在每个步骤中收集的指标。
  3. 对整个目标样本进行基线调查。收集了有关指标的数据。
  4. 样本被随机分成不同的组。随机化可以使用Excel或Stata等软件进行。为了确保随机化已经“成功”,检查它们在基线指标和可能重要的背景变量方面是否相等:它们应该在统计上相同——即相同的平均收入、相同的平均健康水平,等等。
  5. 计划或干预在治疗组中实施。
  6. 在该计划期间,强烈建议监控该计划的实施情况。此数据将有三个优点。首先,它成为一种监控类型,这对实现组织的运营和效率有益。其次,它提供中间指标,允许评估人员解压缩影响的“黑匣子”(并沿着变革理论遵循)。换句话说,这些中间指标允许我们回答为什么程序具有它所做的影响。第三,最重要的是,有必要监测干预措施是否充分地实施给治疗组,对照组没有被污染(通过其他方式接受干预)。
  7. 在该计划的实施之后,并且根据评估的背景(例如,一些指标很快回复,其他指标慢慢地),有一个终端或随访的调查。理想情况下,此调查将与基线调查分享许多问题和特征。
  8. 然后比较治疗组和对照组之间的结果,以得出影响估计。将结果报告给实施伙伴。

例子

RCT方法足够灵活,以适应各种背景和部门。它可以用于教育,健康,环境等。随着一点想象,随机化可以适应许多不同的情况。下面将讨论约束和无法确保的RCTS。现在,这是一个简短的画廊的rcts可以做的事情。

简单(一个治疗,一个对照)

在Abdul Latif Jameel Poverty Action Lab(J-PAL)的小额信贷研究中,一个大型印度小额信贷机构,Spandana,印度海德拉巴的104个低收入社区,这是开设分公司的潜在地点。在打开分支机构之前,52个社区被随机选择了2005年开放的办公室 - 这成为治疗组。剩下的52个社区仍然是“控制”(在接待下的几年内接收办公室)。然后在治疗区域引入小额信贷后15-18个月内采访了家庭。

查看示例

多种治疗/因子

RCT可以调查彼此的多种治疗或对照彼此的多种治疗和对照组。

在印度比哈尔邦和拉贾斯坦邦进行的一项研究检查了几种治疗方法,以解决儿童识字水平低的问题。一项干预措施侧重于为母亲们提供识字课程,假设受教育程度更高的母亲在帮助在家的孩子方面会更有效。第二项干预措施为母亲提供在家活动的指导,以丰富孩子在家的学习环境。第三项干预将这两项结合起来:母亲们接受了母亲识字班和家庭活动指导。而对照组则不接受这些服务。

查看示例

旋转

印度的补救措施措施使用旋转设计。旋转设计是指两组,一个组是治疗的情况,并且一个是控制 - 然后,那些角色开关,具有先前处理的变得控制和先前的控制变得对待。在实践中,非政府组织Pratham确定了孟买的77所学校,在Vadodara举行了124所学校。Pratham的干预是一个补救导师(称为“Balsakhi”,或“儿童朋友”),他将与15-20名落后于成绩的学生会面。

随机化是“旋转”的,在那里,2001年,一半的学校收到了第3年级的导师,另一半获得了4级获得的一半。2002年,学校收到了以前未经处理的等级的导师。通过这种方式,可以通过将3年级学生在获得第3级导师的学校学校的学校中比较学校的3年级学生来确定治疗的影响。

查看示例

阶段/管道

除去身上的虫的世界

通常,预算限制禁止全面卷取程序。因此,通过简单地选择首先选择,可以通过彩票来利用随机影响评估来利用这些交错的推广。

J-PAL的Deververing学习使用随机相位。1998年至2001年间,在1998年至2001年期间,由非政府组织国际儿童支持非洲,在肯尼亚西部75所学校中推出了大众驱虫。75所学校被置于彩票,1998年1998年接受了25所学校,1999年25岁,2001年剩下的25岁。通过这种方式,1998年,50所未驱虫学校担任25名蚊子的对照组学校。

查看示例

鼓励

在许多情况下,在政治上,道德或行政地拒绝向对照组提供服务。在这些情况中的一些情况下,可以使用鼓励设计 - 随机选择的个体将收到警告脚本或广告,并将其提醒他们到此可用的服务。在这些情况下,控制组个体仍然可以访问相同的服务,但它们不会收到相同的提醒使用它。通过同样的标记,治疗人员仍然可以拒绝服务(如大多数干预措施)。

摩洛哥丹吉尔的J-PAL学习与当地公用事业公司合作 - Amendis - 已经分发了饮用水(虽然占用小于100%)。该计划正在提供有补贴的无息贷款来安装水连接。Amendis为所有符合条件的家庭提供了这笔贷款;但是,对于评估,这些家庭的随机子集接受了门到门的意识运动,并提供了填写申请的援助。这一促销活动是推动所选户(治疗)的“鼓励”,比那些没有收到促销的家庭更频繁地注册贷款(控制)。通过这种方式,研究人员能够确定新的Amendis水合与家庭的影响。

最后,因为“鼓励”(即治疗)组比非鼓励(即控制)组的水连接占用更高,这两组可以进行比较。由于鼓励是随机分配的,结果的任何差异都可以归因于供水使用率的差异。

查看示例

在泡沫内随机化

有时随机化可以在资格的“气泡”中发生。例如,南非的J-PAL研究与匿名的小额信贷贷款人一起担任该机构被视为“潜在信誉”的787名被拒绝的贷款申请人。(Applicants had been either automatically approved or rejected under the bank’s normal application process.) Within this sample of 787, this “bubble”, a randomly-selected subset of rejected applicants were assigned to be given a “second look” by one of the lending institution’s financial officers. These officers were not required to approve these individuals for loans, but they were encouraged to. (Thus, we can see that “take-up” in this case related to the financial officers approving applicants for loans.)

查看示例

根据任务和选项映射方法

rct与其他影响评估方法共享许多相同的任务和选项。例如,根据定义,它们必须指定主要评估问题。这些问题可能是如下:将导致的学校出勤率增加虫子?他们也会导致改善教育结果吗?获取小额信贷是否会导致更大的商业投资?铁强化盐是农村人口贫血利率的有效途径吗?

此外,数据收集和数据分析是RCT方法的组成部分。深刻理解样本至关重要:谁是目标人口?是选定的样本代表较大的人口?随机化方案访问后,是治疗和对照组沿着重要指标相当吗?深思熟虑指标也很重要:例如,如何测量妇女的权力?认知能力?金融知识?如何收集这些指标的数据?

最后,鉴于建立因果关系的重要性,突出突出的作用是有用的控制组作为反应性

关于选择这种方法的建议

重要的是要记住,虽然RCT可以是在某些情况下测量影响的严格方法,但它们只是更广泛的评估工具阵列的一部分。也就是说,它们可以是任何对任何方法组合的有用的补充,但它们不太可能能够回答每个问题。在本节中,我们将描述一些绑定约束,这将阻止评估员选择RCT方法。

绑定约束:样本大小

对任何定量影响评估的主要限制之一 - 不仅仅是RCT - 是样本大小。在RCT的情况下,我们涉及沿两个维度的样本大小:分析单位和随机化单位。在确定统计显着性和统计功率时,分析单位和随机单元的单位都是积分的。

统计学意义是指我们观察到的结果的概率不仅仅是基于机会的。文献状态的惯例,其显着性水平高于90% - 优选为95% - 足够。这意味着,5%或10%的时间,我们观察的结果是偶然的。

相反,统计功率是指在存在时检测冲击的可能性。那么,逆,是我们在发生时错过影响的可能性有多大可能(从而产生“假阴性”)?一种number of factors determine statistical power: the sample size, the minimum detectable effect size (i.e. how sensitive must the test be), the outcome variable’s underlying variance, the proportion that are in treatment and control, and – if it is a cluster RCT – the intra-cluster correlation. Convention allows 80% to be a sufficient level of power.

有一种观点认为,对于低水平的电力,最好不要进行影响评价- -否则资源将被浪费,而这些资源本来可以更好地用于其他地方(例如进行良好的过程评价)。

绑定约束:回顾性与前瞻性

通过设计,RCT无法确定目前现有项目的影响,即已经推出的程序,并且没有机会,随机提供他们的服务。(Most programs are, indeed, not delivered randomly – notable exceptions being Mexico’s PROGRESA and reservations for women and caste minorities under India’s 73rd amendment.) Given that randomization occurs at the moment of implementation, and randomization is integral to the RCT approach, they can only be planned ex ante – not ex post. Thus, for existing programs, RCTs can only be applied to either: roll-outs of the program into new areas, additions to the program (e.g. new products).

使用这种方法时的建议

在实施最佳设计的RCT期间可能会出现许多问题。然后,要准备好并包括减轻或控制各种风险的计划。

占用率

收藏率有时可能低于预期,这可能会对您的效果大小(以及以下情况为您的统计权力)产生后果。值得注意的是,卷取和电力之间的关系是指数:效果大小的50%滴下样的样本大小增加以实现相同的功率。

出于这个原因,建议充分预测 - 并且如果有的话,低估了计划的占用率。选择保守派,甚至悲观,估计这可能会奖励你的较高电源。

不符合

可以损害RCT估计的另一个问题是计划参与者的不合规。也就是说,虽然可以将个体分配给治疗或控制,但很少需要或控制这些作业。考虑一项小额信贷计划,在随机选择的“治疗”社区中打开分支,并在“控制”社区中不这样做。生活在后者的个人可能只是沿着“治疗”社区的旅程,以便在小额信贷分公司开设账户。在这种情况下,控制组不再用作真正的反事实。

因此,如果个体能够自我选择分组,那么不遵从就会威胁到随机化的完整性。虽然不服从永远无法完全消除,但它可以被最小化。一种方法是选择一个足够大的随机单元,使两组不太可能混合。例如,在小额信贷的例子中,如果“治疗”社区和“控制”社区也相隔相当远,我们可以预计不合规的情况将保持在较低水平。

但是,当对照组个体占用程序时,治疗人员没有,这类似于鼓励设计。

消耗

当样本的某些部分不再可供后续使用时,就会出现磨损,例如,因为它们已经移走了。如果减员是由治疗组和对照组的统计差异引起的,我们称之为“差异减员”。这可能特别令人担忧,因为它从本质上取消了你的样本的随机性,因为人们在自我选择一个组或另一个组。需要注意的是,尽管损耗率看起来是相同的,但如果人们离开治疗或对照组的原因与治疗有关,则差异损耗可能仍然会发生。

在小额信贷例子中,如果治疗社区中的一些家庭获得贷款,长大的家庭,可能会出现微分磨损,并使业务变得足够富裕,以便离开附近 - 从我们的样本中离开。如果是这种情况,我们将无法在我们的分析中包含它们,因此我们的剩余“治疗组”看起来比它应该有点差(因为所有富人的家庭都搬走了!)。因此,与家庭跟进,特别是在差动磨损的情况下非常重要。

当从治疗或对照组出现的原因发生磨损时发生非微分磨损:人们可能会移开,死亡或以其他方式删除我们的样本,并且与他们是治疗或控制无关。在这种情况下,我们只会担心非差分磨损侵蚀我们的样本大小,使得统计显着性或功率裁剪问题。

进行基线调查

理论上,如果随机化已经成功实施,一个终线调查就足以确定一个内部有效的影响估计。然而,基线调查除了提供随机化产生平衡治疗和对照组的经验保证外,还以增加权力的形式提供了额外的好处。通常,更频繁的数据收集(如基线、中线和终线)可以为更小的样本规模提供同样的能力。此外,基线结果允许我们测量异质效应(即亚组分析),当组被变量定义时,可能会随时间变化。例如,它可以让我们衡量教育创新对那些在基线考试中得分较低的孩子的测试分数影响。如果没有基线,我们将无法确定这些是哪些孩子。

比较多种治疗方法

如果我们想检测到程序的两个变体之间的差异,那么我们将需要更多的功率 - 并且因此,更大的样本大小。如果我们只是想比较有程序不具有程序,那么那么较少的功率(因此更小的样本大小,相对)就足够了。

资源

指南

Duflo,E.,Glennerster,R.,&Kremer,M。(2007)。在发展经济学研究中使用随机化:一个工具包。发展经济手册,4,3895-3962。

课程

阿卜杜勒·拉蒂夫·贾米尔贫困行动实验室(J-PAL)提供为期一周的活动执行教育课程全世界和全年。本课程探讨了影响评估,重点关注何时以及如何使用随机影响评估。可以在MIT的Open课件上在线找到免费的,存档版本。

常见问题(常见问题解答)

1.RCT在评估中是一种新方法吗?

2.如果随机化不能产生相同的组,你该怎么办?

特别感谢本页的贡献者
审稿人
首席执行官,BetteRevaluation。
墨尔本。

评论

匿名的照片
斯蒂芬ickamath.

我计划实施RCT评估,以评估衰退预防在6和23个月之间的儿童中的衰退。该RCT将在负责营养恢复和治疗的健康中心举行。所有孩子都将收到治疗,我计划创建3组儿童:第1组:风险高风险的儿童陷入衰退类别或遭受衰退的痛苦;第2组:低于衰退的风险的儿童陷入衰退,我称他们有风险的孩子陷入衰退;第3组:幸福的孩子,即采取治疗只是为了防止衰退。该评估的目标是测量预防治疗衰退的影响。

您是否有文档可以与我分享以准备此评估的参考和调节器?任何文件或建议都将得到很好的理解。

问候

添加新评论

登录登录并评论作为betteRevaluation成员或只是填写下面的字段。