荟萃分析R Meta-Analyses 1

参考:Harrer, M.、Cuijpers, P.、Furukawa, TA 和 Ebert, DD (2021)。 使用 R 进行荟萃分析:实践指南。佛罗里达州博卡拉顿和伦敦:Chapman & Hall/CRC Press。 ISBN 978-0-367-61007-4。

1.1什么是荟萃分析?


它的创始人之一 Gene V. Glass 将荟萃分析描述为“分析的分析” (Glass 1976)。这个简单的定义已经告诉了我们很多信息。在传统研究中,分析单位是一些人、样本、国家或物体。在荟萃分析中,初步研究本身成为我们分析的要素。

荟萃分析的目的是结合、总结和解释与明确定义的研究领域或研究问题相关的所有可用证据(Lipsey 和 Wilson 2001,第 1 章)。然而,这只是做到这一点的一种方法。至少可以通过三种不同的方式来综合多项研究的证据(Pim Cuijpers 2016)。

  • 传统/叙事评论。直到 20 世纪 80 年代,叙述性评论一直是总结研究领域的最常见方式。叙述性评论通常由研究领域的专家和权威撰写。对于如何选择叙述性综述中的研究以及如何定义综述的范围,没有严格的规则。对于如何从审查的证据中得出结论也没有固定的规则。总的来说,这可能会导致有利于作者观点的偏见。尽管如此,以平衡的方式撰写叙述性评论可以帮助读者对某个领域的相关研究问题和证据基础有一个全面的印象。

  • 系统评论。系统审查试图使用明确定义和透明的规则来总结证据。在系统评价中,研究问题是预先确定的,并且有一种明确的、可重复的方法来选择和评价研究。系统评价旨在涵盖所有可用的证据。他们还使用预先定义的标准评估证据的有效性,并以系统的方式呈现结果的综合。

  • 荟萃分析。大多数荟萃分析可以被视为系统评价的高级类型。荟萃分析的范围是预先明确界定的,原始研究也是以系统性和可重复性的方式选择的,并且也有明确的标准来评估证据的有效性。这就是为什么研究被称为“系统评价荟萃分析”的现象很常见。然而,有一个方面使荟萃分析变得特别。荟萃分析旨在以定量方式结合先前研究的结果。荟萃分析的目标是将所选研究中报告的定量结果整合到一个数值估计中。然后,该估计总结了所有单独的结果。例如,荟萃分析对所有研究中的药物效果、疾病患病率或两种特性之间的相关性进行量化1。因此,它们只能应用于报告定量结果的研究。与系统评价相比,荟萃分析通常必须对所总结的证据类型更具排他性。为了进行荟萃分析,研究通常需要使用相同的设计和测量类型,和/或提供相同的干预措施(参见第1.3章)。

个体参与者数据荟萃分析

根据定义的不同,还有第四种证据合成方法,即所谓的个体参与者数据(IPD)元分析 (Richard D. Riley、Lambert 和 Abo-Zaid 2010Richard D. Riley、Tierney 和 Stewart) 2021)。传统上,荟萃分析基于 已发表文献中的研究汇总结果(例如平均值和标准差或比例)。在IPD荟萃分析中,而是收集所有研究的 原始数据并将其组合成一个大数据集。

IPD 荟萃分析有几个优点。例如,可以在所有研究中以完全相同的方式估算缺失数据并应用统计方法。此外,它们可以更容易地探索影响感兴趣结果的变量。在传统的荟萃分析中,只有所谓的研究级变量(例如,出版年份或研究中使用的人群)可以用来做到这一点。然而,通常是 参与者层面的信息(例如个人的年龄或性别)可能对结果起到重要的调节作用。这些变量只能使用 IPD 荟萃分析来探索。

IPD 荟萃分析是一种相对较新的方法,目前进行的绝大多数荟萃分析仍然是“传统”荟萃分析。这也是我们在本指南中不讨论 IPD 荟萃分析方法的原因之一。

这与传统的荟萃分析是否优越无关——相反是正确的。不幸的是,直到最近,在大多数学科中公开所有研究数据还非常罕见。虽然从已发表的研究报告中提取总结结果相对容易,但从所有相关研究中获取原始数据却更具挑战性。例如,在生物医学研究中,人们发现同时考虑个体参与者和汇总数据的研究只能从大约 64% 的合格研究中获得 IPD (Richard D. Riley、Simmonds 和 Look 2007)。最近的一项综述发现,虽然 IPD 荟萃分析中包含的研究中位数为 11 项,但个体参与者数据只能从中位数为 7 项的研究中获得(Wang 等人,2021 年)。

1.2 “超级愚蠢的练习”:历史轶事


荟萃分析并不是由一个人发明的,而是由许多创始人发明的(O'Rourke 2007)。对独立但相似的研究的影响进行统计总结的首次尝试可以追溯到大约 100 年前,并且可以与有史以来最重要的两位统计学家卡尔·皮尔逊 (Karl Pearson) 和罗纳德·A·费舍尔 (Ronald A. Fisher) 联系起来。

皮尔逊 (Pearson) 在20世纪初结合了大英帝国各地伤寒疫苗接种影响的研究结果,计算出汇总估计值( Shannon 2016 )。 Fisher 在其 1935 年关于实验设计的开创性著作中介绍了分析农业研究中多项研究数据的方法,并且已经承认研究结果可能因地点和时间而异的问题(RA Fisher 1935O'Rourke 2007)。

然而,“元分析”这个名字及其崛起的开始可以追溯到20世纪中叶激烈的学术争论。 1952年,英国著名心理学家汉斯·尤尔根·艾森克(Hans Jürgen Eysenck)(图1.2)发表文章,声称心理治疗(当时主要指的是弗洛伊德精神分析)无效。如果患者在治疗期间病情好转,那是因为与治疗无关的因素导致他们的情况无论如何都会有所改善。艾森克声称,更糟糕的是,心理治疗常常会阻碍患者康复。

心理治疗的声誉受到重创,直到 20 世纪 70 年代末才恢复。在此期间,Gene V. Glass 开发了一种他称之为“荟萃分析”的技术,该技术可以汇集跨研究的标准化均值差异2。他的技术的第一次广泛应用是在《美国心理学家》上发表的一篇文章,由玛丽·史密斯和格拉斯本人撰写(史密斯和格拉斯 1977)。在这项大型研究中,对 4000 多名参与者的 375 项研究的结果进行了荟萃分析。

研究发现,心理治疗的综合效应为0.68,可以说是相当大了。格拉斯的工作产生了巨大的影响,因为它提供了艾森克的判决是错误的定量证据。然而,艾森克本人并不相信,他称元分析是“对学术的放弃”和“一种极其愚蠢的行为” (Eysenck 1978)。

汉斯·尤尔根·艾森克(Sirswindon/CC BY-SA 3.0)。

图 1.2:汉斯·尤尔根·艾森克 ( Sirswindon/CC BY-SA 3.0 )。

今天我们知道,史密斯和格拉斯的研究可能高估了心理治疗的效果,因为它没有控制纳入研究中的偏差(P. Cuijpers、Karyotaki 等人,2019 年)。然而,一些心理疗法有效的初步发现已在接下来的几十年中得到无数其他荟萃分析的证实。艾森克的严峻反应并不能改变荟萃分析很快成为各个研究领域的常用方法。这次被非常恰当地描述为“元分析大爆炸” (Shadish 和 Lecy 2015)。

大约在 Glass 开发他的荟萃分析方法的同时,Hunter 和 Schmidt 开始制定他们自己类型的荟萃分析技术,重点是测量伪影的校正(Schmidt 和 Hunter 1977Hunter 和 Schmidt 2004)。荟萃分析还通过彼得·埃尔伍德(Peter Elwood)和阿奇·科克伦(Archie Cochrane)等人的开创性工作进入医学领域,他们利用荟萃分析表明阿司匹林对心脏病复发具有微小但在统计和临床上相关的预防作用。Peto 和 Parish 1980Elwood 2006O'Rourke 2007)。

在 80 年代中期,Rebecca DerSimonian 和 Nan Laird 引入了一种计算随机效应荟萃分析的方法(参见第4.1.2章),该方法一直沿用至今(DerSimonian 和 Laird 1986)。在过去的四十年中,无数其他创新帮助提高了荟萃分析方法的适用性、稳健性和多功能性。

科克伦和坎贝尔合作

Cochrane 协作组织(或简称Cochrane)成立于 1993 年,以 Archie Cochrane 命名,在应用荟萃分析的发展中发挥了至关重要的作用。 Cochrane 是一个由研究人员、专业人士、患者和其他相关利益相关者组成的国际网络,他们“共同努力提供可靠、易于获取的健康信息,且不受商业赞助和其他利益冲突的影响”。

Cochrane 使用严格的标准来综合生物医学领域的证据。该机构总部位于伦敦,但在世界多个国家也设有当地分支机构。

Cochrane 协作组织发布定期更新的干预系统评价手册 (Julian Higgins 等,2019)和Cochrane 偏差风险工具 (Sterne 等,2019)。两者都被广泛认为是系统评价和荟萃分析所有技术细节的标准参考书(见第1.4章)。

与 Cochrane 类似的组织是位于奥斯陆的Campbell Collaboration,该组织主要专注于社会科学研究。

1.3苹果和橙子:荟萃分析陷阱快速浏览


在过去的几十年里,荟萃分析已成为一种普遍接受的研究工具。这并非没有代价。进行高质量的初步研究通常成本非常高,并且可能需要很多年才能最终分析结果。相比之下,荟萃分析无需太多资源即可在相对较短的时间内完成。然而,荟萃分析通常具有很高的影响力并且经常被引用(Patsopoulos、Analatos 和 Ioannidis 2005)。

这意味着科学期刊通常非常倾向于发表荟萃分析,即使它们的质量或科学价值有限。不幸的是,这自然激励研究人员进行许多荟萃分析,而科学考虑有时变得次要。

Ioannidis (2016)批评每年都会产生大量冗余和误导性的荟萃分析。关于一些“热门”话题,最近有超过 20 项荟萃分析。一些荟萃分析也可能受到企业利益的严重影响,例如在药物治疗研究中(Ebrahim 等人,2016 年Kirsch 等人,2002 年)。正如我们之前提到的,可重复性是优秀科学的标志。然而,实际上,许多荟萃分析的可重复性往往受到限制,因为没有报告重要信息(Lakens et al. 2017)。

一个常见的问题是,对相同或重叠主题的不同荟萃分析会得出不同的结论。例如,在心理治疗研究中,关于所有类型的心理治疗是否产生相同结果的问题一直存在争论。已经发表了无数评论来支持其中一个结论(Wampold 2013Pim Cuijpers、Reijnders 和 Huibers 2019)。

虽然其中一些问题可能与科学过程的系统性问题有关,但其他问题可以追溯到荟萃分析本身的缺陷。因此,我们希望引导您快速浏览常见的荟萃分析陷阱(Borenstein et al. 2011,第 40 章Greco et al. 2013Sharpe 1997)。

1.3.1 “苹果和橘子”问题


有人可能会说,荟萃分析意味着将苹果与橙子结合起来。即使采用最严格的纳入标准,荟萃分析中的研究也永远不会完全相同。纳入的样本、干预的实施方式、研究设计或研究中使用的测量类型之间总会存在较小或较大的差异。

这可能会有问题。荟萃分析是指计算代表所有研究结果的数值估计。这样的估计总是可以从统计的角度计算出来,但是当研究不具有回答特定研究问题的重要属性时,它就变得毫无意义。

想象一下这样一个场景,诚然是荒谬的,一位荟萃分析师决定将关于工作满意度对工作绩效影响的两项研究,以及关于药物对糖尿病患者 HbA1c 值影响的所有可用证据集中在一个荟萃分析中。分析。结果对于组织心理学家和糖尿病学家来说毫无意义。

现在,想象一下,同一个可怜的荟萃分析师试图从以前的错误中吸取教训,过度补偿并进行荟萃分析,其中仅包含 1990 年至 1999 年间发表的研究,其中使用 40 毫克氟西汀治疗患有中度抑郁症状的 60 多岁加拿大男性每天,整整六周。元分析师可能会自豪地向精神科医生报告研究的积极结果。然而,精神科医生可能只会问:“如果我的病人是45岁的法国人,我该怎么办”?

这给我们带来了一个重要的观点。荟萃分析的目标不是不经意地将所有可以组合的东西放在一起。荟萃分析可用于回答超出个别研究特殊性的相关研究问题(Borenstein 等人,2011 年,第 40 章)。因此,荟萃分析的范围和特异性应基于其想要回答的研究问题,并且该问题应具有实际相关性(见第1.4章)。

例如,如果我们感兴趣,如果某种类型的培训计划在不同年龄组、文化区域和环境中都有效,那么对研究的人口和原籍国不施加限制是完全合理的。然而,建议对研究中评估的培训计划进行更多限制,并且仅包括培训具有一定长度或涵盖类似主题的培训计划。

这种荟萃分析的结果不仅使我们能够估计训练的综合效果,而且还使我们能够量化这种效果是否会发生变化以及变化程度如何。荟萃分析能够适应并理解这种形式的异质性。在第5章中,我们将仔细研究这个重要概念。

综上所述,“苹果和橘子”问题是否确实是一个问题,很大程度上取决于荟萃分析想要回答的问题。研究之间的差异通常是没有问题的,如果正确地将其纳入荟萃分析的目标和问题说明中,甚至是富有洞察力的。

1.3.2 “垃圾进,垃圾出”问题


荟萃分析产生的证据的质量在很大程度上取决于它总结的研究的质量。如果我们纳入的研究结果中报告的结果存在偏见或完全错误,则荟萃分析的结果也将同样存在缺陷。这就是“垃圾进,垃圾出”问题所指的。通过评估纳入研究的质量或偏倚风险(见第 1.4章和第 15章)可以在一定程度上减轻这种影响。

然而,如果许多或大部分结果质量欠佳并且可能存在偏差,即使是最严格的荟萃分析也无法平衡这一点。在这种情况下通常可以得出的唯一结论是,所审查的主题不存在可靠的证据,并且未来必须进行更多高质量的研究。然而,即使是这样一个相当令人失望的结果也可以提供信息,并有助于指导未来的研究。

1.3.3 “文件抽屉”问题


文件抽屉问题是指并非所有相关研究成果都已发表,因此在我们的荟萃分析中缺失的问题。无法将所有证据整合到荟萃分析中是不可取的,但如果我们可以安全地假设研究结果在已发表的文献中随机缺失,那么至少是可以容忍的。

不幸的是,他们不是。积极的、“创新”的发现往往比失败的重复或负面和不确定结果的研究引起更多关注。与此相一致的是,研究表明,在过去几十年中,许多学科发表的负面研究结果越来越少,特别是在社会科学和生物医学领域(Fanelli 2012)。

有充分的理由相信,具有负面或“令人失望”结果的研究在已发表的文献中系统性地不足,并且存在所谓的发表偏见。这种偏见的确切性质和程度最多只能是荟萃分析中的“已知未知”。

然而,有一些方法可以最大限度地减少发表偏见。其中之一与研究的检索和选择方式有关(参见第1.4章)。其他方法是统计方法,试图估计荟萃分析中是否存在发表偏差及其影响有多大。我们将在第9章中介绍其中一些方法。

1.3.4 “研究者议程”问题


在定义荟萃分析的范围、搜索和选择研究以及最终汇总结果指标时,研究人员必须做出多种选择。荟萃分析具有许多“研究人员的自由度” (Wicherts et al. 2016),为有时可能是任意的、有时是未公开的个人偏好的结果留下了很大的决策空间。

当研究人员有意识或无意识地受自己的议程驱动时,元分析师的操作方式自由就变得尤其成问题。荟萃分析通常由应用研究人员进行,对所审查的主题拥有广泛的特定学科专业知识是一把双刃剑。一方面,它可以帮助导出和回答特定领域有意义的研究问题。

另一方面,这些专家也对他们正在研究的研究领域进行了深入的投入。这意味着许多元分析师可能对某些主题持有强烈的观点,并且可能有意或无意地影响结果,使其朝着符合他们信念的方向发展。

有证据表明,给定一个相同的数据集,即使是有最好意图的经验丰富的分析师也可能得出截然不同的结论(Silberzahn 等人,2018 年)。在干预研究中,这个问题可能更为严重,一些荟萃分析师拥有大量研究人员的忠诚,因为他们帮助开发了正在研究的干预类型。当然,这些研究人员可能更倾向于比证据表明的更积极地解释荟萃分析的结果。

减少研究人员议程问题的一种方法是预先注册,并在开始元分析数据收集之前发布详细的分析计划(参见第 1.4 章和16.3.5 章)。

1.4问题描述、研究搜索和编码


在上一章中,我们花了一些时间讨论荟萃分析的常见问题和局限性。其中许多问题,例如“苹果和橘子”问题、“文件抽屉”问题或“研究人员议程”问题,可以而且应该由每个元分析师解决。

这早在您开始计算第一个结果之前就开始了。没有数据就无法进行荟萃分析,而这些数据必须来自某个地方。我们首先必须指定我们计划的荟萃分析的研究问题资格标准,搜索研究并选择相关研究,提取我们计算所需的数据,然后编码我们稍后要报告的重要信息。

在每个步骤中,我们可以或应该遵循一些规则、标准和建议;它们可以帮助我们创建高质量的荟萃分析。这种高质量的荟萃分析包含对所有合适证据的全面选择,对其主题不带偏见和公正,并且从结果中得出有效、合理且实际相关的结论。

然而,即使“遵循所有规则”,在实践中也可能并不总是清楚哪种具体决策最能实现这一目标。人们可能会不同意你处理某些事情的方式。这是正常的,通常也没什么问题,只要你的方法决策既透明又可重复 (Pigott 和 Polanin 2020)。

在本章中,我们将按时间顺序介绍在开始第一次计算之前所需的一些重要构建块。本章的长度并不代表数据采集过程实际花费的时间。根据我们的经验,统计分析最多只占荟萃分析时间的 15%,与之前的所有分析相比要少得多。但明确研究问题、系统地搜索研究并对提取的数据进行可靠编码至关重要。它为每一个好的荟萃分析奠定了基础。

1.4.1定义研究问题


在设计研究时,我们要做的第一件事就是定义研究问题。荟萃分析也不例外。为了定义一个好的研究问题,首先将其视为问题规范的一种形式会有所帮助。为了具有针对性和影响力,荟萃分析应该解决问题。为了识别此类问题,需要一些特定学科的知识。

如果您想找到一个好的研究问题来进行荟萃分析,那么选择一个您有一定背景知识的研究领域并首先问自己一些基本问题可能会有所帮助。当前与该特定领域相关的问题是什么?当前关于某些主题的知识是否存在差距?是否有任何尚未解决的公开讨论?考虑目标受众也可能有所帮助。哪些问题与其他研究人员相关?其他人(例如医疗保健专业人员、国家机构、学校或人力资源部门)可能面临哪些问题?

荟萃分析取决于先前的研究。一旦您了解了研究问题的总体方向,查看当前的文献就会有所帮助。之前是否有关于这个主题的初步研究?他们是如何解决这个问题的?他们使用了什么方法和结果衡量标准?他们在文章的背景和讨论部分提到了哪些限制?之前的评论和荟萃分析是否讨论过该主题?还有哪些问题尚未解决?

Cummings 及其同事(2013)提出了一些标准,我们可以使用这些标准来指定我们的元分析(FINER 框架)要涵盖的问题。它指出研究问题应该是可行的、有趣的、新颖的、道德的和相关的。

逐步问自己这些问题应该可以更轻松地定义您想要通过荟萃分析实现的目标。荟萃分析适合您的问题也可能变得显而易见。例如,可能根本没有涉及该主题的相关研究;或者文献中可能已经存在最近的高质量荟萃分析,足以解决该问题。

但是,如果您感觉您的问题与一组或多组人相关,之前的研究提供了与该问题相关的数据,并且之前的评论和荟萃分析没有充分或充分地解决该问题,那么您可以继续把它变成一个研究问题

让我们举一个例子来说明如何做到这一点。有证据表明医学研究中存在性别偏见(Hamberg 2008Nielsen et al. 2017)。特别是在过去的几十年里,许多临床试验仅或主要使用男性参与者,并且简单地假设结果也适用于女性。这可能导致女性某些疾病的健康状况恶化,例如心脏病(Kim 和 Menon 2009Mosca 等人 20133

让我们假设您是一名医学研究员。您听说过这样的传言:一种常用药物乔维平(Chauvicepine)可能会对女性产生严重的副作用,但这种副作用在很大程度上尚未得到认识。您确定,如果这是真的,这将是一个高度相关的问题,因为这意味着许多女性服用的药物可能对她们不安全。

对文献的研究表明,大多数研究肖维平的研究都是随机安慰剂对照试验。第一项试验是在仅或主要由男性组成的人群中进行的。但您还发现了一些最近的试验,其中性别构成更加平衡。其中许多试验甚至分别报告了试验中男性和女性出现的负面副作用的数量。您还可以在医学杂志上找到最近的评论,其中一位医生报告说,在她的诊所中,许多女性在接受药物治疗时出现了负面副作用。

基于此,您认为在荟萃分析中解决这个问题可能会很有趣。因此,您将刚刚发现的问题转化为一个研究问题:“随机安慰剂对照试验的证据是否表明,与安慰剂相比,肖维平会导致女性负面副作用显着增加”?

得出研究问题的第一个表述只是第一步。我们现在必须将其转化为具体的资格标准。这些资格标准将指导我们决定哪些研究将被纳入或不被纳入我们的荟萃分析中。因此,它们极其重要,并且应该绝对透明且可重复。

开始指定资格标准的一个好方法是使用 PICO 框架(Mattos 和 Ruellas 2015)。该框架主要针对干预研究,但对于其他类型的研究问题也有帮助。 PICO中的字母分别代表人口(Population)、干预(Intervention )、对照组或比较(Control group or Comparison)以及结果(Outcome):

  • 人群:研究必须包括什么样的人或研究对象才符合资格?再次请记住,尽可能准确地解决这些问题并考虑每个定义的含义非常重要。如果你只想纳入年轻人的研究,那么“年轻人”是什么意思?只包括18岁到30岁之间的人吗?从发表的文章中可以轻松确定这一点吗?或者,从年轻人通常经常光顾的地方(例如大学和Cardi B音乐会)招募人员是否很重要?如果您只想纳入针对患有特定疾病的患者的研究,那么该疾病是如何诊断的?由经过培训的医疗保健专业人员进行,还是自我报告问卷就足够了?其中许多问题可以通过 FINER 框架的 F 和 R 部分来回答。对已发表的研究施加这样的限制是否可行?这是一个相关的差异化吗?

  • 干预:研究必须检查什么样的干预(或者暴露)?如果您想研究干预措施的效果,重要的是要非常清楚适合的治疗类型。干预措施必须持续多长时间或多短?谁可以交付它们?干预必须包括哪些内容?如果不关注干预措施,自变量必须如何操作?必须用特定的仪器来测量吗?例如,如果您研究工作满意度,那么必须如何在研究中实施这一结构?

  • 对照组比较:研究结果与什么进行比较?对照组接受注意力安慰剂,还是药丸安慰剂?候补名单?另一种治疗方法?或者什么都没有?也有可能根本没有比较组或对照组;例如,如果您想研究不同研究中某种疾病的患病率估计值,或者不同栖息地有多少个物种的标本。

  • 结果。研究必须测量什么样的结果或因变量?以及如何测量该变量?是问卷分数的平均值和标准差吗?或者死亡或患病的患者人数?何时必须衡量结果?治疗后就可以了,不管治疗多长时间?还是一到两年后?

系统评价和荟萃分析指南

鉴于荟萃分析的质量通常不理想,已经制定了一些关于如何进行荟萃分析的指南和标准。

如果您对生物医学研究中的证据或干预效果进行荟萃分析,我们强烈建议您遵循系统评价和荟萃分析的首选报告项目或 PRISMA (Moher 等人,2009 年)。 PRISMA 声明包含有关如何报告荟萃分析过程的几乎所有方面的几项建议。该声明也可以在网上找到。4

对于心理和行为研究的荟萃分析,可以遵循美国心理学会荟萃分析报告标准 (Appelbaum et al. 2018)或 MARS。

尽管这些标准主要评论了如何报告荟萃分析但它们也对进行荟萃分析时的最佳实践产生了影响。 PRISMA 和 MARS 共享许多核心元素,我们在本章中介绍的许多内容也在这两个指南中提到。

更详细的资源是《Cochrane 干预系统评价手册》(参见第1.2章),其中几乎包含系统评价和荟萃分析各个方面的精确建议。社会科学荟萃分析方法论标准的概述可以在 Pigott 和 Polanin ( 2020 )中找到。

虽然 PICO 框架是指定荟萃分析资格标准的绝佳方式,但它并未涵盖所有可能相关的信息。还有一些其他方面需要考虑(Lipsey 和 Wilson 2001)。

一个相关细节是合格的研究设计。在循证医学中,通常只包含来自随机对照试验的证据(即参与者被偶然分配到治疗组或对照组的研究);但这并不总是必需的(Borenstein et al. 2011, chap. 40)。

指定合格研究的文化语言范围也可能有所帮助。大多数研究都是基于“怪异”人群,即西方、受过教育、工业化、富裕和民主的社会(Henrich、Heine 和 Norenzayan 2010)。特别是在社会科学领域,某些影响或现象很可能不能很好地推广到具有其他社会规范的国家。然而,许多研究人员只考虑英文出版物进行荟萃分析,以避免翻译其他语言的文章。

这意味着来自不同语言区域的一些证据将不会被考虑。尽管英语是大多数学科中科学出版最常用的语言,但至少应该在资格标准中明确这一限制的存在。然而,如果荟萃分析的目标之一是检查跨文化差异,那么通常建议将资格标准扩展到其他语言,前提是满足所有其他标准。

另一个重要方面是允许进行荟萃分析的出版物类型。有时,元分析师只包含在同行评审的科学期刊上发表的研究文章。争论的焦点是,从该来源获得的研究满足了更高的标准,因为它们已经通过了该领域专家的批判性眼光。这个理由并非没有缺陷。在第1.3章中,我们已经讨论过“文件抽屉”问题会严重限制荟萃分析结果的有效性,因为积极的发现更有可能被发表。

因此,降低发表偏倚风险的一种方法是纳入灰色文献。灰色文献可以定义为尚未通过传统出版格式提供的所有类型的研究材料。这包括研究报告、预印本、工作论文或会议文稿。论文通常也被视为灰色文献,尽管其中许多已在当今的电子书目数据库中建立索引(Schöpfel 和 Rasuli 2018)。

至少在荟萃分析中也包括论文可能是明智的。与其他类型的未发表材料相比,论文中提供的信息不太可能存在严重偏见或彻头彻尾的欺诈。此外,您仍然可以定义其他资格标准,以确保仅包含满足某些方法学要求的研究,无论它们是否发表在科学期刊上。

定义您的资格标准的最后一步是将它们写下来作为您将应用的包含排除标准的列表。以下是对大学生失眠干预措施的荟萃分析的示例,表明这是可以做到的(Saruhanjan et al. 2020):

“我们纳入了:(a) RCT [随机对照试验;作者注]其中(b)在随机分组时就读于高等教育机构(大学、学院或类似的高等教育机构)的个人,(c)接受了以睡眠为中心的心理干预,(d)进行了比较被动控制条件,定义为在研究​​过程中不诱导主动操作的控制条件(等待名单,照常治疗)。

就本分析而言,“以睡眠为中心”是指 (e) 对睡眠障碍症状的影响(睡眠障碍的总体测量、入睡潜伏期 [...]、疲劳和日间功能、睡前行为和体验)使用 (g) 标准化症状测量(客观睡眠测量、标准化睡眠或疲劳问卷、睡眠日记、记录睡眠数量、质量或卫生的物品)。

只有以英语或德语发表的研究 (h) 才会被考虑纳入。”

1.4.2分析计划和预注册


确定研究问题和资格标准后,明智的做法是编写一份分析计划 (Pigott 和 Polanin 2020Tipton、Pustejovsky 和 ​​Ahmadi 2019)。在统计学中,先验分析事后分析之间存在重要区别。在查看数据之前指定先验分析。事后或探索性分析是在看到数据后或基于数据所暗示的结果进行的。

先验分析的结果可以被认为比事后分析更有效、更值得信赖。事后分析可以更轻松地调整有关分析或数据本身的某些细节,直到结果支持研究人员的目标。因此,他们更容易出现我们在第1.3章中讨论的“研究员议程”问题。

在分析计划中,我们预先指定了要在元分析中执行的所有重要计算。这有两个目的。首先,它允许其他人验证我们所做的分析确实是有计划的,而不仅仅是我们在得到想要的结果之前摆弄数据的结果。其次,详细的分析计划还使我们的荟萃分析具有可重复性,这意味着其他人可以理解我们在荟萃分析的每个步骤中所做的事情,并尝试复制它们。

使用R时,我们可以通过编写允许其他人重新运行我们分析的每一步的文档,将分析的可重复性提升到一个全新的水平(请参阅第16章的“有用工具”部分)。但这在我们完成分析后才有意义。在分析计划中,我们指定在收集任何数据之前计划做什么。

我们应该在分析计划中始终指定一些事情。我们应该明确我们将提取哪些信息,以及将为每项纳入的研究计算哪些效应量指标(参见第3章)。还建议根据我们预期的研究之间的变异量,预先决定是否使用固定效应模型或随机效应模型来汇总每项研究的结果(请参阅第4章)。先验功效分析也可能有助于确定我们的荟萃分析需要多少研究才能找到统计上显着的效果(请参阅第14章“有用的工具”部分)。

此外,确定我们是否想要使用亚组分析(第7章)或元回归(第8章)评估某些变量是否可以解释纳入研究的结果差异至关重要。例如,如果我们的假设表明出版年份可能与研究结果相关,并且如果我们想稍后在荟萃分析中查看这种关联,我们会在分析计划中提及这一点。如果我们计划将研究分类为子组,然后分别查看这些子组,我们还应该报告确定研究属于特定子组的确切标准(参见第1.4.4章)。

在本书的第二部分(“ R中的元分析”)中,我们将介绍作为元分析的一部分应用的各种统计技术。我们在那里学到的并计划在荟萃分析中应用的每一项技术都应该在分析计划中提及。

一旦你写完你的分析计划,不要简单地把它埋在某个地方——把它公开。研究人员有一些很好的选择来公开他们的研究文件。例如,我们可以在开放科学框架(OSF;请参阅第16.3章的“有用工具”部分)的网站上创建一个新项目,并在那里上传我们的分析计划。我们还可以将我们的分析计划上传到预印本服务器,例如medrxiv.orgbiorxiv.orgpsyarxiv.com,具体取决于我们研究问题的性质。

一旦我们的研究问题、资格标准、分析计划和搜索策略(见下一章)确定,我们还应该注册我们的荟萃分析。如果荟萃分析具有广泛的健康相关结果,最好使用PROSPERO来完成,PROSPERO 是最大的前瞻性系统评价和荟萃分析注册中心之一。OSF的预注册服务也是一个不错的选择。

如果我们想更进一步,我们还可以为荟萃分析编写完整的协议Quintana 2015)。荟萃分析方案包含分析计划、对我们研究的科学背景的描述、更多方法细节以及对研究潜在影响的讨论。

还有关于如何编写此类协议的指南,例如 PRISMA-P 声明(Moher 等人,2015)。荟萃分析协议被许多同行评审期刊所接受。 Büscher、Torok 和 Sander (2019)或 Valstad 及其同事(2016)就是一个很好的例子。

先验分析计划和预先注册是精心制作、值得信赖的荟萃分析的基本特征。它们不应该让你感到焦虑。立即为每一个方法决策做出完美的选择是很困难的,甚至是不可能的。在未来的某个时刻改变最初的计划是完全正常的。我们可以向您保证,如果您诚实并清楚地表达对计划方法的改变,大多数研究人员不会认为这是失败的标志,而是专业精神和可信度的标志。

相关推荐

  1. RPKI Technical Analysis (Part1)

    2024-03-26 00:06:05       41 阅读
  2. Blocking_Analyzer_1.7_For_MySQL_8.0.exe

    2024-03-26 00:06:05       33 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-26 00:06:05       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-26 00:06:05       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-26 00:06:05       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-26 00:06:05       20 阅读

热门阅读

  1. ARM-IIC实验

    2024-03-26 00:06:05       20 阅读
  2. vuetify3 弹窗中使用 element-plus 时间控件异常解决

    2024-03-26 00:06:05       23 阅读
  3. leetcode 322.零钱兑换

    2024-03-26 00:06:05       20 阅读
  4. Docker常用命令

    2024-03-26 00:06:05       24 阅读
  5. 2299. 强密码检验器 II

    2024-03-26 00:06:05       22 阅读
  6. 数据建模与PASS层

    2024-03-26 00:06:05       22 阅读
  7. [python] 卡诺图化简 2

    2024-03-26 00:06:05       23 阅读
  8. == 和 equals 的区别是什么?

    2024-03-26 00:06:05       24 阅读
  9. LeetCode热题Hot100-无重复字符的最长子串

    2024-03-26 00:06:05       24 阅读
  10. vue3之RouterView插槽和过渡动效

    2024-03-26 00:06:05       19 阅读
  11. 【TypeScript系列】三斜线指令

    2024-03-26 00:06:05       16 阅读
  12. HashMap的底层结构

    2024-03-26 00:06:05       22 阅读