荟萃分析R Meta-Analyses 1

参考：Harrer, M.、Cuijpers, P.、Furukawa, TA 和 Ebert, DD (2021)。 使用 R 进行荟萃分析：实践指南。佛罗里达州博卡拉顿和伦敦：Chapman & Hall/CRC Press。 ISBN 978-0-367-61007-4。

1.1什么是荟萃分析？

它的创始人之一 Gene V. Glass 将荟萃分析描述为“分析的分析” （Glass 1976）。这个简单的定义已经告诉了我们很多信息。在传统研究中，分析单位是一些人、样本、国家或物体。在荟萃分析中，初步研究本身成为我们分析的要素。

荟萃分析的目的是结合、总结和解释与明确定义的研究领域或研究问题相关的所有可用证据（Lipsey 和 Wilson 2001，第 1 章）。然而，这只是做到这一点的一种方法。至少可以通过三种不同的方式来综合多项研究的证据（Pim Cuijpers 2016）。

传统/叙事评论。直到 20 世纪 80 年代，叙述性评论一直是总结研究领域的最常见方式。叙述性评论通常由研究领域的专家和权威撰写。对于如何选择叙述性综述中的研究以及如何定义综述的范围，没有严格的规则。对于如何从审查的证据中得出结论也没有固定的规则。总的来说，这可能会导致有利于作者观点的偏见。尽管如此，以平衡的方式撰写叙述性评论可以帮助读者对某个领域的相关研究问题和证据基础有一个全面的印象。
系统评论。系统审查试图使用明确定义和透明的规则来总结证据。在系统评价中，研究问题是预先确定的，并且有一种明确的、可重复的方法来选择和评价研究。系统评价旨在涵盖所有可用的证据。他们还使用预先定义的标准评估证据的有效性，并以系统的方式呈现结果的综合。
荟萃分析。大多数荟萃分析可以被视为系统评价的高级类型。荟萃分析的范围是预先明确界定的，原始研究也是以系统性和可重复性的方式选择的，并且也有明确的标准来评估证据的有效性。这就是为什么研究被称为“系统评价和荟萃分析”的现象很常见。然而，有一个方面使荟萃分析变得特别。荟萃分析旨在以定量方式结合先前研究的结果。荟萃分析的目标是将所选研究中报告的定量结果整合到一个数值估计中。然后，该估计总结了所有单独的结果。例如，荟萃分析对所有研究中的药物效果、疾病患病率或两种特性之间的相关性进行量化1。因此，它们只能应用于报告定量结果的研究。与系统评价相比，荟萃分析通常必须对所总结的证据类型更具排他性。为了进行荟萃分析，研究通常需要使用相同的设计和测量类型，和/或提供相同的干预措施（参见第1.3章）。

个体参与者数据荟萃分析

根据定义的不同，还有第四种证据合成方法，即所谓的个体参与者数据（IPD）元分析 （Richard D. Riley、Lambert 和 Abo-Zaid 2010；Richard D. Riley、Tierney 和 Stewart） 2021）。传统上，荟萃分析基于已发表文献中的研究汇总结果（例如平均值和标准差或比例）。在IPD荟萃分析中，而是收集所有研究的 原始数据并将其组合成一个大数据集。

IPD 荟萃分析有几个优点。例如，可以在所有研究中以完全相同的方式估算缺失数据并应用统计方法。此外，它们可以更容易地探索影响感兴趣结果的变量。在传统的荟萃分析中，只有所谓的研究级变量（例如，出版年份或研究中使用的人群）可以用来做到这一点。然而，通常是 参与者层面的信息（例如个人的年龄或性别）可能对结果起到重要的调节作用。这些变量只能使用 IPD 荟萃分析来探索。

IPD 荟萃分析是一种相对较新的方法，目前进行的绝大多数荟萃分析仍然是“传统”荟萃分析。这也是我们在本指南中不讨论 IPD 荟萃分析方法的原因之一。

这与传统的荟萃分析是否优越无关——相反是正确的。不幸的是，直到最近，在大多数学科中公开所有研究数据还非常罕见。虽然从已发表的研究报告中提取总结结果相对容易，但从所有相关研究中获取原始数据却更具挑战性。例如，在生物医学研究中，人们发现同时考虑个体参与者和汇总数据的研究只能从大约 64% 的合格研究中获得 IPD （Richard D. Riley、Simmonds 和 Look 2007）。最近的一项综述发现，虽然 IPD 荟萃分析中包含的研究中位数为 11 项，但个体参与者数据只能从中位数为 7 项的研究中获得（Wang 等人，2021 年）。

1.2 “超级愚蠢的练习”：历史轶事

荟萃分析并不是由一个人发明的，而是由许多创始人发明的（O'Rourke 2007）。对独立但相似的研究的影响进行统计总结的首次尝试可以追溯到大约 100 年前，并且可以与有史以来最重要的两位统计学家卡尔·皮尔逊 (Karl Pearson) 和罗纳德·A·费舍尔 (Ronald A. Fisher) 联系起来。

皮尔逊 (Pearson) 在20世纪初结合了大英帝国各地伤寒疫苗接种影响的研究结果，计算出汇总估计值( Shannon 2016 )。 Fisher 在其 1935 年关于实验设计的开创性著作中介绍了分析农业研究中多项研究数据的方法，并且已经承认研究结果可能因地点和时间而异的问题（RA Fisher 1935；O'Rourke 2007）。

然而，“元分析”这个名字及其崛起的开始可以追溯到20世纪中叶激烈的学术争论。 1952年，英国著名心理学家汉斯·尤尔根·艾森克（Hans Jürgen Eysenck）（图1.2）发表文章，声称心理治疗（当时主要指的是弗洛伊德精神分析）无效。如果患者在治疗期间病情好转，那是因为与治疗无关的因素导致他们的情况无论如何都会有所改善。艾森克声称，更糟糕的是，心理治疗常常会阻碍患者康复。

心理治疗的声誉受到重创，直到 20 世纪 70 年代末才恢复。在此期间，Gene V. Glass 开发了一种他称之为“荟萃分析”的技术，该技术可以汇集跨研究的标准化均值差异2。他的技术的第一次广泛应用是在《美国心理学家》上发表的一篇文章，由玛丽·史密斯和格拉斯本人撰写（史密斯和格拉斯 1977）。在这项大型研究中，对 4000 多名参与者的 375 项研究的结果进行了荟萃分析。

研究发现，心理治疗的综合效应为0.68，可以说是相当大了。格拉斯的工作产生了巨大的影响，因为它提供了艾森克的判决是错误的定量证据。然而，艾森克本人并不相信，他称元分析是“对学术的放弃”和“一种极其愚蠢的行为” （Eysenck 1978）。

汉斯·尤尔根·艾森克（Sirswindon/CC BY-SA 3.0）。

图 1.2：汉斯·尤尔根·艾森克 ( Sirswindon/CC BY-SA 3.0 )。

今天我们知道，史密斯和格拉斯的研究可能高估了心理治疗的效果，因为它没有控制纳入研究中的偏差（P. Cuijpers、Karyotaki 等人，2019 年）。然而，一些心理疗法有效的初步发现已在接下来的几十年中得到无数其他荟萃分析的证实。艾森克的严峻反应并不能改变荟萃分析很快成为各个研究领域的常用方法。这次被非常恰当地描述为“元分析大爆炸” （Shadish 和 Lecy 2015）。

大约在 Glass 开发他的荟萃分析方法的同时，Hunter 和 Schmidt 开始制定他们自己类型的荟萃分析技术，重点是测量伪影的校正（Schmidt 和 Hunter 1977；Hunter 和 Schmidt 2004）。荟萃分析还通过彼得·埃尔伍德（Peter Elwood）和阿奇·科克伦（Archie Cochrane）等人的开创性工作进入医学领域，他们利用荟萃分析表明阿司匹林对心脏病复发具有微小但在统计和临床上相关的预防作用。Peto 和 Parish 1980；Elwood 2006；O'Rourke 2007）。

在 80 年代中期，Rebecca DerSimonian 和 Nan Laird 引入了一种计算随机效应荟萃分析的方法（参见第4.1.2章），该方法一直沿用至今（DerSimonian 和 Laird 1986）。在过去的四十年中，无数其他创新帮助提高了荟萃分析方法的适用性、稳健性和多功能性。

科克伦和坎贝尔合作

Cochrane 协作组织（或简称Cochrane）成立于 1993 年，以 Archie Cochrane 命名，在应用荟萃分析的发展中发挥了至关重要的作用。 Cochrane 是一个由研究人员、专业人士、患者和其他相关利益相关者组成的国际网络，他们“共同努力提供可靠、易于获取的健康信息，且不受商业赞助和其他利益冲突的影响”。

Cochrane 使用严格的标准来综合生物医学领域的证据。该机构总部位于伦敦，但在世界多个国家也设有当地分支机构。

Cochrane 协作组织发布定期更新的干预系统评价手册（Julian Higgins 等，2019）和Cochrane 偏差风险工具（Sterne 等，2019）。两者都被广泛认为是系统评价和荟萃分析所有技术细节的标准参考书（见第1.4章）。

与 Cochrane 类似的组织是位于奥斯陆的Campbell Collaboration，该组织主要专注于社会科学研究。

1.3苹果和橙子：荟萃分析陷阱快速浏览

在过去的几十年里，荟萃分析已成为一种普遍接受的研究工具。这并非没有代价。进行高质量的初步研究通常成本非常高，并且可能需要很多年才能最终分析结果。相比之下，荟萃分析无需太多资源即可在相对较短的时间内完成。然而，荟萃分析通常具有很高的影响力并且经常被引用（Patsopoulos、Analatos 和 Ioannidis 2005）。

这意味着科学期刊通常非常倾向于发表荟萃分析，即使它们的质量或科学价值有限。不幸的是，这自然激励研究人员进行许多荟萃分析，而科学考虑有时变得次要。

Ioannidis （2016）批评每年都会产生大量冗余和误导性的荟萃分析。关于一些“热门”话题，最近有超过 20 项荟萃分析。一些荟萃分析也可能受到企业利益的严重影响，例如在药物治疗研究中（Ebrahim 等人，2016 年；Kirsch 等人，2002 年）。正如我们之前提到的，可重复性是优秀科学的标志。然而，实际上，许多荟萃分析的可重复性往往受到限制，因为没有报告重要信息（Lakens et al. 2017）。

一个常见的问题是，对相同或重叠主题的不同荟萃分析会得出不同的结论。例如，在心理治疗研究中，关于所有类型的心理治疗是否产生相同结果的问题一直存在争论。已经发表了无数评论来支持其中一个结论（Wampold 2013；Pim Cuijpers、Reijnders 和 Huibers 2019）。

虽然其中一些问题可能与科学过程的系统性问题有关，但其他问题可以追溯到荟萃分析本身的缺陷。因此，我们希望引导您快速浏览常见的荟萃分析陷阱（Borenstein et al. 2011，第 40 章；Greco et al. 2013；Sharpe 1997）。

1.3.1 “苹果和橘子”问题

有人可能会说，荟萃分析意味着将苹果与橙子结合起来。即使采用最严格的纳入标准，荟萃分析中的研究也永远不会完全相同。纳入的样本、干预的实施方式、研究设计或研究中使用的测量类型之间总会存在较小或较大的差异。

这可能会有问题。荟萃分析是指计算代表所有研究结果的数值估计。这样的估计总是可以从统计的角度计算出来，但是当研究不具有回答特定研究问题的重要属性时，它就变得毫无意义。

想象一下这样一个场景，诚然是荒谬的，一位荟萃分析师决定将关于工作满意度对工作绩效影响的两项研究，以及关于药物对糖尿病患者 HbA1c 值影响的所有可用证据集中在一个荟萃分析中。分析。结果对于组织心理学家和糖尿病学家来说毫无意义。

现在，想象一下，同一个可怜的荟萃分析师试图从以前的错误中吸取教训，过度补偿并进行荟萃分析，其中仅包含 1990 年至 1999 年间发表的研究，其中使用 40 毫克氟西汀治疗患有中度抑郁症状的 60 多岁加拿大男性每天，整整六周。元分析师可能会自豪地向精神科医生报告研究的积极结果。然而，精神科医生可能只会问：“如果我的病人是45岁的法国人，我该怎么办”？

这给我们带来了一个重要的观点。荟萃分析的目标不是不经意地将所有可以组合的东西放在一起。荟萃分析可用于回答超出个别研究特殊性的相关研究问题（Borenstein 等人，2011 年，第 40 章）。因此，荟萃分析的范围和特异性应基于其想要回答的研究问题，并且该问题应具有实际相关性（见第1.4章）。

例如，如果我们感兴趣，如果某种类型的培训计划在不同年龄组、文化区域和环境中都有效，那么对研究的人口和原籍国不施加限制是完全合理的。然而，建议对研究中评估的培训计划进行更多限制，并且仅包括培训具有一定长度或涵盖类似主题的培训计划。

这种荟萃分析的结果不仅使我们能够估计训练的综合效果，而且还使我们能够量化这种效果是否会发生变化以及变化程度如何。荟萃分析能够适应并理解这种形式的异质性。在第5章中，我们将仔细研究这个重要概念。

综上所述，“苹果和橘子”问题是否确实是一个问题，很大程度上取决于荟萃分析想要回答的问题。研究之间的差异通常是没有问题的，如果正确地将其纳入荟萃分析的目标和问题说明中，甚至是富有洞察力的。

1.3.2 “垃圾进，垃圾出”问题

荟萃分析产生的证据的质量在很大程度上取决于它总结的研究的质量。如果我们纳入的研究结果中报告的结果存在偏见或完全错误，则荟萃分析的结果也将同样存在缺陷。这就是“垃圾进，垃圾出”问题所指的。通过评估纳入研究的质量或偏倚风险（见第 1.4章和第 15章）可以在一定程度上减轻这种影响。

然而，如果许多或大部分结果质量欠佳并且可能存在偏差，即使是最严格的荟萃分析也无法平衡这一点。在这种情况下通常可以得出的唯一结论是，所审查的主题不存在可靠的证据，并且未来必须进行更多高质量的研究。然而，即使是这样一个相当令人失望的结果也可以提供信息，并有助于指导未来的研究。

1.3.3 “文件抽屉”问题

文件抽屉问题是指并非所有相关研究成果都已发表，因此在我们的荟萃分析中缺失的问题。无法将所有证据整合到荟萃分析中是不可取的，但如果我们可以安全地假设研究结果在已发表的文献中随机缺失，那么至少是可以容忍的。

不幸的是，他们不是。积极的、“创新”的发现往往比失败的重复或负面和不确定结果的研究引起更多关注。与此相一致的是，研究表明，在过去几十年中，许多学科发表的负面研究结果越来越少，特别是在社会科学和生物医学领域（Fanelli 2012）。

有充分的理由相信，具有负面或“令人失望”结果的研究在已发表的文献中系统性地不足，并且存在所谓的发表偏见。这种偏见的确切性质和程度最多只能是荟萃分析中的“已知未知”。

然而，有一些方法可以最大限度地减少发表偏见。其中之一与研究的检索和选择方式有关（参见第1.4章）。其他方法是统计方法，试图估计荟萃分析中是否存在发表偏差及其影响有多大。我们将在第9章中介绍其中一些方法。

1.3.4 “研究者议程”问题

在定义荟萃分析的范围、搜索和选择研究以及最终汇总结果指标时，研究人员必须做出多种选择。荟萃分析具有许多“研究人员的自由度” （Wicherts et al. 2016），为有时可能是任意的、有时是未公开的个人偏好的结果留下了很大的决策空间。

当研究人员有意识或无意识地受自己的议程驱动时，元分析师的操作方式自由就变得尤其成问题。荟萃分析通常由应用研究人员进行，对所审查的主题拥有广泛的特定学科专业知识是一把双刃剑。一方面，它可以帮助导出和回答特定领域有意义的研究问题。

另一方面，这些专家也对他们正在研究的研究领域进行了深入的投入。这意味着许多元分析师可能对某些主题持有强烈的观点，并且可能有意或无意地影响结果，使其朝着符合他们信念的方向发展。

有证据表明，给定一个相同的数据集，即使是有最好意图的经验丰富的分析师也可能得出截然不同的结论（Silberzahn 等人，2018 年）。在干预研究中，这个问题可能更为严重，一些荟萃分析师拥有大量研究人员的忠诚，因为他们帮助开发了正在研究的干预类型。当然，这些研究人员可能更倾向于比证据表明的更积极地解释荟萃分析的结果。

减少研究人员议程问题的一种方法是预先注册，并在开始元分析数据收集之前发布详细的分析计划（参见第 1.4 章和第16.3.5 章）。

1.4问题描述、研究搜索和编码

在上一章中，我们花了一些时间讨论荟萃分析的常见问题和局限性。其中许多问题，例如“苹果和橘子”问题、“文件抽屉”问题或“研究人员议程”问题，可以而且应该由每个元分析师解决。

这早在您开始计算第一个结果之前就开始了。没有数据就无法进行荟萃分析，而这些数据必须来自某个地方。我们首先必须指定我们计划的荟萃分析的研究问题和资格标准，搜索研究并选择相关研究，提取我们计算所需的数据，然后编码我们稍后要报告的重要信息。

在每个步骤中，我们可以或应该遵循一些规则、标准和建议；它们可以帮助我们创建高质量的荟萃分析。这种高质量的荟萃分析包含对所有合适证据的全面选择，对其主题不带偏见和公正，并且从结果中得出有效、合理且实际相关的结论。

然而，即使“遵循所有规则”，在实践中也可能并不总是清楚哪种具体决策最能实现这一目标。人们可能会不同意你处理某些事情的方式。这是正常的，通常也没什么问题，只要你的方法决策既透明又可重复（Pigott 和 Polanin 2020）。

在本章中，我们将按时间顺序介绍在开始第一次计算之前所需的一些重要构建块。本章的长度并不代表数据采集过程实际花费的时间。根据我们的经验，统计分析最多只占荟萃分析时间的 15%，与之前的所有分析相比要少得多。但明确研究问题、系统地搜索研究并对提取的数据进行可靠编码至关重要。它为每一个好的荟萃分析奠定了基础。

1.4.1定义研究问题

在设计研究时，我们要做的第一件事就是定义研究问题。荟萃分析也不例外。为了定义一个好的研究问题，首先将其视为问题规范的一种形式会有所帮助。为了具有针对性和影响力，荟萃分析应该解决问题。为了识别此类问题，需要一些特定学科的知识。

如果您想找到一个好的研究问题来进行荟萃分析，那么选择一个您有一定背景知识的研究领域并首先问自己一些基本问题可能会有所帮助。当前与该特定领域相关的问题是什么？当前关于某些主题的知识是否存在差距？是否有任何尚未解决的公开讨论？考虑目标受众也可能有所帮助。哪些问题与其他研究人员相关？其他人（例如医疗保健专业人员、国家机构、学校或人力资源部门）可能面临哪些问题？

荟萃分析取决于先前的研究。一旦您了解了研究问题的总体方向，查看当前的文献就会有所帮助。之前是否有关于这个主题的初步研究？他们是如何解决这个问题的？他们使用了什么方法和结果衡量标准？他们在文章的背景和讨论部分提到了哪些限制？之前的评论和荟萃分析是否讨论过该主题？还有哪些问题尚未解决？

Cummings 及其同事（2013）提出了一些标准，我们可以使用这些标准来指定我们的元分析（FINER 框架）要涵盖的问题。它指出研究问题应该是可行的、有趣的、新颖的、道德的和相关的。

逐步问自己这些问题应该可以更轻松地定义您想要通过荟萃分析实现的目标。荟萃分析不适合您的问题也可能变得显而易见。例如，可能根本没有涉及该主题的相关研究；或者文献中可能已经存在最近的高质量荟萃分析，足以解决该问题。

但是，如果您感觉您的问题与一组或多组人相关，之前的研究提供了与该问题相关的数据，并且之前的评论和荟萃分析没有充分或充分地解决该问题，那么您可以继续把它变成一个研究问题。

让我们举一个例子来说明如何做到这一点。有证据表明医学研究中存在性别偏见（Hamberg 2008；Nielsen et al. 2017）。特别是在过去的几十年里，许多临床试验仅或主要使用男性参与者，并且简单地假设结果也适用于女性。这可能导致女性某些疾病的健康状况恶化，例如心脏病（Kim 和 Menon 2009；Mosca 等人 2013）3。

让我们假设您是一名医学研究员。您听说过这样的传言：一种常用药物乔维平（Chauvicepine）可能会对女性产生严重的副作用，但这种副作用在很大程度上尚未得到认识。您确定，如果这是真的，这将是一个高度相关的问题，因为这意味着许多女性服用的药物可能对她们不安全。

对文献的研究表明，大多数研究肖维平的研究都是随机安慰剂对照试验。第一项试验是在仅或主要由男性组成的人群中进行的。但您还发现了一些最近的试验，其中性别构成更加平衡。其中许多试验甚至分别报告了试验中男性和女性出现的负面副作用的数量。您还可以在医学杂志上找到最近的评论，其中一位医生报告说，在她的诊所中，许多女性在接受药物治疗时出现了负面副作用。

基于此，您认为在荟萃分析中解决这个问题可能会很有趣。因此，您将刚刚发现的问题转化为一个研究问题：“随机安慰剂对照试验的证据是否表明，与安慰剂相比，肖维平会导致女性负面副作用显着增加”？

得出研究问题的第一个表述只是第一步。我们现在必须将其转化为具体的资格标准。这些资格标准将指导我们决定哪些研究将被纳入或不被纳入我们的荟萃分析中。因此，它们极其重要，并且应该绝对透明且可重复。

开始指定资格标准的一个好方法是使用 PICO 框架（Mattos 和 Ruellas 2015）。该框架主要针对干预研究，但对于其他类型的研究问题也有帮助。 PICO中的字母分别代表人口（Population）、干预（Intervention ）、对照组或比较（Control group or Comparison）以及结果（Outcome）：

人群：研究必须包括什么样的人或研究对象才符合资格？再次请记住，尽可能准确地解决这些问题并考虑每个定义的含义非常重要。如果你只想纳入年轻人的研究，那么“年轻人”是什么意思？只包括18岁到30岁之间的人吗？从发表的文章中可以轻松确定这一点吗？或者，从年轻人通常经常光顾的地方（例如大学和Cardi B音乐会）招募人员是否很重要？如果您只想纳入针对患有特定疾病的患者的研究，那么该疾病是如何诊断的？由经过培训的医疗保健专业人员进行，还是自我报告问卷就足够了？其中许多问题可以通过 FINER 框架的 F 和 R 部分来回答。对已发表的研究施加这样的限制是否可行？这是一个相关的差异化吗？
干预：研究必须检查什么样的干预（或者暴露）？如果您想研究干预措施的效果，重要的是要非常清楚适合的治疗类型。干预措施必须持续多长时间或多短？谁可以交付它们？干预必须包括哪些内容？如果不关注干预措施，自变量必须如何操作？必须用特定的仪器来测量吗？例如，如果您研究工作满意度，那么必须如何在研究中实施这一结构？
对照组或比较：研究结果与什么进行比较？对照组接受注意力安慰剂，还是药丸安慰剂？候补名单？另一种治疗方法？或者什么都没有？也有可能根本没有比较组或对照组；例如，如果您想研究不同研究中某种疾病的患病率估计值，或者不同栖息地有多少个物种的标本。
结果。研究必须测量什么样的结果或因变量？以及如何测量该变量？是问卷分数的平均值和标准差吗？或者死亡或患病的患者人数？何时必须衡量结果？治疗后就可以了，不管治疗多长时间？还是一到两年后？

系统评价和荟萃分析指南

鉴于荟萃分析的质量通常不理想，已经制定了一些关于如何进行荟萃分析的指南和标准。

如果您对生物医学研究中的证据或干预效果进行荟萃分析，我们强烈建议您遵循系统评价和荟萃分析的首选报告项目或 PRISMA （Moher 等人，2009 年）。 PRISMA 声明包含有关如何报告荟萃分析过程的几乎所有方面的几项建议。该声明也可以在网上找到。4

对于心理和行为研究的荟萃分析，可以遵循美国心理学会的荟萃分析报告标准 （Appelbaum et al. 2018）或 MARS。

尽管这些标准主要评论了如何报告荟萃分析，但它们也对进行荟萃分析时的最佳实践产生了影响。 PRISMA 和 MARS 共享许多核心元素，我们在本章中介绍的许多内容也在这两个指南中提到。

更详细的资源是《Cochrane 干预系统评价手册》（参见第1.2章），其中几乎包含系统评价和荟萃分析各个方面的精确建议。社会科学荟萃分析方法论标准的概述可以在 Pigott 和 Polanin ( 2020 )中找到。

虽然 PICO 框架是指定荟萃分析资格标准的绝佳方式，但它并未涵盖所有可能相关的信息。还有一些其他方面需要考虑（Lipsey 和 Wilson 2001）。

一个相关细节是合格的研究设计。在循证医学中，通常只包含来自随机对照试验的证据（即参与者被偶然分配到治疗组或对照组的研究）；但这并不总是必需的（Borenstein et al. 2011, chap. 40）。

指定合格研究的文化和语言范围也可能有所帮助。大多数研究都是基于“怪异”人群，即西方、受过教育、工业化、富裕和民主的社会（Henrich、Heine 和 Norenzayan 2010）。特别是在社会科学领域，某些影响或现象很可能不能很好地推广到具有其他社会规范的国家。然而，许多研究人员只考虑英文出版物进行荟萃分析，以避免翻译其他语言的文章。

这意味着来自不同语言区域的一些证据将不会被考虑。尽管英语是大多数学科中科学出版最常用的语言，但至少应该在资格标准中明确这一限制的存在。然而，如果荟萃分析的目标之一是检查跨文化差异，那么通常建议将资格标准扩展到其他语言，前提是满足所有其他标准。

另一个重要方面是允许进行荟萃分析的出版物类型。有时，元分析师只包含在同行评审的科学期刊上发表的研究文章。争论的焦点是，从该来源获得的研究满足了更高的标准，因为它们已经通过了该领域专家的批判性眼光。这个理由并非没有缺陷。在第1.3章中，我们已经讨论过“文件抽屉”问题会严重限制荟萃分析结果的有效性，因为积极的发现更有可能被发表。

因此，降低发表偏倚风险的一种方法是纳入灰色文献。灰色文献可以定义为尚未通过传统出版格式提供的所有类型的研究材料。这包括研究报告、预印本、工作论文或会议文稿。论文通常也被视为灰色文献，尽管其中许多已在当今的电子书目数据库中建立索引（Schöpfel 和 Rasuli 2018）。

至少在荟萃分析中也包括论文可能是明智的。与其他类型的未发表材料相比，论文中提供的信息不太可能存在严重偏见或彻头彻尾的欺诈。此外，您仍然可以定义其他资格标准，以确保仅包含满足某些方法学要求的研究，无论它们是否发表在科学期刊上。

定义您的资格标准的最后一步是将它们写下来作为您将应用的包含和排除标准的列表。以下是对大学生失眠干预措施的荟萃分析的示例，表明这是可以做到的（Saruhanjan et al. 2020）：

“我们纳入了：(a) RCT [随机对照试验；作者注]其中（b）在随机分组时就读于高等教育机构（大学、学院或类似的高等教育机构）的个人，（c）接受了以睡眠为中心的心理干预，（d）进行了比较被动控制条件，定义为在研究过程中不诱导主动操作的控制条件（等待名单，照常治疗）。

就本分析而言，“以睡眠为中心”是指 (e) 对睡眠障碍症状的影响（睡眠障碍的总体测量、入睡潜伏期 [...]、疲劳和日间功能、睡前行为和体验）使用 (g) 标准化症状测量（客观睡眠测量、标准化睡眠或疲劳问卷、睡眠日记、记录睡眠数量、质量或卫生的物品）。

只有以英语或德语发表的研究 (h) 才会被考虑纳入。”

1.4.2分析计划和预注册

确定研究问题和资格标准后，明智的做法是编写一份分析计划 （Pigott 和 Polanin 2020；Tipton、Pustejovsky 和 Ahmadi 2019）。在统计学中，先验分析和事后分析之间存在重要区别。在查看数据之前指定先验分析。事后或探索性分析是在看到数据后或基于数据所暗示的结果进行的。

先验分析的结果可以被认为比事后分析更有效、更值得信赖。事后分析可以更轻松地调整有关分析或数据本身的某些细节，直到结果支持研究人员的目标。因此，他们更容易出现我们在第1.3章中讨论的“研究员议程”问题。

在分析计划中，我们预先指定了要在元分析中执行的所有重要计算。这有两个目的。首先，它允许其他人验证我们所做的分析确实是有计划的，而不仅仅是我们在得到想要的结果之前摆弄数据的结果。其次，详细的分析计划还使我们的荟萃分析具有可重复性，这意味着其他人可以理解我们在荟萃分析的每个步骤中所做的事情，并尝试复制它们。

使用R时，我们可以通过编写允许其他人重新运行我们分析的每一步的文档，将分析的可重复性提升到一个全新的水平（请参阅第16章的“有用工具”部分）。但这在我们完成分析后才有意义。在分析计划中，我们指定在收集任何数据之前计划做什么。

我们应该在分析计划中始终指定一些事情。我们应该明确我们将提取哪些信息，以及将为每项纳入的研究计算哪些效应量指标（参见第3章）。还建议根据我们预期的研究之间的变异量，预先决定是否使用固定效应模型或随机效应模型来汇总每项研究的结果（请参阅第4章）。先验功效分析也可能有助于确定我们的荟萃分析需要多少研究才能找到统计上显着的效果（请参阅第14章“有用的工具”部分）。

此外，确定我们是否想要使用亚组分析（第7章）或元回归（第8章）评估某些变量是否可以解释纳入研究的结果差异至关重要。例如，如果我们的假设表明出版年份可能与研究结果相关，并且如果我们想稍后在荟萃分析中查看这种关联，我们会在分析计划中提及这一点。如果我们计划将研究分类为子组，然后分别查看这些子组，我们还应该报告确定研究属于特定子组的确切标准（参见第1.4.4章）。

在本书的第二部分（“ R中的元分析”）中，我们将介绍作为元分析的一部分应用的各种统计技术。我们在那里学到的并计划在荟萃分析中应用的每一项技术都应该在分析计划中提及。

一旦你写完你的分析计划，不要简单地把它埋在某个地方——把它公开。研究人员有一些很好的选择来公开他们的研究文件。例如，我们可以在开放科学框架（OSF；请参阅第16.3章的“有用工具”部分）的网站上创建一个新项目，并在那里上传我们的分析计划。我们还可以将我们的分析计划上传到预印本服务器，例如medrxiv.org、biorxiv.org或psyarxiv.com，具体取决于我们研究问题的性质。

一旦我们的研究问题、资格标准、分析计划和搜索策略（见下一章）确定，我们还应该注册我们的荟萃分析。如果荟萃分析具有广泛的健康相关结果，最好使用PROSPERO来完成，PROSPERO 是最大的前瞻性系统评价和荟萃分析注册中心之一。OSF的预注册服务也是一个不错的选择。

如果我们想更进一步，我们还可以为荟萃分析编写完整的协议（Quintana 2015）。荟萃分析方案包含分析计划、对我们研究的科学背景的描述、更多方法细节以及对研究潜在影响的讨论。

还有关于如何编写此类协议的指南，例如 PRISMA-P 声明（Moher 等人，2015）。荟萃分析协议被许多同行评审期刊所接受。 Büscher、Torok 和 Sander （2019）或 Valstad 及其同事（2016）就是一个很好的例子。

先验分析计划和预先注册是精心制作、值得信赖的荟萃分析的基本特征。它们不应该让你感到焦虑。立即为每一个方法决策做出完美的选择是很困难的，甚至是不可能的。在未来的某个时刻改变最初的计划是完全正常的。我们可以向您保证，如果您诚实并清楚地表达对计划方法的改变，大多数研究人员不会认为这是失败的标志，而是专业精神和可信度的标志。

1.4.3研究检索

确定您的资格标准和分析计划后，下一步是搜索研究。在第1.1章中，我们讨论了大多数荟萃分析是一种高级类型的系统评价。我们的目标是找到有关研究问题的所有可用证据，以便对事实有公正、全面的看法。这意味着研究的搜索也应该尽可能全面。不仅应该使用一个来源，而且应该使用多个来源来搜索研究。以下是重要和常用来源的概述。

评论文章。筛选以前关于相同或相似主题的评论以获取相关参考非常有帮助。叙述性和系统性评论通常会引用其评论中包含的所有研究。其中许多研究也可能与您的目的相关。
研究中的参考文献。如果您发现一项与您的荟萃分析相关的研究，明智的做法是同时筛选该研究引用的文章。该研究很可能在引言或讨论部分引用了先前关于同一主题的文献，其中一些研究也可能与您的荟萃分析相关。
向前搜索。前瞻性搜索可以被视为筛选先前初步研究和综述的参考文献的相反过程。它是指以一项与荟萃分析相关的研究为基础，然后搜索自该研究发表以来引用过该研究的其他文章。这可以在互联网上很容易地完成。您只需找到该研究的在线条目即可；通常，它位于发表该期刊的期刊的网站上。如今，大多数期刊网站都具有显示引用研究的文章的功能。或者，您也可以在Google Scholar上搜索该研究（见表1.1）。 Google Scholar 可以显示每个条目的引用研究。
相关期刊。通常，有许多科学期刊专门针对您所关注的研究问题类型。因此，专门在这些期刊中搜索研究可能会有所帮助。如今，几乎所有期刊都有一个具有搜索功能的网站，您可以使用该网站来筛选可能符合条件的研究。或者，您还可以使用电子书目数据库，并使用过滤器，以便仅显示一个或多个期刊的结果。

我们上面描述的方法可以看作是相当细粒度的策略。它们是在很可能列出相关文章的地方进行搜索的方法。缺点是这些方法不太可能发现所有真实存在的证据。因此，建议也使用电子书目数据库进行检索。重要数据库的概述见表1.1。

人们应该始终在多个数据库中进行搜索，而不仅仅是一个数据库。许多书目数据库包含大量条目。然而，我们经常发现数据库结果的重叠程度比预期要小。您可以根据特定主题的重点选择要搜索的数据库。例如，如果您的荟萃分析侧重于与健康相关的结果，您至少应该搜索 PubMed 和 CENTRAL。

在搜索书目数据库时，开发搜索字符串非常重要。搜索字符串包含不同的单词或术语，它们使用 AND 或 OR 等运算符连接。开发搜索字符串需要一些时间和试验。一个好的开始方法是使用 PICO 或资格标准（第1.4.1章）作为基础，并使用 AND 将它们连接起来（一个简单的例子是“大学生”AND“心理治疗”AND“随机对照试验”AND“抑郁症”） ”）。

大多数书目数据库还允许截断和通配符。截断意味着用符号替换单词结尾，使其在搜索过程中发生变化。这通常是使用星号来完成的。例如，使用“ sociolog* ”作为搜索词，意味着数据库将同时搜索“sociology”、“sociological”和“sociographer”。

通配符表示单词中的字母可以变化。当单词拼写存在差异时（例如美式英语和英式英语之间的差异），这会派上用场。以搜索词“随机”为例。这只会找到使用美式英语拼写的研究。如果您使用通配符（通常用问号表示），您可以写“ randomized ”，这也会给出使用英式英语拼写的结果（“randomized”）。

在开发搜索字符串时，您还应该查看点击次数。搜索字符串不应该太具体，以免错过一些相关文章。例如，在后面的步骤中可以管理搜索字符串的大约 3000 次点击，并且这使得所有重要参考文献更有可能在结果中列出。要查看您的搜索字符串是否普遍有效，有时搜索您获得的前几百个匹配结果会有所帮助，并检查至少某些参考文献是否与您的研究问题有关。

一旦开发出要在所选数据库中使用的搜索字符串的最终版本，请将它们保存在某个地方。最佳做法是在预注册中包含您的搜索字符串。如果您想发布荟萃分析协议（参见第1.4.1章）或荟萃分析的最终结果，则需要报告搜索字符串（例如在补充中）。

总之，我们想强调，搜索书目数据库本身就是一门艺术，本段仅触及表面。关于这个主题的更详细的讨论可以在 Cuijpers ( 2016 )和 Bramer 及其同事( 2018 )中找到。

Database	Description
Core Database
PubMed	Openly accessible database of the US National Library of Medicine. Primarily contains biomedical research.
PsycInfo	Database of the American Psychological Association. Primarily covers research in the social and behavioral sciences. Allows for a 30-day free trial.
Cochrane Central Register of Controlled Trials (CENTRAL)	Openly accessible database of the Cochrane Collaboration. Primarily covers health-related topics.
Embase	Database of biomedical research maintained by the large scientific publisher Elsevier. Requires a license.
ProQuest International Bibliography of the Social Sciences	Database of social science research. Requires a license.
Education Resources Information Center (ERIC)	Openly accessible database on education research.
Citation Database
Web of Science	Interdisciplinary citation database maintained by Clarivate Analytics. Requires a license.
Scopus	Interdisciplinary citation database maintained by Elsevier. Requires a license.
Google Scholar	Openly accessible citation database maintained by Google. Has only limited search and reference retrieval functionality.
Dissertations
ProQuest Dissertations	Database of dissertations. Requires a license
Study Registries
WHO International Clinical Trials Registry Platform (ICTRP)	Openly accessible database of clinical trial registrations worldwide. Can be used to identify studies that have not (yet) been published.
OSF Registries	Openly accessible interdisciplinary database of study registrations. Can be used to identify studies that have not (yet) been published.

1.4.4研究选择

完成研究搜索后，您应该能够从不同来源收集数千份参考文献。下一步是选择符合您的资格标准的。建议遵循三步程序来执行此操作。

第一步，您应该删除重复的引用。特别是当您在多个电子书目数据库中检索时，参考文献很可能会出现多次。执行此操作的一个简单方法是首先将所有参考文献导入到参考文献管理软件中，将其收集到一个位置。有几种很好的参考管理工具。其中一些，例如Zotero或Mendeley可以免费下载。EndNote等其他程序提供更多功能，但通常需要许可证。

几乎所有这些参考管理器都具有允许您自动删除重复文章的功能。重要的是，请记下您最初在研究搜索中找到的参考文献数量，以及重复删除后剩余的参考文献数量。一旦你公开你的荟萃分析，这些细节应该稍后报告。

重复删除后，是时候根据标题和摘要消除不符合您目的的参考文献了。您的研究搜索很可能会产生数百个与您的研究问题没有任何联系的结果5。仅通过查看其标题和摘要即可安全删除此类引用。参考文献管理器也会对这一步有所帮助。您可以依次浏览每一篇参考文献，并在确定该文章与您无关时将其删除6。

如果您认为某项研究可能包含基于标题和摘要的有趣信息，请不要删除它——即使该研究看起来不太重要。如果您投入大量时间和精力进行全面的研究搜索，却在下一步中错误地删除了相关参考文献，那将是不幸的。基于标题和摘要的参考文献筛选不需要您给出排除该研究的具体原因。最后，您只需记录下一步还剩下多少研究。

根据标题和摘要筛选，您的初始参考文献中 90% 以上可能会被删除。在下一步中，您现在应该检索每个参考文献的完整文章。根据文章中报告的所有内容，您可以做出最终决定该研究是否符合您的资格标准。您应该在这里特别彻底，因为这是确定一项研究是否包含在您的荟萃分析中的最后一步。此外，仅仅说您删除一项研究是因为它不符合您的目的还不够。这里你必须给出一个理由。对于您决定删除的每项研究，您应该记录其不符合您定义的标准的确切原因。除了您的资格标准之外，还有一个原因可能导致您无法纳入研究。

在阅读全文时，您可能会发现没有提供足够的信息来决定该研究是否合格。一项研究可能根本没有提供有关研究设计的足够信息。另一种常见情况是，研究结果未以允许计算荟萃分析所需的效应量指标的形式报告。如果发生这种情况，您应该尝试联系该研究的通讯作者至少两次，并询问所需的信息。只有当作者没有回应，并且发表的文章中缺少的信息是必要的，您才可以排除该研究。

一旦我们最终选择了要纳入的研究，我们就会在流程图中写下纳入过程的所有细节。这种流程图的常用模板是PRISMA 指南 7提供的模板。该流程图记录了我们上面介绍的所有必要信息：

通过搜索电子数据库我们可以找到多少参考文献；
我们通过其他来源找到了多少额外的参考资料；
去重后剩余的参考文献数量；
我们根据标题和摘要删除的参考文献数量；
我们根据全文删除的文章数量，包括由于特定原因被排除的文章数量；
我们纳入定性综合（即系统评价）和定量综合（即荟萃分析）的研究数量。

请注意，（5）中未排除的文章数量和（6）中包含的研究数量通常相同，但不一定相同。例如，一篇文章可能报告两项或多项独立研究的结果，所有这些都适合进行荟萃分析。研究数量将高于纳入的文章数量。

双重筛选

几乎所有相关指南和共识声明都强调在研究选择过程中应使用双重筛选（Tacconelli 2009；Julian Higgins 等人2019；Campbell Collaboration 2016）。

这意味着至少两个人应独立执行每个研究选择步骤，以避免错误。基于标题和摘要的参考文献删除应由两名或两名以上研究人员独立进行，所有未被评估人员删除的记录的组合应转发至下一步。

在最后一步中使用两名或更多评估员更为重要，在此步骤中筛选完整的文章。在此步骤中，每个人都应独立评估一项研究是否合格，如果不合格，请给出原因。

然后评估员应该会面并比较他们的结果。评估者对某些研究的资格存在分歧是很常见的，这种分歧通常可以通过讨论来解决。如果评估人员未能达成一致，那么事先确定一位可以在这种情况下做出最终决定的高级研究人员可能会有所帮助。

使用两名或更多评估员不仅在研究选择过程中是可取的。这种方法在提取和编码数据时也很有用（参见第1.4.5章）。

1.4.5数据提取和编码

当纳入荟萃分析的研究选择完成后，即可提取数据。我们应该从所选文章中提取三种主要类型的信息（Pim Cuijpers 2016）：

研究的特点。
计算效应大小所需的数据。
研究质量或偏倚风险特征。

高质量荟萃分析通常会提供一个表格来报告所纳入研究的特征。该表中报告的具体细节可能因研究领域和研究问题而异。但是，您应该始终提取并报告研究的第一作者及其发表时间。还应报告每项研究的样本量。

除此之外，您还可以在元分析的 PICO 中包含一些有关特征的信息；例如原籍国、平均年龄或中位年龄、女性和男性参与者的比例、干预或暴露的类型、对照组或比较的类型（如果适用）以及每项研究的评估结果。如果一项或多项研究未评估其中一项特征，则应表明该详细信息尚未在表中指定。

还需要提取和收集计算我们计划汇总的效应大小或结果指标所需的数据。在第2章中，我们将更详细地讨论如何在电子表格中构造效果大小数据，以便可以轻松地将其用于R中的计算。如果您的分析计划（参见第1.4.2章）还包括计划的亚组分析和元回归，您还应该从文章中提取这些分析所需的数据。

在荟萃分析中，通常也会对初步研究的质量进行评级和报告。为此，您需要从每项研究中提取的信息取决于您所使用的评级系统的类型。过去几十年来，已经开发了无数评估初级研究质量的工具（Sanderson、Tatt 和 Higgins，2007 年）。

当只有随机对照试验适合您的研究时，对研究质量进行编码的最佳方法之一是使用Cochrane 开发的偏倚风险工具（Julian Higgins 等人，2011 年；Sterne 等人，2019 年）。正如标题中所说，该工具并不评估研究本身的质量，而是评估其偏倚风险。

研究质量和偏倚风险是相关的，但不是同一概念。 “偏差”是指研究结果或其解释中的系统性错误。偏倚风险是研究进行方式或其结果的各个方面，可能会增加出现此类系统错误的可能性。即使一项研究仅采用被认为是“最先进”的方法，仍然可能存在偏差。一项研究可以满足特定研究领域被认为重要的所有质量标准，但有时即使是这些最佳实践也可能不足以保护研究免受扭曲。因此，与研究质量评估相比，“偏倚风险”概念的侧重点略有不同。它主要关心干预研究的结果是否可信的问题，并重点关注有利于实现这一目标的标准（Julian Higgins 等，2019）。

在多个领域，偏倚风险工具可让您将研究的偏倚风险分类为“高”或“低”，或者可以确定存在“一些问题”。还有关于如何直观地总结偏差风险的约定（请参阅第15章，我们在其中描述了如何在R中完成此操作）。评估非随机研究偏倚风险的类似资源是非随机干预研究中的偏倚风险或 ROBINS-I 工具（Sterne 等人，2016 年）。

Cochrane 偏倚风险工具已成为评估（非）随机临床试验偏倚风险的标准方法（Jørgensen 等，2016）。不幸的是，在其他地区，目前的做法仍然很像狂野的西部。例如，在心理学研究中，研究质量评估往往不一致、不透明或根本不进行（Hohn、Slaney 和 Tafreshi 2019）。

如果您计划对临床试验以外的研究进行荟萃分析，您可以做两件事。首先，您可以检查偏差风险或 ROBINS-I 工具是否仍然适用，例如，您的研究是否专注于另一种类型的干预措施，而该干预措施根本没有与健康相关的焦点。另一种不可否认的次优方法可能是搜索以前关于类似主题的高质量荟萃分析，并检查这些研究如何确定初步研究的质量。

我们对元分析的历史、问题以及在收集和编码数据时如何避免其中的一些问题的深入研究到此结束。下一章是本指南“实践”部分的开始。在其中，我们将在R中完成我们自己的第一步。

■◼