2026, Preprint
可信度革命如何塑造了政治学?我们通过使用大语言模型对2003年至2023年间发表于156种政治学期刊的91,632篇文章进行分类,考察研究设计、提升可信度的实践以及引用模式,以回答这一问题。我们发现,基于设计的研究,也就是那些利用具有合理外生性的变异来支持因果主张的研究,变得越来越常见,并且获得了更高的引用回报。相比之下,依赖较强模型假设的基于模型的方法则有所下降。然而,基于设计的研究的兴起并不均衡:它主要集中在顶级期刊和来自高排名机构的作者之中,并且主要由调查实验的增长所推动。其他有助于减少假阳性和假阴性的提升可信度实践,例如安慰剂检验和功效分析,仍然较为少见。总体而言,我们的发现指向一种实质性但有选择性的变化,它更接近于一场局部改革,而不是一场革命。
我们使用“可信度革命”这一术语,指的是社会科学中一场广泛的运动。这场运动试图改变经验性因果研究的开展方式和评估方式。作为一项认识论工程,它强调,在定量因果研究中,需要提出明确且可辩护的识别假设;同时,在论证因果比较时,需要特别重视对数据生成过程的理论化(Morgan and Winship 2014; Imbens and Rubin 2015)。它强调识别策略应当透明,并能够接受检验;同时,当建模假设难以得到充分辩护时,应减少对这些假设作为因果主张基础的依赖(Aronow and Miller 2019; Samii 2016)。
与许多认识论运动一样,可信度革命本身是广泛的、异质的,并且内部存在争议。我们的目标并不是裁定它的“确切”含义,而是识别出一个核心区分,以便衡量经验性因果实践如何因它而发生变化。为此,我们采用了一种在分析上有用的分类法,将经验性因果研究区分为两类宽泛的方法。这个分类并不完美,因为与基于设计的方法相关的一些方法也可能结合基于模型方法的要素,例如双重差分;但它抓住了因果识别基础所在的一个核心差异:识别究竟主要依赖于处理分配的特征,还是依赖于统计模型中嵌入的假设。
基于设计的方法(Design-based approaches),将因果识别建立在数据生成过程中那些以具有合理外生性的方式组织处理分配的特征之上,例如随机化、制度规则或政策阈值。尽管估计过程可能依赖统计模型,但因果主张的有效性主要被理解为取决于关于处理分配和反事实比较的假设,而不是函数形式或分布假设。自然实验、随机对照试验、工具变量、回归不连续设计和双重差分设计,是这类方法的典型例子。
基于模型的方法(Model-based approaches),主要将因果识别建立在参数化或统计建模假设的正确性之上,例如线性、可加性、条件独立性和分布假设。在这些方法中,因果解释取决于建模假设的可信程度,而这些假设通常与理论或数据结构有关,并且可能在特定情境下是合理的。这些假设通常并不建立在关于处理分配过程的明确主张之上。
调查实验在可信度革命中的位置具有一定模糊性:一方面,它们源自心理学和行为科学传统,早期更多被用来测量和引出潜在态度、信念与认知过程,并不一定以识别现实政治干预的因果效应为主要目标;另一方面,调查实验毕竟依赖外生处理分配和透明的数据生成过程,因此也符合可信度革命对实验设计和因果识别的部分要求。不过,调查实验通常操纵的是通过情境短文、提示或框架传递的信息,而不是政策、制度或现实政治条件本身,因此其识别出的因果效应往往较为清晰,却主要局限于文本刺激引发的短期态度变化,现实含义和外部效度相对有限。基于这种双重性,我们在分析中将调查实验纳入广义的基于设计的方法,同时也将其与其他基于设计的方法拆分呈现,以考察它们对政治学方法变化整体判断的影响。
本文使用2003年至2023年间政治学期刊论文构建语料库,以评估可信度革命对政治学经验研究实践的影响。研究首先从Clarivate政治学期刊中筛选出SJR评分至少为1的期刊,并剔除未被Scopus收录、缺乏同行评审、非英文出版或属于图书系列的期刊,最终得到174种英文、同行评审、Scopus收录的政治学期刊。基于Scopus数据,研究收集了129,751篇文章的元数据,并进一步获取了其中91,632篇文章的全文,覆盖156种期刊。随后,研究结合监督式机器学习和gpt-4o,对这些全文文章在19个研究设计维度上进行分类。图1展示了全文样本中每年发表论文的数量,包括总体趋势和按子领域划分的趋势。政治学研究的发表规模增长迅速:从2003年的1,546篇,增长到2023年的8,109篇以上,增加了四倍多。
我们构建了一系列变量,用以刻画每篇论文的方法特征、实质研究焦点和透明性实践。具体编码程序见补充材料A.2节。我们首先为每篇论文分配一个子领域标签,来自六个类别:美国政治、比较政治、国际关系、方法论与形式理论、政治理论与哲学,以及公共政策/行政。该标签反映论文的主要实质性贡献。
随后,我们识别论文是否属于经验性定量研究。如果一篇论文对观察数据或实验数据进行了自己的分析,包括对已有数据集的再分析,我们就将其编码为经验性定量研究。没有使用数据的模拟研究或纯方法论讨论不包括在内。主要方法为定性研究、形式理论研究或规范研究的论文,在我们的分类中被编码为非定量研究。对于经验性定量论文,我们进一步将其一般目标分为三类:描述性、解释性或预测性。
解释性论文考察社会现象的原因或后果,并提出与一个或多个因果关系相一致的证据,即便它们并不总是使用明确的因果语言。描述性论文的贡献主要集中在测量或刻画上,例如提出新指标、建立基准水平,或记录群体差异,但不发展或检验因果机制。预测性研究则关注对某一结果进行预测,或识别最能预测该结果的变量,通常使用样本外表现或交叉验证表现作为评估标准,并且不将这些变量解释为原因。当论文同时包含这些目标的要素时,我们根据论文的主要贡献来编码其一般目标。由于预测性和描述性研究通常不提出因果主张,我们只对被分类为解释性论文的研究编码其主要研究设计。
图2展示了这一连续分类过程。我们的分类呈现出两个重要模式。第一,定量经验论文只占少数,在所有年份合并后的论文中占41%。第二,在定量研究内部,解释性论文占主导地位,占81%。描述性论文仅占经验性定量论文的18%。预测性论文仍然很少,在整个时期内只有240篇。不过,二十年的平均值可能掩盖了重要的时间变化。图3显示,经验性定量论文的比例一直在稳步上升,到2023年达到约48%。按子领域拆分后可以看到类似的上升趋势,但不同子领域的基线水平仍然存在持续差异:2023年,国际关系论文中有27%使用定量方法,相比之下,比较政治中这一比例为57%,美国政治中则为84%。
对于30,296篇解释性经验定量研究,也就是下一节分析的主要对象,我们将每篇论文的主要研究设计分为三类:基于设计的方法、基于模型的方法,以及其他设计。基于设计的方法将因果识别与某种被描述出来的外生或近似外生的处理分配变异来源联系起来,例如随机分配、制度性断点、政策冲击,或具有合理外生性的时间安排,并将相应的识别假设表述为关于分配机制的主张,而不仅仅是回归设定的推论。具体而言,这些方法包括实验研究,即田野实验、调查实验和实验室实验,也包括一系列基于无混淆性和重叠性假设的非实验识别策略,例如匹配和重新加权技术;自然实验和准实验;工具变量设计;断点回归和拐点回归设计;双重差分设计;以及合成控制法。基于设计的方法占解释性论文的29%,这表明方法上的转变是实质性的,但仍然有限。
基于模型的方法主要通过参数化或统计建模假设来支持因果解释,包括函数形式限制和嵌入模型设定中的条件独立性主张,并且通常通过线性回归、广义线性模型、结构方程模型和时间序列模型,例如ARMA、GARCH和向量自回归,来操作化因果问题。其他方法则包括上述类别无法涵盖的做法,例如网络分析、文本即数据方法、基于主体的建模,以及纯粹的关联性分析,如双变量相关和列联表。 由于线性回归在实验和非实验情境中都可能用于识别因果效应(Angrist and Pischke 2009; Aronow and Samii 2016; Imbens and Xu 2025),我们并不将使用线性回归本身视为基于模型研究的诊断标准。只有那些在没有说明分配机制或基于设计的识别论证的情况下,将协变量调整回归中的系数解释为因果效应的研究,才被编码为基于模型的方法。在我们的语料库中,有71%的论文依赖这种形式的简单回归分析。
对于解释性研究,我们还编码论文是否陈述了关键识别假设。这里的关键识别假设,是指对研究设计背后核心假设的明确陈述,例如无混淆性、平行趋势、连续性或排除限制。我们还编码定量解释性论文是否提出了因果主张。显性因果主张使用“导致”“效应”或“影响”等术语。隐性因果主张则指论文虽然避免直接使用因果术语,但将其贡献表述为关于原因和后果,或将系数解释为因果关系。最初,我们也希望评估解释性研究是否清楚说明了一个可解释的估计量。然而,与Lundberg, Johnson and Stewart(2021)的观点一致,我们的试点研究表明,除了使用实验、工具变量和断点回归设计的论文——这些设计通常针对平均处理效应、处理组平均处理效应或局部平均处理效应——之外,很少有研究做到这一点。因此,我们删除了这一测量。
此外,我们还编码了若干分析特征,包括样本量,以及用于提升可信度的研究实践。这些实践包括:(1)论文是否报告安慰剂检验;(2)论文是否说明进行了功效分析;(3)假设或分析是否进行了预注册。我们关注这三项实践,是因为它们在不同设计中较为常见,并且意在减少不同形式的推断错误。安慰剂检验和预分析计划有助于降低假阳性的风险,前者通过检测虚假结果来实现这一点(Eggers, Tuñón and Dafoe 2024),后者则通过限制未披露的分析灵活性,即p-hacking,来实现这一点(Brodeur et al. 2024)。功效分析则通过确保研究具有足够的统计功效来发现有意义的效应,从而降低假阴性的可能性。近年来,这一问题在社会科学研究中变得更加突出(Arel-Bundock et al. 2026; Lal et al. 2024)。虽然增加样本量本身并不是一种研究实践,但我们将其视为对假阴性敏感性的间接指标:如果研究者更加关注统计功效,他们可能会设计样本量更大的研究,无论是否进行了正式的功效计算。总体而言,这些指标使我们能够记录定量政治学文献中的方法选择和因果推理方式。
这里有两点需要说明。第一,我们对这些变量的测量,是以论文中报告的内容为准。我们并不评估作者是否很好地执行了某种研究设计,也不判断他们所援引的识别假设在具体应用中是否成立,或论文是否存在方法错误或错误表述。第二,我们的分类是描述性的,而不是评价性或规范性的:它并不意在建立一种排序,将基于设计的研究视为天然比基于模型的研究更可信或更不可信。对于任何一篇论文而言,无论属于哪一类方法,识别所需的假设在实践中都可能成立,也可能不成立。事实上,政治学研究近期的一些重复研究表明,不同设计中仍然存在假设有效性、统计功效和执行错误等问题(例如 Stommes, Aronow and Sävje 2023; Lal et al. 2024; Chiu et al. 2025)。
我们开发了一套基于LLM的编码框架,并进行了结构化的人工验证,以便从政治学论文语料库中生成可靠的测量指标。我们首先收集了所有抓取论文的原始文本,并将超过50,000个token(约35,000词)的文章截断,以控制成本并确保处理效率。在实践中,这只影响了少数篇幅较长的综述文章,而且被截断的通常是附录,而不是主要的经验研究内容。
随后,我们将每篇论文的文本连同定制提示词,通过批处理API发送给OpenAI的gpt-4o模型。系统提示词列出了需要编码的19个研究维度,包括研究设计、透明性实践和因果主张等,详见补充材料。我们使用OpenAI的结构化输出功能构建了一个JSON结构,以确保输出格式一致,模型则按照这一结构对每篇文章进行编码。为了改进提示词,我们通过定性评估116篇论文样本的输出结果,反复测试了八个版本。每位作者阅读了数十篇论文,记录错误,并提出修改建议。经过八轮迭代后,我们确定了最终提示词,并在五个关键变量上对其进行评估。
我们使用人工编码员验证了五个支撑主要分析的核心变量:(1)论文是否为经验性定量研究;(2)论文所属子领域;(3)论文的主要研究设计;(4)论文是否陈述关键识别假设;(5)论文是否提出因果主张。子领域和研究设计是多标签变量,分别涵盖六个和十七个类别;其余变量为二元变量。任务1使用200篇论文的随机样本,评估论文是否属于经验性定量研究。任务2使用另外200篇被模型识别为经验性定量研究的论文,评估其余变量,其中一篇论文在复核后被剔除。四名研究助理以两人一组的方式对每篇论文进行编码,分歧则由第三名编码员在一位作者的参与下解决。尽管这些样本相对于整个语料库而言规模不大,但已经足以较为精确地估计准确率;我们在不同期刊上进行的额外抽查也呈现出相似模式。准确率较高:任务1与人工编码员的一致率达到98%。在任务2中,子领域分类准确率为83%,研究设计分类准确率为73%(在基于设计的研究中为84%),识别假设分类准确率为78%(在基于设计的研究中为90%),因果主张分类准确率为82%(在基于设计的研究中为87%)。更多细节见A.2节。
总体而言,这些验证表明,在有针对性的人工检查支持下,LLM可以为政治学中的方法特征生成可靠的大规模测量。LLM在基于设计的研究中表现尤其更好,因为这类论文的方法部分通常更加结构化,从而降低了编码难度。
基于设计的方法稳步上升,但增长并不均衡
方法实践在定量解释性研究中发生了怎样的变化?如果可信度革命已经在政治学中产生影响,那么基于设计的策略应当越来越多地取代基于模型的方法。图4(a)展示了2003年至2023年的总体趋势。在这一时期的大部分时间里,基于模型的方法(灰色)占据主导地位,但基于设计的方法(黑色)从15%上升到40%。到2023年,这两类方法在解释性定量研究中所占比例已几乎相当,而其他方法,即前文定义的剩余类别,占18%。在这一总体变化之中,不同子领域之间的差异相对有限。如图4(b)所示,美国政治较早采用基于设计的方法,但到2023年,三个主要子领域都已显示出相当程度的采用:美国政治为52%,国际关系为43%,比较政治为38%。
补充材料中的图A3(a)报告了排除调查实验后的总体结果。在这一子样本中,基于设计的论文比例明显更低:从2003年定量论文中的12%,上升到2023年的27%。相应地,基于模型的方法在整个时期内仍然占据主导地位,到2023年仍占所有定量论文的一半以上。补充材料中的图A3(b)展示了排除调查实验后各子领域的具体趋势。排除调查实验对美国政治中基于设计论文比例的影响最为明显。具体而言,与纳入调查实验时相比,美国政治在2023年的比例下降了21个百分点。相比之下,国际关系在2023年的差异略小,为14.5个百分点;比较政治的差异最小,当年仅下降10.5个百分点。
接下来,我们考察哪些具体设计推动了这种增长,以及每种方法如何随时间变化。图5展示了实验性和非实验性方法的发展轨迹。图5(a)报告了三类实验方法的趋势。调查实验解释了基于设计方法增长中的很大一部分,其比例迅速上升,从2003年约占所有解释性定量研究的4%,增长到2023年的15%以上;到研究期末,调查实验约占全部基于设计研究的45%。田野实验仍然并不常见,这可能是因为其成本较高,但也呈现出温和上升趋势。相比之下,实验室实验在2016年后明显下降。这一下降可能反映了在线实验和调查型实验平台的日益可得;这些平台使研究者能够以更低成本、更大且更多样的样本开展实验,并避免面对面实验室环境中的后勤限制。
图5(b)报告了六类非实验性基于设计方法的趋势。双重差分,包括其各种实现形式,几乎呈单调增长,到2023年已占所有解释性经验定量论文的6%以上。匹配和重新加权方法在2012年前后上升到约5%,随后一直保持平台期直至研究期末。工具变量设计从2003年的3%上升到2012年的接近5%,但在过去十年中逐渐下降。回归不连续设计增长缓慢,到2023年仍接近2%,这反映了这类设计可利用机会有限。自然实验和准实验在整个时期内始终约占解释性经验定量研究的1%。合成控制法大约在2012年前后出现,近年来有所增长,但仍不到解释性经验定量论文的1%。
总体而言,这些模式表明,可信度革命确实改变了方法实践,但这种改变在不同研究设计之间并不均衡。调查实验如果被视为基于设计的方法,那么它解释了总体变化中的大部分,其次是双重差分设计;而其他基于设计的方法则增长有限,或仍然处于较为小众的位置。
我们发现,在过去二十年里,基于设计的方法缓慢但稳定地上升,并在2023年达到与传统基于模型的方法大致相当的水平。这一模式表明,可信度革命相关实践以相对温和的速度扩散,并且远未成为普遍做法。不过,一个值得注意的问题是,如果将所有文章同等对待,可能会掩盖不同出版渠道之间的差异。更有影响力的期刊可能更早采纳新兴的方法标准,并由此塑造更广泛的学科期待。如果确实如此,那么对所有文章进行等权处理,可能会低估那些读者更多、影响力更高的期刊中正在发生的变化的程度和速度。
为了评估这种可能性,图6展示了解释性定量文章中基于设计和基于模型研究的比例,并按照文章发表期刊的SJR分数对每篇文章进行加权。左图报告了影响力最高的20种期刊的趋势;右图报告了其余所有期刊的趋势。较深的色调表示纳入调查实验,较浅的色调表示排除调查实验。加权后,基于设计的方法在影响力最高的期刊中上升得更快。基于设计论文的加权比例最终超过了基于模型的论文,不过这一交叉发生的时间取决于是否纳入调查实验。如果将调查实验纳入这一类别,基于设计的研究在2016年超过基于模型的研究;如果将调查实验从分子中排除,这一交叉则发生在2021年。相比之下,在影响力较低的出版渠道中,尽管基于设计的研究也逐渐增加,但基于模型的方法在整个时期内仍然占据主导地位。排除调查实验后,这一增长几乎完全变得平缓,这表明即使在根据期刊影响力进行调整之后,调查实验仍然解释了整个学科中基于设计产出的一大部分。总体而言,这些模式表明,方法变化主要集中在学科中最可见、最有影响力的部分。
影响因子加权可以调整不同论文之间影响力的差异,但不能揭示这些差异来自哪里。图7展示了2019年至2023年间政治学前20种期刊中基于设计研究的比例,并区分了纳入调查实验的估计值(圆点)和排除调查实验的估计值(三角形)。第一个结论是,前20种期刊内部存在显著异质性:一些期刊发表的基于设计研究比例相对较低,而另一些期刊则相对较高。比如,在Quarterly Journal of Political Science和Political Science Research and Methods等前20种期刊中,基于设计研究的比例超过55%;而在Journal of European Public Policy和European Union Politics等其他前20种期刊中,这一比例低于20%。
第二个明显模式是,不同期刊在纳入和排除调查实验之后,基于设计研究比例的差距也存在异质性。有些期刊差距较大,有些则较小。例如,在Public Opinion Quarterly和Political Behavior这类以意见研究为重点的期刊中,较大的差距与调查实验源于社会心理学和调查研究的传统是一致的。更令人意外的是,综合性期刊中也出现了这种差距。例如,在American Political Science Review中,排除调查实验后,基于设计研究的比例从57%下降到51%;American Journal of Political Science也呈现类似模式,从47%下降到39%;Journal of Politics则从45%下降到36%。尽管这些估计汇总了所有论文年份,但这些差距表明,调查实验已经成为综合性期刊中的一种重要方法,而不仅仅集中在以意见研究为实质焦点的期刊中。
到目前为止的结果显示,相比其他出版渠道,基于设计的方法在高影响力期刊中被更早采用,也更为常见。这一模式提示,可信度革命在学科内部的扩散可能并不均衡。为了进一步考察这一点,我们将作者的机构隶属作为另一项指标。机构排名为我们提供了一个补充视角,用以观察这种方法采纳是否在学科不同群体之间存在差异。
我们使用上海软科世界大学学术排名(ARWU)对机构进行排序。我们提取了所有作者的机构隶属信息,并将77,123个作者—机构配对匹配到上海排名中的大学,这些配对来自59,248篇论文,覆盖了全文样本的65%。对于每篇论文,我们计算作者所属机构的平均排名。具体匹配程序见补充材料。
图8展示了不同机构排名作者对基于设计方法的采用情况,并同样报告了纳入调查实验的估计值(黑色)和排除调查实验的估计值(红色)。在隶属于前40名机构的作者中,基于设计方法的采用率随着机构排名下降而逐渐降低。在分布最顶端,基于设计的方法在完整语料库中约占50%,在排除调查实验后约占40%。到第40名机构时,这一比例稳定下降至约28%(纳入调查实验)和约20%(排除调查实验);此后,较低排名机构的采用率趋于平稳。即便排除调查实验后,这一梯度关系仍然存在,说明机构排名与基于设计方法采用之间的关联,并不完全由调查实验的使用所驱动。相反,这些模式表明,与可信度革命相关的方法转向,在高排名机构作者中更加明显,而且这种转向并不限于某一种基于设计的方法。
这种集中性与期刊层级中的模式相互呼应。它究竟反映的是一种会进一步扩散的早期采纳,还是一种更持久的分层结构,目前仍不确定。可以明确的是,即便在高排名机构的学者之中,这一转向也是渐进发生的:基于设计的方法用了近二十年才达到与基于模型的方法大致相当的水平。而且,在基于设计的研究内部,这种增长主要由调查实验推动,而不是由多种基于设计策略的广泛采用所共同推动。
除了研究设计之外,学者也可能采用一些研究实践,以降低推断风险,并增强解释性主张的可信度。我们将这些实践沿两个维度组织:一类旨在减少假阳性发现,另一类旨在减少假阴性发现。我们考察四个指标:安慰剂检验和预分析计划,这二者通常被用来限制假阳性;样本量和功效分析,这二者通常被用来降低假阴性的可能性。由于不同研究设计在期待和规范上存在差异,将它们合并分析会掩盖有意义的区别,因此我们分别报告实验研究、基于设计的观察性研究和基于模型研究的趋势。
图9呈现了相关结果。用于降低假阳性风险的实践,主要在基于设计的研究中有所扩展,但实验研究和非实验研究之间存在明显差异。安慰剂检验仍然主要集中在基于设计的观察性研究中,其比例从2003年的不足5%上升到2023年的约20%。相比之下,预分析计划则主要集中在实验研究中,到2023年约出现在35%的实验论文中。它们在基于设计的观察性研究中仍然少见,比例约为3%;在基于模型的研究中则几乎不存在,低于1%。
旨在降低假阴性风险的实践则有更广泛的采用。最明显的是,2003年至2023年间,所有研究设计中的中位样本量都显著增加:实验研究从490增加到1,601,基于模型的研究从984增加到2,059,基于设计的观察性研究从784增加到3,019。这一趋势与研究者对统计功效日益重视相一致,即便很多研究并没有进行正式的功效计算。不过,样本量只是衡量这种关注的一个有噪声指标。样本量的增加也可能反映数据随时间积累的机械性特征,例如更长的面板序列;也可能反映经验研究重点从国家层面的分析单位转向次国家层面的分析单位,从而在机制上产生更多观察值。
功效分析本身仍然主要局限于实验研究。2003年至2023年间,实验研究中报告功效分析的比例从4%上升到约15%。但在基于设计的观察性研究和基于模型的研究中,功效分析仍然少见,前者低于2%,后者仅为0.6%,尽管它对于解释不同设计中的零结果都可能具有重要意义。后面这些发现与近期研究所记录的已发表社会科学文章统计功效不足的问题是一致的(Arel-Bundock et al. 2026)。
总体而言,这些模式表明,旨在减少假阳性和假阴性发现的研究实践正在逐渐扩散,但这种扩散并不均衡。用于限制假阳性的实践主要在基于设计的研究中扩展,其中实验研究和观察性研究采用了不同工具,而基于模型的研究采纳很少。能够降低假阴性可能性的实践则覆盖范围更广:所有研究设计中的样本量都显著增加,包括基于模型的研究;不过,正式的功效分析仍然主要局限于实验研究。尽管如此,从绝对水平看,这些实践的采用仍然有限。即便在基于设计的研究中,它们也尚未成为常规做法。
学科范围内的转型不仅体现在研究实践和研究设计选择的变化上,也体现在学科重视和奖励什么样的研究。尽管引用次数存在局限,但它仍然提供了一个有用的代理指标:它反映了哪些研究被阅读、被继承,并被视为有影响力。由于引用次数会影响晋升、招聘和专业认可,它也有助于我们理解该领域如何分配学术声望。
如果可信度革命重塑了政治学,那么基于设计的研究可能会比基于模型的研究获得更多引用。我们将这种差异称为基于设计研究的引用优势,即与同一年发表的基于模型论文相比,基于设计论文平均多获得的引用次数。需要指出的是,这一分析的一个重要局限在于,我们没有控制可能的混杂因素,例如主题、子领域、期刊位置或研究质量。因此,这些模式不应被解释为因果效应。
跨年份比较引用水平是复杂的,因为引用会随着时间积累,因此较新的论文被引用的时间更短;同时,基于设计的方法在较晚的论文队列(cohort)中也变得更加常见。为了解决这些问题,我们同时考察了按发表年份划分的原始引用次数,以及不同发表年份队列的引用轨迹。
图10(a)展示了基于设计论文和基于模型论文获得的平均引用次数。引用优势在21世纪初开始出现,在21世纪头十年的后期继续扩大,并在2011年前后达到峰值,随后在近年似乎有所收窄。这一模式可能由两个因素共同造成。第一,较新的论文积累引用的时间更短,这会在机制上缩小可观察到的差距。第二,随着基于设计的方法变得更加常见,并且更多出现在有影响力的期刊中,基于模型研究的发表门槛可能也随之提高,从而使近年的基于模型论文质量更强,并缩小引用差距。此外,基于设计方法的更广泛扩散也意味着,一些研究可能只是未经充分反思地采用这些方法,而没有充分论证其所需假设,这会限制它们获得引用优势的潜力。
图10(b)展示了2003年、2007年、2011年、2015年和2019年发表论文队列的引用优势,并以每篇论文的发表年份作为参照来测量。引用优势始终为正,但不同年份队列之间存在差异。2003年队列在发表二十年后只显示出较小优势,约多出7次引用。2007年队列增长更快,在十六年后达到约15次额外引用;2011年队列在十一年内也呈现出类似模式。2015年队列的增长进一步加快,在八年内获得约10次额外引用,而2011年队列在相同时间点约为7次。2019年队列的轨迹与2015年队列接近,这表明引用优势可能已经趋于稳定。
我们的分析呈现出一幅关于政治学中可信度革命的复杂图景。一方面,在定量解释性研究中,基于设计的方法已经从边缘位置走向与传统基于模型的方法大致相当的地位。基于设计的策略现在约占这类论文的40%,并且相较于基于模型的研究,持续获得引用优势。另一方面,这种转型并不普遍,而且仍然高度分层。它在很大程度上由单一研究设计,即调查实验所推动,并且集中在顶级期刊以及来自高排名机构的作者之中。研究设计之外的提升可信度实践,例如预分析计划、功效分析和安慰剂检验,即便在基于设计的研究中,也远未成为普遍做法。在这个意义上,与其说可信度革命是一场对经验研究实践的全面重组,不如说它是一场实质性但局部的改革。
尽管如此,若干发展已经难以否认。第一,政治学不再像过去那样依赖参数化建模作为提出因果主张的默认路径。实验、回归不连续和其他设计的发展,使研究者的注意力从函数形式假设转向关于处理分配和识别变异的明确陈述。第二,总体而言,研究者如今更加明确地说明因果解释所需的假设:超过90%的基于设计论文陈述了识别假设,大多数基于模型论文也做到了这一点。第三,不同方法类别中的中位样本量都有所增加。在其他条件相同的情况下,这应当有助于提升统计功效,并降低已发表发现由小样本噪音驱动的风险。总体来看,这些变化使政治学更接近可信度革命倡导者所提出的标准。
与此同时,证据也表明,可信度革命至少在两个方面并不深入。第一,基于设计方法的采用高度集中于调查实验;到研究期末,调查实验接近占全部基于设计论文的一半。可信度革命工具箱中的其他核心设计,如双重差分、回归不连续、自然实验和准实验、合成控制法,仍然较为少见,而且其使用模式往往并非单调上升,这暗示其中可能存在方法潮流的成分,而不是稳定持久的实践。这种集中性限制了能够被可信回答的问题类型,也使许多重要情境仍未得到充分利用。第二,除了识别假设之外,其他提升可信度的程序仍然没有被充分制度化。安慰剂检验只出现在约五分之一的基于设计的观察性研究中,在其他研究中则非常少见。预分析计划和功效分析主要局限于实验研究,即便在那里也仍然不是常规做法。如果目标是让已发表证据更能诊断因果主张,那么这些辅助性实践需要在不同方法中更加常规化,而不能只出现在一部分高关注度的实验研究中。
可信度革命的覆盖范围也并不宽。基于设计的方法在学科中最有声望的期刊中更早被采用,采用率也更高;在来自顶尖机构的作者中也更为常见。例如,回归不连续设计和田野实验不成比例地集中在前10名期刊和机构排名的上端,而在大约前50名机构之后,采用率趋于平缓。这些模式是描述性的,并且很可能反映了训练、资源、投稿策略上的选择,也可能反映了不同群体对可信度原则的“内化”程度存在差异。尽管如此,它们仍然提出了一种可能性:政治学正在形成一种双层结构,其中可信因果推断的标准会随机构位置而有所不同。
我们提出的发现需要一个重要的解释性限定:由于我们的测量依赖于作者如何描述他们的设计和研究目标,我们无法完全区分研究实践本身的变化与学者呈现其研究方式的变化。这一点很重要,因为报告规范的演变可能会影响我们的描述性趋势,导致我们高估或低估可信度革命的影响。例如,如果研究者在提出因果主张时变得更加谨慎,那么即便实际研究实践没有发生实质变化,基于模型的研究现在也可能包含更少或更谨慎限定的因果表述,从而使我们低估变化。相反,如果学者越来越倾向于将自己的研究描述为“描述性”而不是“解释性”,那么解释性研究的总体规模就会缩小,从而夸大该类别中基于设计方法的上升。虽然我们无法直接检验这些动态,但任何重新界定因果性的知识运动,都可能同时改变因果主张被评估的方式和被表达的方式。重要的是,补充材料A.3节中的描述性证据表明,这些过程并不是我们结果的主要驱动因素:明确属于描述性定量研究的比例随时间基本保持平稳,而基于模型研究提出因果主张的比例至少自2010年以来也保持稳定。
总之,可信度革命正在重塑其他研究方式,但并没有取代它们。定量解释性研究仍然只是少数,约占我们语料库中文章的41%。尽管其比例有所增长,但它并没有取代该领域的方法多样性。我们的发现指向一种正在形成的均衡:基于设计的研究与定性、历史、民族志、解释性方法,以及形式理论和规范理论共存,并从这些方法中获得补充和丰富。随着因果推断标准的演变,其他传统的贡献仍然不可或缺,尤其是它们捕捉意义、情境、复杂性和偶然性的能力。定性研究者长期以来也发展了用于因果推断的工具,包括过程追踪和个案内部分析,它们提供了不同的逻辑和证据形式。描述性研究也继续发挥重要作用,用于描绘新现象、测量关键概念,并塑造研究议程。从这个角度看,当可信度革命能够促进不同方法之间的分工与相互强化,并推进方法多元主义,而不是抬高某一种单一范式时,它可能最具生产性。
文献来源:Torreblanca, C., Dinneen, W., Grossman, G., & Xu, Y. (2025). The Credibility Revolution in Political Science. arXiv preprint arXiv:2601.11542.