论文推荐 Vol. 15｜使用大语言模型测量政党意识形态

Political Analysis

引言

政党意识形态研究是社会科学领域中，能够充分体现测度方法重要性的典型研究议题。若缺乏有效的政党政策立场比较测度工具，政党竞争与代表理论的检验和完善便无从实现。现有文献针对政党意识形态测度提出的各类技术方案，大致可归为两大类别：基于政党宣言的测度方法与基于专家评估的测度方法。政党宣言虽能为研究者提供跨年度、跨国家的研究素材，但其推导的意识形态测度结果在表面效度（Laver, Benoit, and Garry, 2003）与聚合效度（Dinas and Gemenis, 2010）上的表现并非始终理想。基于专家调查的测度方法在上述两项效度上的表现更优（Hooghe et al., 2010），但该方法的数据收集成本较高，且事实上 20 世纪 90 年代前的相关专家调查数据尚未形成体系，加之其本质上存在较强的人为主观判断倾向，这也对测度结果的可复现性构成了挑战。

本文的核心研究问题为，大语言模型的最新发展是否能为社会科学家搭建起上述两种传统分类方法的融合桥梁？能否依托机器学习方法，获得兼具专家评估效度、政党宣言分析时空广度，且低成本、实时性的政党意识形态立场测度结果？

GPT 系列语言模型、Llama 开源模型与通义千问（Qwen）开源模型等大语言模型，为文本分析领域的有监督学习模型提供了一种相对新颖的替代方案。自监督学习任务会通过近乎海量的数字与实体媒体文本语料库，持续对人工神经网络进行训练，且其 “预测目标由数据本身提供，而非由研究者人工标注”（Ornstein, Blasingame, and Truscott, 2025）。这一特征对社会科学研究而言具备显著优势，因为召集专业专家或普通群体对大量数据进行标注，不仅成本高昂、耗时长久（Ornstein et al., 2025），还易出现编码一致性不足的问题（Mikhaylov et al., 2012）。

人工智能生成的数据在数据生产过程的可复现性与灵活性上均具备突出优势（Benoit et al., 2016）。一方面，唯一的 “种子” 参数能让后续研究者以较低的时间与精力成本还原人工智能生成的数据，而这一工作在编码者调查与专家调查中几乎难以实现，究其原因，主要是重新联络调查样本存在实际困难，且人类的回答结果具有易变性与语境依赖性（Sanders, Ulinich, and Schneier, 2023）。另一方面，使用大语言模型的研究者可灵活调整多项参数，其中包括算法完成任务时允许的随机程度。此外，依托大语言模型开展大规模研究任务的成本相对较低。若能证实生成式人工智能的测度结果，与专家评估、政党宣言分析、民意调查等主流方法的结果质量相当，便能从可复现性、灵活性与经济性的角度，佐证其在社会科学研究中的应用价值，这也是本研究的核心验证目标。

本文首次从结构层面评估大语言模型能否作为零样本学习模型，准确判断欧洲政党的左右翼意识形态立场，即无需为模型提供任何与研究任务相关的背景信息。本研究选择零样本学习方法而非少样本学习方法，原因在于已有研究表明，两种方法在分类任务中的表现并无显著差异（Le Mens and Gallego, 2025; Ziems et al., 2024）。而在少样本学习方法中，研究者会主观选择向算法输入或不输入的信息及具体输入方式，例如提供 “正确” 的分类案例\或明确的意识形态立场表述（Le Mens and Gallego, 2025）。显然，零样本学习方法能够剔除训练集构建过程中的这一层人为干预，进而提升研究过程的可复现性。

本研究通过验证 GPT-3.5 生成的意识形态立场测度结果，与专家调查、政党宣言分析、民意调查结果的重合范围，检验其聚合效度。研究发现，GPT-3.5 的测度结果与专家评估结果高度契合，与选民给出的意识形态评分契合度稍低，而与政党宣言分析结果的契合度则最低。本文还简要介绍了一系列检验方法，旨在验证本研究方法的稳健性并分析其局限性。

人工智能在政治学领域的应用已较为广泛（相关综述见 Ornstein et al., 2025），包括在少样本学习语境下对政治文本进行标注与解读（Gilardi, Alizadeh, and Kubli, 2023），以及构建可信的 “合成” 调查样本（Argyle et al., 2023）等方向。但目前政治学领域仅有少数研究将 GPT-3.5 作为零样本学习模型展开分析。Wu et al., (2023) 的研究表明，ChatGPT 可通过两两比较法有效对美国国会议员的意识形态进行排名；Bol and Bono, (2024) 则发现，仅依据政党名称，GPT-4 便能准确将法国政党置于左右翼意识形态轴线上。本文在上述研究的基础上，拓展了研究的地理与时间范围，并采用了 Wu et al., (2023) 开发的研究方法。总体而言，本文的研究也为一类新兴研究领域提供了实证支撑，该领域旨在探讨大语言模型能否通过深化社会科学家对政治意识形态等社会现象与概念的理解，实现 “计算社会科学的转型”（Ziems et al., 2024, 238）。

数据与方法

用于检验模型意识形态评分结果的基准数据来源于：（1）宣言项目（CMP, Lehmann et al., 2024）；（2）教堂山专家调查项目结合Ray–Marks–Steenbergen数据集（CHES, Jolly et al., 2022; Ray, 1999）；（3）经标准化处理的欧洲真实选民调查（TEV, Schmitt, 2021）。

为捕捉 1979 至 2019 年每次欧洲议会选举时的欧洲政党格局，本研究构建了 9 个跨国政党子样本。为提升不同数据来源间的可比性，在每个子样本中，研究仅保留在受检验的欧洲议会选举前 4 年内参与过选举，且被相关渠道开展过意识形态测度的政党。

为测度特定参考年份中基于大语言模型的政党左右翼意识形态立场，本研究设计了三步分析法：（1）生成参考年份内所有可能的政党两两组合，不考虑政党所属国家；（2）让 GPT-3.5 判定每组两两组合中偏向右翼的政党；（3）将这些组合的判断数据代入Bradley–Terry模型，基于 GPT-3.5 的评估结果生成意识形态排名（下称 GPT-BTm），该排名中政党间的意识形态距离具备可解释性（Loewen, Rubenson, and Spirling, 2012）。两两比较法作为一种分类方法已被广泛应用（Hopkins and Noel, 2022），且在使用 GPT-3.5 开展研究时，该方法比直接排名法更具适用性（Wu et al., 2023）。

研究结果

本研究分析了基于大语言模型生成的政党左右翼意识形态评分（GPT-BTm），与宣言项目、教堂山专家调查、欧洲真实选民调查测度结果的相关性，相关结果见图1。在每个分析面板中，研究均报告了特定参考年份中 GPT-BTm 与各验证数据集的皮尔逊相关系数。结果显示，GPT-BTm 评分与专家评估结果的相关性极高（2009 年皮尔逊相关系数 ρ=0.78），与选民评估结果的相关性次之，与政党宣言分析结果的相关性则最低。皮尔逊相关系数随时间的变化并无显著差异，以教堂山专家调查为基准时这一特征尤为明显。对图1中呈现的地理异质性与语言异质性的进一步分析发现，GPT-BTm 评分与教堂山专家调查、欧洲真实选民调查结果的相关性保持稳定，而与宣言项目结果的相关性则存在地域差异：在南欧与斯拉夫语系国家，二者的相关性更低。

随后研究将关注点转向开源模型 Llama-3.1，发现其 70b 参数模型在分类任务中的表现优于 GPT-3.5，相关结果见图2。

讨论

已有研究证实，大语言模型能对美国的政治格局进行准确的分析与解读（Argyle et al., 2023），而多极化的欧洲政党体系则为该类研究带来了一系列全新的挑战。本文首次依托大语言模型完成了欧洲政党意识形态立场的跨国分类，研究结果进一步明确了 GPT-3.5 作为意识形态编码工具，在社会科学现有测度方法中的定位。同时研究揭示，人工智能对欧洲政党意识形态的测度结果，与专家和民众的判断更为贴近，而非政党宣言的文本分析结果。

抛开学界对基于专家评估与基于政党宣言的意识形态测度方法的利弊争论，本研究证实生成式人工智能的测度结果与专家评估结果高度契合，且这种契合度随时间保持稳定，这意味着人工智能可成为专家测度方法的有效替代方案，且具备更广的时空覆盖范围。总体而言，本研究验证了 GPT-3.5 作为零样本政治学习模型的能力（Wu et al., 2023），也为大语言模型有望推动计算社会科学研究流程升级的学界共识，提供了实证支撑（Ornstein et al., 2025）。

本研究结果具有探索性特征，同时也存在一定的局限性。大语言模型并非为零样本学习任务设计，其本质仍是一个概念上的 “黑箱”，事实上无法追踪深度神经网络做出决策的依据（Törnberg, 2024）。GPT-3.5 测度结果的质量必然依赖于海量的训练数据（Bender et al., 2021），因此学者若将该方法应用于信息稀缺或解读难度较大的研究场景，需注意大语言模型在这类场景中易产生 “幻觉” 的问题，即高置信度地生成不合理的答案（Bang et al., 2023; Törnberg, 2024）。研究者还需警惕大语言模型作为意识形态分类工具的局限性，本研究引出的两个核心问题仍需更深入的探讨：为何 GPT-3.5 在动态研究场景中捕捉意识形态的表现，与现有测度方法同样不尽如人意？为何部分开源大语言模型在零样本学习场景中的表现不佳？

此外，社会科学家对大语言模型的使用日益广泛，这一趋势本身可能降低人工智能的可靠性，引发自我污染风险，即现有评估结果本身成为后续研究的数据源（Aiyappa et al., 2023）。即便在零样本学习的研究语境中，研究者不会对算法产生直接影响，但大语言模型生成的评分结果，仍会纳入模型预训练所使用的海量人类文本中存在的间接偏见（Caliskan, Bryson, and Narayanan, 2017），这也带来了不容忽视的伦理问题。由此，GPT-3.5 所测度的 “意识形态”，更多反映的是政党声誉层面的立场，而非政策层面的立场，这与选民和专家对意识形态的感知方式相契合。而 GPT-3.5 与教堂山专家调查评分的高度相关性也表明，二者的测度结果可能受到相似的偏见影响。

结合上述讨论与学界现有的多种方法论选择，两个核心问题仍有待解答：为何要使用大语言模型对政党的政治立场进行评分？如何解读大语言模型生成的意识形态分类结果？本文认同 Ornstein et al., (2025, 19) 的观点，即 “尽管存在局限性，但 GPT-3 方法能以极低的成本，生成与人工编码结果高度相关的测度数据，这一发现具有重大的实践意义”。本文认为，学者可依托大语言模型准确捕捉政党的政治倾向，克服政党宣言分析的方法论缺陷、专家资源稀缺的现实问题，以及全国性民意调查的语境偏见。将大语言模型作为意识形态分类工具具备两大重要优势：其一，模型能实时生成政党意识形态排名，而非作为选举的滞后产物；其二，无论研究机构与职称层级如何，所有研究者都能以较低成本使用大语言模型。这两大优势，加之模型结果与专家分类结果的高度相关性，表明大语言模型可成为试点研究的理想工具，也适用于缺乏最新意识形态评分的研究场景。

原文信息

文献来源：Di Leo, R., Zeng, C., Dinas, E., & Tamtam, R. (2025). Mapping (a) ideology: A taxonomy of european parties using generative llms as zero-shot learners. Political Analysis, 33(4), 456-463.

论文推荐 · 目录

上一篇论文推荐｜科学传播中的因果叙事｜Dahlstrom, 2010｜Communication Research下一篇论文推荐｜立场检测：文本中政治信念分类的实用指南｜PSRM

阅读原文

阅读 1126

Llama-3.1 模型表现

图表补充