论文推荐 Vol. 16｜立场检测：文本中政治信念分类的实用指南

PSRM

概要

在政治学实证研究中，通过文本分析识别行为体的政治立场是一项核心任务，学者们常借助情感分析完成这一工作，却忽略了情感与立场的本质差异 —— 这一疏漏往往导致政治信念的测量偏差。宾夕法尼亚州立大学 Michael Burnham 于 2024 年发表在 Political Science Research and Methods 的最这项研究，精准界定了立场检测的核心概念，系统梳理了监督分类、自然语言推理、上下文学习三种立场检测范式，结合实操案例分析了不同方法的适用场景、资源权衡与验证技巧，并提供了配套的代码教程，为政治学领域的文本立场分析打造了一套可落地的实用框架。

该研究的核心贡献在于三点：一是明确区分了立场与情感的概念边界，纠正了将二者等同的研究误区；二是全面对比了三种立场检测方法的优劣与适配场景，为研究者的方法选择提供决策依据；三是通过实证复刻验证了零样本自然语言推理（NLI）模型在立场检测中的有效性，填补了政治学领域对该方法应用的研究空白。

立场与立场检测

过往研究的核心问题在于将立场检测与情感分析混为一谈，而该研究通过四个核心定义，清晰划分了二者的边界，并明确了立场检测的本质是文本蕴含分类（entailment classification），且高度依赖语境，这也是后续所有方法选择与实操的基础。

立场（Stance）：个体对某一命题的回应方式，是态度、判断或承诺的体现，无关情感表达；
情感（Sentiment）：文本的正面或负面情感效价，是表达立场的方式之一，而非立场本身；
文本蕴含（Textual entailment）：读者通过文本内容，可推断某一假设大概率为真的定向关系；
立场检测（Stance detection）：结合文本语境，推断作者对某一命题所持立场的过程，核心是判断文本是否蕴含特定立场倾向。

这一定义也带来了三个关键方法论启示：立场检测是典型的分类任务，需先明确研究命题（如 “是否支持特朗普”“是否认同新冠疫情防控政策”）；立场是对特定命题的回应，研究者需界定文本与命题的相关性、以及立场的支持 / 反对判定标准；立场推断具有语境依赖性，文档本身或分类模型的语境缺失，会直接导致分类模糊甚至标注偏差。因此，立场检测的第一步，是通过合理设计控制语境的模糊性。

语境控制

过往研究的核心问题在于将立场检测与情感分析混为一谈，而该研究通过四个核心定义，清晰划分了二者的边界，并明确了立场检测的

语境是立场检测的核心变量，研究者可通过文档准备和模型选择两大步骤控制语境，核心是判断 “文档是否包含分类所需的必要语境”“能否为每个研究立场训练专属模型”，并据此平衡模型性能、计算效率与人工成本。

文档准备（Document preparation）

界定文档相关性：通过关键词匹配、主题分类、API 内容标签等方式，筛选与研究命题相关的文本，避免无关文本引入的噪声；文本预处理：语言模型对文本的适配性无需传统的停用词移除、词干提取等操作，长文档建议进行分段 / 分句处理，既减少噪声，也能提升计算效率。

模型选择（Model selection）

研究给出了模型选择的核心决策流程：若文档未缺失分类必要语境，NLI 分类是低成本、高可复现性的默认选择；若语境缺失，需判断能否为每个立场准备 1000-2000 条平衡训练样本，若可以则选择监督分类，若不可行则考虑上下文学习分类。

三种方法的资源与性能权衡可总结为：监督分类需训练、人工成本高但可复现性强；NLI 分类零样本、成本低且可复现性高，是多数场景的最优解；上下文学习分类零样本但计算成本高、可复现性差，仅适用于小样本分析。

表2为三种立场检测方法的资源与性能对比表，详细列出了每种方法的人工成本、计算成本、可复现性、适用场景及核心优势，便于研究者快速对比选择。

语境控制的影响

作者将测试集中“歧义文本”定义为人工标注者存在冲突的样本。以是否出现“Trump”为相关性标准：提到Trump的文本中19%是歧义文本；未提到Trump的文本中34%是歧义文本。歧义比例的差异会直接影响分类性能。图2展示：当文本未提到Trump时，NLI分类器性能下降最明显；监督式与上下文学习能更好适应低语境。作者强调，这并非建议删除歧义文本，而是提示研究者应依据语料特征选择更能处理歧义的方法。

三种方法

监督分类（Supervised classifiers）

监督分类的核心是让模型从标注训练数据中学习立场模式，优势是能通过训练数据向模型传递外部语境知识，适配语境缺失的文档，也是政治学领域最成熟的立场检测方法。

模型选择：优先选择领域适配的语言模型（如政治推特适配的 PoliBERTweet、推特适配的 BERTweet），其性能显著优于词袋模型（逻辑回归、随机森林等）；即使是无领域适配的语言模型，也比词袋模型表现更好；
训练数据：标注者需掌握分类所需的语境知识，避免因标注者认知偏差导致的训练数据噪声，若需众包标注，需为标注者提供示例与语境提示；
验证方式：可选择交叉验证（适用于小样本）或训练 - 验证 - 测试集划分（常见 70-15-15/60-20-20，适用于大样本），推荐以马修斯相关系数（MCC）作为核心性能指标，其鲁棒性优于 F1 值、ROC AUC。

表3展示了不同模型在监督分类中的性能对比，清晰呈现领域适配语言模型、无领域适配语言模型与词袋模型在MCC、F1值上的差异。

自然语言推理分类（NLI classifiers）

NLI 分类是预训练语言模型基于文本蕴含的零样本分类方法，无需专属训练，仅需将文本与研究命题的假设句配对，判断文本是否蕴含该假设，是研究最推荐的默认方法，核心优势是可扩展性强、可复现性高、计算成本低。

模型选择：目前最优模型为DeBERTaV3 Large，其性能接近人类标注水平，且能在消费级硬件上运行；模型性能与规模正相关，小模型难以达到监督分类的效果；
实操关键：假设句的设计与匹配是核心，需根据文本表述调整假设句（如文本称特朗普为 “总统”，则假设句需对应为 “作者支持总统”），可选择单假设句或多假设句模式，建议两种模式均尝试并验证；
验证方式：通过 5%-10% 的小样本人工标注即可评估性能；同时开展敏感性分析，用同义假设句重复分类，验证结果的稳定性；也可结合其他模型（如 GPT-4）进行交叉验证。

在评估模型时，首先需要考虑模型规模（model size）。如表4所示，只有在较大的模型中，其性能才会达到与监督式分类器相当的水平。未来通过领域适配（domain adaptation）或模型技术的进一步进展，可能会降低实现这一性能所需的模型规模。然而，在相同架构的模型之间进行比较时，模型规模越大通常与更好的性能表现呈正相关关系。

上下文学习分类（In-context classification）

上下文学习分类依托 GPT-4、Mistral 7B 等生成式大模型，通过自然语言提示词让模型完成立场分类，优势是能像监督分类一样处理低语境文档，且零样本适配多任务，但可复现性差、计算成本高，暂不适用于大规模文本分析。

模型选择：权衡性能、成本与可复现性，GPT-4 性能最优但为专有模型、成本高；Mistral 7B 为开源模型、可复现但性能稍弱；GPT-3.5 则是性价比之选；
实操关键：做好提示词工程（明确系统消息与用户消息，少用少样本学习避免过拟合）和解码策略（温度设为 0 保证结果确定，并约束模型合规输出）；
适用场景：暂不建议作为主分类方法，可用于小样本标注、扩充监督分类的训练数据、或与其他方法交叉验证。

表5为不同大模型在上下文学习分类中的性能对比，包含GPT-4、Mistral 7B、GPT-3.5的准确率、计算成本及可复现性评分，助力模型选择。

研究复刻：NLI 分类的有效性验证

为验证零样本 NLI 分类在立场检测中的实际效果，研究复刻了 Block et al. (2022) 的新冠疫情威胁最小化立场检测研究 —— 原研究采用监督分类器标注推文立场，研究则使用 DeBERTaV3 NLI 模型进行零样本分类，对比二者结果。

结果显示，NLI 分类的性能与原研究的监督分类器相当；且在回归分析中，NLI 分类识别的意识形态效应、死亡数的调节效应，与原研究结果高度一致；在威胁最小化推文的作者意识形态分布上，二者也完全重合。

这一复刻结果证实，在文档语境充足的情况下，零样本 NLI 分类能达到与监督分类相当的效果，且无需投入大量人工进行训练数据标注，大幅降低了研究成本。

讨论

本文给出立场检测的精确定义与通用框架：立场检测是蕴含分类，用于判断文本如何回应一个命题。在明确立场命题后，目前有三条分类路径：监督式分类、NLI分类与上下文学习分类。研究者面临两项核心考量：第一，准确分类需要哪些信息（语境）；第二，如何在资源、算力与人力之间权衡。当文本自带信息足以支持准确分类时，NLI分类器可达到与监督分类器相当的表现，并免去训练成本；当需要文本之外语境时，监督与上下文学习更合适。作者指出未来方向：一个有潜力的研究方向是让NLI模型更好理解政治文本。当前NLI进展主要来自计算机科学，训练数据未必面向立场检测政治语境；缺乏专门的立场NLI数据集与基准。面向政治传播的NLI数据与预训练模型或可实现更可靠、算力更友好的零样本分类。最后，立场检测也可超越三分类，进一步刻画立场强度（intensity）；或许可结合情绪测量，但仍需更多研究。

数据与代码

该研究相关的代码实现教程可在 GitHub 上获取：github.com/MLBurnham/stance_detection_tutorials。

原文信息

文献来源：Burnham, M. (2025). Stance detection: a practical guide to classifying political beliefs in text. Political Science Research and Methods, 13(3), 611-628.

图表补充