论文推荐 Vol. 16|立场检测:文本中政治信念分类的实用指南

PSRM

论文信息

概要

在政治学实证研究中,通过文本分析识别行为体的政治立场是一项核心任务,学者们常借助情感分析完成这一工作,却忽略了情感与立场的本质差异 —— 这一疏漏往往导致政治信念的测量偏差。宾夕法尼亚州立大学 Michael Burnham 于 2024 年发表在 Political Science Research and Methods 的最这项研究,精准界定了立场检测的核心概念,系统梳理了监督分类、自然语言推理、上下文学习三种立场检测范式,结合实操案例分析了不同方法的适用场景、资源权衡与验证技巧,并提供了配套的代码教程,为政治学领域的文本立场分析打造了一套可落地的实用框架。

该研究的核心贡献在于三点:一是明确区分了立场与情感的概念边界,纠正了将二者等同的研究误区;二是全面对比了三种立场检测方法的优劣与适配场景,为研究者的方法选择提供决策依据;三是通过实证复刻验证了零样本自然语言推理(NLI)模型在立场检测中的有效性,填补了政治学领域对该方法应用的研究空白。

立场与立场检测

过往研究的核心问题在于将立场检测与情感分析混为一谈,而该研究通过四个核心定义,清晰划分了二者的边界,并明确了立场检测的本质是文本蕴含分类(entailment classification),且高度依赖语境,这也是后续所有方法选择与实操的基础。

  1. 立场(Stance):个体对某一命题的回应方式,是态度、判断或承诺的体现,无关情感表达;

  2. 情感(Sentiment):文本的正面或负面情感效价,是表达立场的方式之一,而非立场本身;

  3. 文本蕴含(Textual entailment):读者通过文本内容,可推断某一假设大概率为真的定向关系;

  4. 立场检测(Stance detection):结合文本语境,推断作者对某一命题所持立场的过程,核心是判断文本是否蕴含特定立场倾向。

这一定义也带来了三个关键方法论启示:立场检测是典型的分类任务,需先明确研究命题(如 “是否支持特朗普”“是否认同新冠疫情防控政策”);立场是对特定命题的回应,研究者需界定文本与命题的相关性、以及立场的支持 / 反对判定标准;立场推断具有语境依赖性,文档本身或分类模型的语境缺失,会直接导致分类模糊甚至标注偏差。因此,立场检测的第一步,是通过合理设计控制语境的模糊性。

语境控制

过往研究的核心问题在于将立场检测与情感分析混为一谈,而该研究通过四个核心定义,清晰划分了二者的边界,并明确了立场检测的

语境是立场检测的核心变量,研究者可通过文档准备和模型选择两大步骤控制语境,核心是判断 “文档是否包含分类所需的必要语境”“能否为每个研究立场训练专属模型”,并据此平衡模型性能、计算效率与人工成本。

文档准备(Document preparation)

界定文档相关性:通过关键词匹配、主题分类、API 内容标签等方式,筛选与研究命题相关的文本,避免无关文本引入的噪声; 文本预处理:语言模型对文本的适配性无需传统的停用词移除、词干提取等操作,长文档建议进行分段 / 分句处理,既减少噪声,也能提升计算效率。

模型选择(Model selection)

研究给出了模型选择的核心决策流程:若文档未缺失分类必要语境,NLI 分类是低成本、高可复现性的默认选择;若语境缺失,需判断能否为每个立场准备 1000-2000 条平衡训练样本,若可以则选择监督分类,若不可行则考虑上下文学习分类。

三种方法的资源与性能权衡可总结为:监督分类需训练、人工成本高但可复现性强;NLI 分类零样本、成本低且可复现性高,是多数场景的最优解;上下文学习分类零样本但计算成本高、可复现性差,仅适用于小样本分析。

表2为三种立场检测方法的资源与性能对比表,详细列出了每种方法的人工成本、计算成本、可复现性、适用场景及核心优势,便于研究者快速对比选择。

语境控制的影响

作者将测试集中“歧义文本”定义为人工标注者存在冲突的样本。以是否出现“Trump”为相关性标准:提到Trump的文本中19%是歧义文本;未提到Trump的文本中34%是歧义文本。歧义比例的差异会直接影响分类性能。图2展示:当文本未提到Trump时,NLI分类器性能下降最明显;监督式与上下文学习能更好适应低语境。作者强调,这并非建议删除歧义文本,而是提示研究者应依据语料特征选择更能处理歧义的方法。

三种方法

监督分类(Supervised classifiers)

监督分类的核心是让模型从标注训练数据中学习立场模式,优势是能通过训练数据向模型传递外部语境知识,适配语境缺失的文档,也是政治学领域最成熟的立场检测方法。

  1. 模型选择:优先选择领域适配的语言模型(如政治推特适配的 PoliBERTweet、推特适配的 BERTweet),其性能显著优于词袋模型(逻辑回归、随机森林等);即使是无领域适配的语言模型,也比词袋模型表现更好;

  2. 训练数据:标注者需掌握分类所需的语境知识,避免因标注者认知偏差导致的训练数据噪声,若需众包标注,需为标注者提供示例与语境提示;

  3. 验证方式:可选择交叉验证(适用于小样本)或训练 - 验证 - 测试集划分(常见 70-15-15/60-20-20,适用于大样本),推荐以马修斯相关系数(MCC)作为核心性能指标,其鲁棒性优于 F1 值、ROC AUC。

表3展示了不同模型在监督分类中的性能对比,清晰呈现领域适配语言模型、无领域适配语言模型与词袋模型在MCC、F1值上的差异。

自然语言推理分类(NLI classifiers)

NLI 分类是预训练语言模型基于文本蕴含的零样本分类方法,无需专属训练,仅需将文本与研究命题的假设句配对,判断文本是否蕴含该假设,是研究最推荐的默认方法,核心优势是可扩展性强、可复现性高、计算成本低。

  1. 模型选择:目前最优模型为DeBERTaV3 Large,其性能接近人类标注水平,且能在消费级硬件上运行;模型性能与规模正相关,小模型难以达到监督分类的效果;

  2. 实操关键:假设句的设计与匹配是核心,需根据文本表述调整假设句(如文本称特朗普为 “总统”,则假设句需对应为 “作者支持总统”),可选择单假设句或多假设句模式,建议两种模式均尝试并验证;

  3. 验证方式:通过 5%-10% 的小样本人工标注即可评估性能;同时开展敏感性分析,用同义假设句重复分类,验证结果的稳定性;也可结合其他模型(如 GPT-4)进行交叉验证。

在评估模型时,首先需要考虑模型规模(model size)。如表4所示,只有在较大的模型中,其性能才会达到与监督式分类器相当的水平。未来通过领域适配(domain adaptation)或模型技术的进一步进展,可能会降低实现这一性能所需的模型规模。然而,在相同架构的模型之间进行比较时,模型规模越大通常与更好的性能表现呈正相关关系。

上下文学习分类(In-context classification)

上下文学习分类依托 GPT-4、Mistral 7B 等生成式大模型,通过自然语言提示词让模型完成立场分类,优势是能像监督分类一样处理低语境文档,且零样本适配多任务,但可复现性差、计算成本高,暂不适用于大规模文本分析。

  1. 模型选择:权衡性能、成本与可复现性,GPT-4 性能最优但为专有模型、成本高;Mistral 7B 为开源模型、可复现但性能稍弱;GPT-3.5 则是性价比之选;

  2. 实操关键:做好提示词工程(明确系统消息与用户消息,少用少样本学习避免过拟合)和解码策略(温度设为 0 保证结果确定,并约束模型合规输出);

  3. 适用场景:暂不建议作为主分类方法,可用于小样本标注、扩充监督分类的训练数据、或与其他方法交叉验证。

表5为不同大模型在上下文学习分类中的性能对比,包含GPT-4、Mistral 7B、GPT-3.5的准确率、计算成本及可复现性评分,助力模型选择。

研究复刻:NLI 分类的有效性验证

为验证零样本 NLI 分类在立场检测中的实际效果,研究复刻了 Block et al. (2022) 的新冠疫情威胁最小化立场检测研究 —— 原研究采用监督分类器标注推文立场,研究则使用 DeBERTaV3 NLI 模型进行零样本分类,对比二者结果。

结果显示,NLI 分类的性能与原研究的监督分类器相当;且在回归分析中,NLI 分类识别的意识形态效应、死亡数的调节效应,与原研究结果高度一致;在威胁最小化推文的作者意识形态分布上,二者也完全重合。

这一复刻结果证实,在文档语境充足的情况下,零样本 NLI 分类能达到与监督分类相当的效果,且无需投入大量人工进行训练数据标注,大幅降低了研究成本。

讨论

本文给出立场检测的精确定义与通用框架:立场检测是蕴含分类,用于判断文本如何回应一个命题。在明确立场命题后,目前有三条分类路径:监督式分类、NLI分类与上下文学习分类。研究者面临两项核心考量:第一,准确分类需要哪些信息(语境);第二,如何在资源、算力与人力之间权衡。当文本自带信息足以支持准确分类时,NLI分类器可达到与监督分类器相当的表现,并免去训练成本;当需要文本之外语境时,监督与上下文学习更合适。作者指出未来方向:一个有潜力的研究方向是让NLI模型更好理解政治文本。当前NLI进展主要来自计算机科学,训练数据未必面向立场检测政治语境;缺乏专门的立场NLI数据集与基准。面向政治传播的NLI数据与预训练模型或可实现更可靠、算力更友好的零样本分类。最后,立场检测也可超越三分类,进一步刻画立场强度(intensity);或许可结合情绪测量,但仍需更多研究。

数据与代码

该研究相关的代码实现教程可在 GitHub 上获取:github.com/MLBurnham/stance_detection_tutorials。

原文信息

文献来源:Burnham, M. (2025). Stance detection: a practical guide to classifying political beliefs in text. Political Science Research and Methods, 13(3), 611-628.

图表补充

图 1
代码 1
图 2
图 3
图 4
表 2
表 3
表 4
表 5