论文推荐 Vol. 18｜在线评论中不文明行为的时间模式

New Media & Society

摘要

在线评论区中的不文明现象普遍存在，并具有重要的社会影响，包括损害心理健康和加剧极化。本研究考察评论速度与不文明之间的关系，使用的数据来自《卫报》在线平台上的3800万条评论。我们提出两项假设：回应越快，越可能是不文明的；同时，不文明会通过一种传染效应而扩散。研究分析表明，作为不文明代理指标的被屏蔽评论，无论是在父评论还是子评论中，其发布时间都显著快于可见评论。此外，我们还发现，被屏蔽评论的出现会提高后续被屏蔽评论出现的可能性，而且它们之间的时间间隔会不断缩短。这些发现表明，不文明与冲动性的快速思维有关，而文明讨论有时则需要更慢、更具审慎性的实践。我们的结果对于在线平台设计具有启示意义：平台可以通过鼓励读者在发表评论前保留一定的审议时间，来促进更健康、更富有成效的讨论。

在线传播中的不文明行为

大量学术文献将在线不文明理论化为两种基本类型。这一区分的基础如下。其一，是严重的传播越轨，会危及民主原则。这可能是因为它们针对的是种族、性别或其他受保护特征；也可能是因为它们本身构成对用户身体或心理上的威胁；或者，它们通过以某位用户是否说过/做过某事为条件，对其构成威胁。相较而言，另一类则是较不严重的传播越轨，例如侮辱、尖刻批评、贬低性表述等等。尽管这类行为粗鲁且令人厌烦，但它们并不以牺牲民主价值为代价。

Papacharissi（2004）将前一种类型称为“incivility”，而将后一种类型称为“impoliteness”。Oz et al.（2018）沿用了这一区分。本文遵循 Papacharissi（2004），承认不文明与不礼貌之间存在根本区分，并将我们的经验研究聚焦于其所界定的前者。这样做有两个出于经验研究考虑的原因。第一，正如下文在数据分析部分将进一步说明的那样，本文所研究的社群——《卫报》在线平台——所采用的社群标准，与 Papacharissi（2004）的区分大体一致：它允许用户表现出不礼貌行为，如咒骂，但会移除不文明行为，如仇恨言论和威胁性行为。第二，采用一种与研究对象可行操作化形式紧密对齐的理论定义同样重要；在本文中，这一操作化形式即为《卫报》版主依据其社群标准移除的评论。这样做使我们能够利用一个来自真实世界的大规模不文明分类数据集。

思考：快与慢

Kahneman（2011）提出，人类心理的许多方面——包括判断与决策——都会受到更为本能的或更为审慎的认知加工影响，这也就是他如今广为人知的系统-1（本能的；快思考）与系统-2（审慎的；慢思考）之分。Kahneman（2011: 19–20）给出了两个经典例子：对人脸上强烈情绪化表情的反应（系统-1），以及求解一道复杂的数学题（系统-2）。 Kahneman 强调，这两个系统彼此相互依赖，人的注意力与努力会在二者之间进行分配；系统1往往处于主导地位，但一旦遇到问题，就会将控制权交给系统-2。例如（Kahneman, 2011: 22），当一个人听到一句响亮且具有冒犯性的评论时，可能会本能地将注意力转向它（系统-1），但也正因为它具有冒犯性，而进一步压制这一冲动（系统-2）。同样，当系统2高度投入某项任务时，由于它对注意力的要求较高，系统-1也就难以持续发挥作用。比如，当一个人在与朋友进行日常交谈的同时观看一场重要的体育比赛时，如果后者出现关键时刻（例如进球），前者的对话很可能会暂停。

慢思考并不必然意味着需要更多“绝对时间”；这里可以借用牛顿意义上的“绝对时间”概念来理解。然而，慢思考更加费力、对注意力要求更高，也更具审慎性，因此通常确实会涉及更多绝对时间。反过来也是如此：快思考并不必然意味着占用更少的绝对时间，尽管通常确实如此，因为系统1式判断往往更自动化，也更接近本能反应。

概括而言，就本文所关心的问题来说，Kahneman（2011）的这一划分表明，富有成效的讨论所包含的许多要素——包括保持文明（pp. 24–25）——都是有成本的。这里的成本，具体来说，就是人类的努力；它们会造成心理负担，需要人有意识地主动加以思考，而这正是系统2思维的标志。这与人类常常更倾向于采取更本能、初看之下更容易、也即对自身而言“最省力”的行动方式形成对照。例如，在争论中因受到挑战、或面对自己不喜欢的观点而放任挫败感，从而作出不文明回应；又或者夸大他人的论点，以便将其轻易驳回，而不是认真思考这些观点可能具有的合理性。这些行为都体现了系统1思维的特征。需要指出的是，尽管双重加工理论影响深远，但自 Kahneman（2011）以来，这类理论也经历了进一步的发展，并受到过批判性审视（例如 Grayot, 2020）。批评者往往主张，相较于严格的二元划分，更应采用一种光谱式的认知加工模型（例如 Melnikoff and Bargh, 2018）。与此同时，认知科学的发展也已将双重加工的区分整合进更广泛的理论框架之中，例如预测编码（predictive coding）与主动推断（active inference）模型（Tschantz et al., 2023）。不过，无论具体采取何种理论立场，人们普遍都承认：有些认知过程更快、更自动化，而另一些则更慢、更具审慎性。Kahneman（2011）的工作对于说明这一区别仍然非常有帮助。

综合来看，我们的假设基于如下预期：不文明行为往往发生得很快，也更带有冲动性，几乎没有反思或情绪控制。尽管所有用户都会处于某些使这种行为更容易发生的情境之中，但具有特定人格特征的用户更容易表现出此类行为。

就传播可能受到的影响而言，已有充分认识表明，当交流双方处于情绪上不那么有利的状态时进行沟通，后续传播出现负面结果的可能性就会增加（Wood, 2014）。此外，在这样的数字传播景观中，“没有时间进行反思、沉思、缓慢的理性审议和深思熟虑的回答”（Kitchin and Fraser, 2020: 40）。当传播又受到自动化机制（例如算法）的辅助时，问题还会进一步放大，因为这类自动化实践通常是基于规则的、去语境化的，因此会进一步压制反思、审议与共同体讨论的可能性（Kitchin and Fraser, 2020: 40–41）。将上述这些表面上看似彼此分离的研究脉络放在一起，我们预测，在新闻读者评论论坛这类异步数字情境中，较长的绝对时间几乎是实现真正建设性讨论的必要条件。若缺乏这一条件，出现较少建设性的评论贡献的风险就会显著增加。其中的一类评论，就是不文明评论；而这类评论按照定义会损害社会交往中对话的审议品质。因此：

假设1：在读者评论中，不文明传播更可能出现在对其所回应之来源作出回应后的较短时间内；反过来说，来源与回复之间的时间间隔越长，读者评论中出现不文明传播的可能性就越低。

为相关的另一个方面，若干研究认为，诸如不文明之类的越轨传播具有一种自我延续的特征（Foulk et al., 2016; Kim and Park, 2019; Park and Martinez, 2022; Rosen et al., 2016）。具体而言，初始的越轨传播往往会引来更多同类回应，从而提高其中所涉及的利害、情绪以及冲动性。Ekman（2003）认为，这是愤怒这种情绪的一个典型特征（p. 111）。这种模式已经在多种用户生成的数字体裁中被观察到，包括新闻读者评论论坛（例如 Gervais, 2015; Masullo Chen and Lu, 2017）。以后者那项研究为例，作者围绕堕胎议题的读者评论开展了一项实验，发现不文明的分歧——而非文明的分歧——会导致参与者在回应时表现出不文明行为。因此，我们进一步提出如下假设，并特别指出时间性在这种传染过程中发挥作用（例如，在不文明帖子中，回应时间可能会变得越来越短）：

假设2：不文明传播会提高进一步出现不文明传播的可能性。

数据和方法

数据

本文使用的是《卫报》网站上的在线新闻读者评论数据。在政治立场上，《卫报》通常被视为偏左媒体；在二战后的英国大选中，它仅在 1951 年和 1955 年两次没有支持中间派或中左政党（The Guardian, 2010）。2018 年 Ipsos-MORI 针对数字新闻平台可信度的调查中，《卫报》被评为内容最可靠的平台。其网站上线于 1999 年 1 月，并于 2006 年 3 月开始允许读者在文章网页版下评论，这一功能被命名为 “Comment is Free”（The Guardian, 2006）。到 2016 年 4 月，《卫报》网站累计收到约 7000 万条评论（Mansfield, 2016）。

为检验本文假设，本文通过《卫报》API 下载了 2006 年 3 月 1 日至 2024 年 3 月 18 日期间，主页 Opinion 板块全部文章下的所有读者评论。《卫报》为研究者提供了 API key。最终得到的语料库包含约 3800 万条评论、24 亿词。除评论文本外，数据还包括评论时间戳、发帖用户名、评论获赞信息，以及评论线程结构信息。

《卫报》自 2009 年起对评论引入了发布时限，因此作者排除了发布时间超过文章发布后一周的评论，并删除了数据中的其他异常值。2012 年，《卫报》开始支持单层嵌套评论，因此数据中同时包含两类嵌套评论：一类是直接回复文章的评论，即 parent comments；另一类是回复评论的评论，即 child comments。2012 年之前，评论区不支持对特定评论进行回复，因此那一时期的评论是“扁平的”（flat）。基于这一平台结构变化，作者将分析对象分为三类：flat comments、parent comments 和 child comments。

将版主屏蔽评论作为不文明的代理指标

在该数据集中，共有 1,007,313 条评论被《卫报》版主删除。《卫报》的评论政策规定，只有包含以下内容的评论才会被移除：仇恨言论（如种族主义、性别歧视、恐同）、垃圾信息、聊天机器人生成内容、离题评论、人身攻击、挑衅（trolling）和威胁行为。作者认为，这一操作化方式与本文采用的 Papacharissi（2004）式“不文明”定义基本一致，因为除个别情况外，这些类型大多属于不文明传播。

不过，作者也特别说明，这种操作化并不等于文献意义上的全部“不文明”。也就是说，《卫报》的审核标准没有覆盖文献中所有被视为不文明的传播行为。相反，一些亵渎、咒骂或难以明确归类的侮辱性表达，按照 Papacharissi（2004）的区分，更接近“不礼貌”（impoliteness）而非“不文明”（incivility），因此往往会被保留在网站上，因为它们并未明确违反《卫报》的社区规范。例如，《卫报》明确表示，一般不会仅仅因为评论中带有脏话就删除该评论，只要这种表达属于争论过程中的“言语交锋”。

作者同时指出，垃圾信息和机器人活动可能构成一个例外，因为它们未必属于本文理论意义上的“不文明”，却仍可能被版主删除，从而对分析造成混淆。因此，研究进行了额外检查来控制潜在的干扰因素。具体做法有两步：第一，根据每个用户“可见评论所占比例”对用户进行过滤；第二，根据每个用户全部评论获得的推荐总数进行过滤。其逻辑是：如果一个用户有较高比例的可见评论，和/或获得了较多推荐，那么其更可能是信誉较高的真实用户，而不太可能是机器人、垃圾信息账户或商业账号。这些过滤只用于若干专门检验机器人、垃圾或商业活动影响的子分析；其他分析中则不做过滤。

时间的操作化

为系统分析“时间”，作者区分了 parent comments 与 child comments。对于 parent comments，响应时间的计算方式是：将待分析评论的发布时间，与该评论所在文章在《卫报》网站上的发布时间相比较。对于 child comments，响应时间的计算方式则是：将该 child comment 的发布时间，与其所回复的 parent comment 的发布时间相比较。

在时间处理上还存在少量异常情况。第一，有些文章的发布时间晚于第一条评论发布时间，这通常反映的是文章后续更新时间，而非最初发布时间。在这种情况下，作者以第一条评论的时间作为文章发布时间的代理值。第二，在嵌套评论中，有 10 个案例出现 child comment 时间略早于 parent comment 的情况，其中 1 条为被屏蔽评论。由于这些异常既无法解释，也难以修正，因此被直接剔除。

不文明「传染」的测量

为计算不文明传播的“传染效应”，作者将分析限制在每个线程中前 9 条被屏蔽评论。这样做的原因是：如果进一步纳入更多被屏蔽评论，那么每一个步骤对应的线程数都会少于 100 个，数据会变得过于嘈杂。具体来说，只有 62 个评论线程包含 10 到 29 条被屏蔽评论。

在具体测量上，作者计算的是：在已知某线程中至少已有 n−1 条评论被屏蔽的条件下，该线程中至少有 n 条评论被屏蔽的条件概率。随后，作者再分析第 n 条被屏蔽评论相对于第 n−1 条被屏蔽评论之间的中位时间间隔，例如第 9 条与第 8 条、第 8 条与第 7 条之间的时间差。对于第一条被屏蔽评论，则将其发布时间与 parent comment 的发布时间相比较。

这一分析仅限于 child comments，因为对于 flat comments 和 parent comments 而言，后续评论之间是否存在直接对应关系并不明确；评论区中可能同时进行着多个对话线程，这一点可参见 Marcoccia（2004）关于 polylogues 的讨论。

统计方法

由于数据分布特点，作者在全文分析中均采用非参数统计检验。两组比较使用 Mann–Whitney 检验，并以 rank biserial correlations 估计效应量，对应 Figure 1(a)、(e)、(i)。三组比较使用 Kruskal–Wallis 检验，并在事后进行 Dunn 检验，对应 Figure 2(a)、(c)、(e)。个体正负差异比较使用 Wilcoxon signed-rank test，对应 Figure 2(b)、(d)、(f)。对于不文明传染分析，作者使用 Spearman rank correlation 检验中位时间是否随 n 增加而递减，对应 Figure 3(c)。对于密度差异的 bootstrap 分析（Figure 1(b)、(f)、(g)），作者在保持组大小不变的前提下，将评论所属组别（被屏蔽组 vs 可见组）随机置换 1000 次。为在多重比较条件下构建置信区间，作者在每次置换中分别记录密度差异的最大值和最小值，再分别取其 97.5 百分位和 2.5 百分位作为区间界限。

结果

被屏蔽评论比可见评论发布得更快（H1）

第一部分比较的是两类评论本身的发布时间差异：被屏蔽评论 versus 可见评论。作者发现，在三种评论类型中，被屏蔽评论的发布时间都显著更早，说明不文明评论总体上更倾向于在更短时间内发出。

对于子评论（child comments），被屏蔽评论的中位响应时间为47分15秒（N = 358,385），可见评论为59分52秒（N = 21,760,130），差异显著（p < .001），效应量为rrb = 0.083，属于小到中等效应。密度差异进一步显示，在父评论发出后的2至24分钟内，被屏蔽评论显著更容易出现。对于父级评论（parent comments），这一差异更大：被屏蔽评论的中位时间为176分58秒，可见评论为229分37秒，差异同样显著（p < .001），效应量rrb = 0.129。在文章发布后的5至118分钟内，被屏蔽评论的出现倾向显著更高。对于扁平评论（flat comments），模式同样成立：被屏蔽评论中位时间为340分15秒，可见评论为521分9秒，差异显著（p < .001），效应量rrb = 0.123。在4至52分钟之间也观察到了显著的密度差异。

这一部分的核心结论是：从总体分布上看，被屏蔽评论确实比可见评论发得更快，因此支持假设1。

同一用户的被屏蔽评论，也比他自己的可见评论更快（H1）

第二部分仍然是在检验假设1，但问题更进一步。作者要回答的是：第一部分的结果，会不会只是因为“有一类用户本来就回复更快，而且他们也更容易发表被屏蔽评论”？如果是这样，那么第一部分观察到的差异，可能只是“用户类型差异”，而不是“不文明状态本身更快”。

所以，第二部分把分析单位从“评论之间的总体比较”，推进到“用户内部比较”。作者先把可见评论分成两类：一类来自“至少有过一条被屏蔽评论的用户”，另一类来自“从未有过被屏蔽评论的用户”。结果发现，没有被屏蔽记录的用户整体上确实更慢，但这并不能解释全部差异。

更关键的是，作者进一步只看那些“至少有一条被屏蔽评论”的用户，比较他们自己的被屏蔽评论和自己的可见评论。结果显示：在子评论中，73.2%的这类用户，其被屏蔽评论比自己的可见评论发得更快；差异显著（Wilcoxon W = 5.37 × 10^8, p < .001）。在父级评论中，70.6%的用户呈现同样模式。在扁平评论中，65.6%的用户也是如此。也就是说，即便在同一个用户身上，较快发出的评论也更可能成为被屏蔽评论。这说明第一部分的结果并不只是“某些用户天生回得快”，而更像是在某种情绪或互动状态下，用户更容易快速做出不文明回应。

这一部分的核心结论是：被屏蔽评论更快，不只是不同用户群体之间的差异，而是同一用户内部也存在的现象，因此进一步加强了对假设1的支持。

不文明具有传染性，而且会越来越快（H2）

作者发现，当一个父评论下面已经出现至少一条被屏蔽子评论时，后续再出现更多被屏蔽子评论的概率会上升。具体而言：如果一个父评论有子评论，那么至少出现一条被屏蔽子评论的概率是5.00%。但一旦已经有至少一条被屏蔽子评论，出现至少两条被屏蔽子评论的概率就上升到13.66%。随着被屏蔽评论数增加，这个概率继续上升。当一个线程中被屏蔽评论超过6条时，继续出现更多被屏蔽评论的概率已经接近50%（49.92%）；而在到达作者设定的截断点9条之前，这一概率一直保持在50%以上。

不仅如此，连续出现的不文明评论之间，时间间隔也会缩短。作者不是再看“相对父评论的时间”，而是看“第n条被屏蔽评论相对于第n−1条被屏蔽评论的时间差”。结果显示，这一时间差随着评论链推进而显著缩短（Spearman ρ = −0.85, p = .004）。因此，作者认为，不文明不仅会带来更多不文明，而且会带来更快的不文明。换言之，不文明行为会带来更多、更快的不文明行为。假设2得到支持。

原文信息

文献来源：Clarke, B., & Thompson, W. H. (2025). Fast and furious: Temporal patterns of incivility in online comments. New Media & Society, 14614448251359624.