Durrheim & Schuld, 2025 | Political Psychology
当人们在社交媒体上分享信息和交流时,他们通过优先连接志同道合的人和他们已经支持的观点,创造了「回声室」。大量研究利用人们之间的互动关系——通过转发和关注建立——来识别和研究社交网络中的极化现象。其中一些研究随后使用语言分析来描述网络中子社区的观点和关注点。但是,很少有研究独立于互动网络结构来识别话语中的极化;也缺少对两种极化——基于互动网络的极化和基于话语(观点分布)的极化的关系的讨论。
我们使用机器学习创建了「发言者景观」(speaker landscapes),能够独立于用户通过转发建立的社交网络,识别用户语言中的极化。通过在推文前加上用户名来创建「用户嵌入」,然后训练一个word2vec算法,根据用户在推文中使用的语言来衡量用户之间的相似性。我们计算说话者在词嵌入的高维向量空间中彼此的接近(或远离)程度,并创建简化的二维地图(称之为发言者景观),以显示社交媒体用户在辩论中的位置,基于他们表达的意见内容。
尽管语言在极化动态中居于核心地位,但社交媒体研究的「主要特征」一直是依赖于「底层图的结构特征…[而不是]基于观点,或观点形成模型」 (Matakos et al., 2017, p. 1483)。最近的研究 (Iandoli et al., 2021; Mahmoudi et al., 2024; Tölle& Trier, 2023) 通过与已知观点来源和标签的链接等,识别了「保守派」或「自由派」,或「支持疫苗者」或「反疫苗者」等社区,或使用社区检测算法识别友邻和转发网络中紧密连接的群集。社交媒体上的极化仍主要通过用户在互动网络中行为的聚类和分离来测量和可视化,而非通过他们所说内容。
最近的研究结合了网络分析和语言分析。一些研究先识别社交网络中的社区,然后进行语言分析,以展示这些社区如何聚焦不同的话题和关注点,如何以不同方式构建问题,以及在情感上的差异 (例如,Alamsyah et al., 2024; Demszky et al., 2019; Falkenberg et al., 2022; Karjus & Cuskley, 2024; KhudaBukhsh et al., 2021; Kutlu et al., 2019; Ojea Quintanaet al., 2022; Sarmiento et al., 2022; Villa-Cox et al., 2021),以及随时间的变化 (Kopacheva & Yantseva, 2022)。 另外有研究表明,群体内的互动表达的情感比群体间的互动更为积极 (Feldman et al., 2023; Yarchi et al., 2021),尤其是在极化的语境中 (Garzón‐Velandia et al., 2024)。
另一种结合网络和语言分析的方法是首先识别语言社区(例如,通过主题分析),然后研究这些社区成员如何相互互动。这项研究表明,同一语言社区的个体在社交网络中彼此更接近,更有可能转发、提及或关注彼此 (Mønsted & Lehmann, 2022)。语言相似性对互动选择的影响在不同社区中有所不同,例如,Jiang 等人 (2020) 研究的「右翼」COVID‐19 Twitter 社区「几乎完全由同样右翼的用户转发」。
综上所述,这些工作表明网络和语言中极化的估计在很大程度上是一致的。不同意见社区的个体倾向于与同一社区内的其他人互动,反映了「认知回声室」的存在 (Mønsted & Lehmann, 2022)。解释性和情感性极化的水平往往与互动网络中用户之间的距离相关 (Feldman et al., 2023; Mønsted& Lehmann, 2022),反映了内群体偏好的模式。然而,也有证据表明社交媒体用户会与自己社区之外的用户和信息互动 (Barberá et al., 2015; Kopacheva & Yantseva, 2022, p. 23),这表明互动网络中个体之间的距离可能与语言差异并不强相关。
很少有研究考察网络极化和语言极化如何随时间共同变化。一个显著的例外是 Rumshisky 等人 (2017) 的研究,该研究考察了 RWC 网络极化度量如何与俄语在线媒体中关于乌克兰的两个对立阵营之间的语言极化共同变化。在 2013 年 10 月至 2014 年 12 月的 15 个月期间,网络极化的 RWC 得分与对立群体之间的情感差异相关 (r = .67),这表明随着冲突加剧,网络变得更加分离,彼此之间的情感更加负面。
所有这些工作的一个核心局限是缺乏独立于网络社区成员身份的方法来衡量社交媒体用户之间的意见分布。在社交媒体极化研究中,互动的网络结构得到了很好的定义,但 「基本真实观点(例如,通过对个人的调查)并不为人所知」(Falkenberg 等人,2022 年,第 9 页)。在本文中,我们使用词嵌入来计算 Twitter 用户谈论疫苗的方式之间的高维差异,从而提供一个基本真实的意见衡量标准。然后,我们确定:(1) 社交媒体用户之间的语言相似性是否与他们在转发网络中的亲密程度相关;(2) 转发网络中社区之间的距离和语言结构是否会因极化事件而发生相同的变化。
我们重新分析了 Ojea Quintana et al. (2022) 的数据,以比较他们的转发网络与我们的发言者景观。数据包括 130 万条原创的疫苗相关推文和 1800 万条转发。数据采集时间为 2019 年 12 月 27 日至 2020 年 5 月 26 日,形成了两个 75 天的时间段,即世界卫生组织于 2020 年 3 月 11 日宣布 COVID‐19 大流行前后。
Ojea Quintana et al. (2022) 制作了一个加权有向网络,包含无评论转发,排除了自我转发。每个用户是网络中的一个节点,通过联系与其他节点相连指示用户在网络中转发其他用户的次数。
Ojea Quintana 等人 (2022) 使用 Gephi 的 Louvain 模块度最大化实现来识别包含 ≈ 80% 节点和 ≈ 90% 转发的五个主要集群。基于对推文内容、标签和有影响力作者的定性分析,这些社区被标记为以下类别(括号内为主要代表节点):民主党人 (JoeBiden, KamalaHarris),共和党人(realDonaldTrump, mikepence),反疫苗者 (stopvaccinating, StopVaxTyranny),公共卫生参与者 (CDCgov, WHO),和非正统参与者 (BernieSanders, Trevornoah)。
我们从 130 万条原始推文中构建了发言者景观,排除了推文少于 5 条的用户,大流行宣布前剩下 4179 名发言者,宣布后剩下 20153 名发言者。数据通过将所有字母转换为小写并去除标点符号进行了清理。然后我们使用了 Phrases 类,来自开源 gensim Python 库 (Rehurek & Sojka, 2011) 来创建在整个文本语料库中至少出现 70 次的多词表达的二元组。该过程重复了两次,因此最终训练数据包含三元组和四元组(即二元组的二元组)。根据Schuld等人 (2023)描述的策略,每条推文前都加上了作者的名字(以与推文正文相同的方式清理)。 为了将该词标记为发言人标记,我们在其前面加上了表达式 agent。
我们使用了 gensim word2vec 模型在数据上训练嵌入模型,遍历整个推文数据语料库,使用 skip‐ gram 算法 (Mikolov et al., 2013) 从一个移动的 10 词窗口中预测下一个词。我们丢弃了所有出现次数少于 5 次的词和说话者标记,并训练了 30 个周期。词向量经过了归一化。最终的嵌入是一个数据框,每个词和代理在新的一行中,连接到一个独特的 250 维实数向量。向量提供了「地址」,指示每个词和代理在词嵌入的整体向量空间中的位置 (参见 Durrheim et al., 2023)。
嵌入提供了词相似度的度量,其中在相似语法和语义上下文中使用的词被嵌入得彼此靠 近,而不太可能被同义使用的词在向量空间中被嵌入得相距较远 (Mikolov et al., 2013)。用户向量反映了说话者语言的相似性。使用相似语言且机器学习算法难以区分的个体被嵌入得 彼此靠近;而不相似、易于区分的说话者则被嵌入得相距较远。
我们使用 Python 开源 umap 包中实现的 UMAP 算法,将这些高维词嵌入可视化为二维地图 (McInnes et al., 2018)。这些说话者标记的词向量的低维表示提供了纯粹基于语言的观点分布表示,展示了辩论的社会和意识形态结构,具有相似观点的说话者聚集在景观的特定区域。
比较发言者景观的距离和转发网络的距离后,发现用户并不倾向于转发使用与自己相似语言的其他用户,而是转发持有各种观点的用户。
图 2 显示了 Ojea Quintana 等人 (2022) 报告的无评论转发(不包括自我转发)的社交网络。该网络显示了 Gephi 的 Louvain 算法识别出的五个代理社区,分别标记为 antivaxxers (黑色),public health actors (黄色),republicans (红色),democrats (蓝色),和 unorthodox (绿色)。所有社区(尤其是共和党人)在疫情宣布后疫苗辩论加剧时,规模和转发活动均有所增加。两个转发图都沿党派线高度极化,民主党和共和党处于对立两极,民主党与公共卫生代理相连,共和党与 antivaxxers 相连。
为了量化转发网络中极化的变化,我们计算了 Normalized Adaptative Random Walk Controversy (ARWC) 分数 (Salloum et al., 2022),每次比较两个社区,移除未连接的节点,并在无向图上使用20k 步的随机游走。自适应游走者在达到另一个社区的影响者时终止(即,k = .1 个最高度节点)。
如果 pAB 是从社区 A 出发的路径找到社区 B 中影响者的概率,则 ARWC 分数定义为:
ARWC = pAApBB − pABpAB
ARWC 的取值范围在 1 到 0 之间,值越接近 1 表示社区之间的连通性越低或更多的极化,0 表示无极化,随机游走者同样可能最终停留在任一社区。对于每对社区,我们采样了 1000 条随机路径或「游走」以估计上述概率,并重复整个计算 20 次以评估估计的方差。
图 3 中的 ARWC 分数显示大多数社区之间的分离随时间增加。例外情况是 Unorthodox 和 Republican 社区之间以及 Antivax 和 Public Health 社区之间的转发增加。这种 Antivax 和 Public Health 社区对立意识形态极点之间的去极化令人惊讶,可能反映了这些社区如何将对立观点作为批评对象。共和党人和民主党人随着时间推移彼此以及与反疫苗者的联系变得断开,但他们与公共卫生的联系随时间保持相对稳定。
Figure 4 报告了由声明前后疫 苗推文构建的发言者景观。为了便于解释发言者景观的区域,我们用包含” vaccin” 表达的 40 个最常见词进行了标注(其中大多数是标签,# 符号在数据预处理过程中被移除)。
转发网络和发言者景观讲述了关于极化的不同故事。转发网络保持了极化结构,而发言者景观则没有。声明前,转发网络显示共和党人与民主党人之间高度极化,而发言者景观显示他们的接近,拥有共享的政治语言,且与公共卫生和反疫苗社区分开。与疫苗相关的词主要集中在卫生社区内,而非政治社区,揭示了各群体的意识形态定位—— vaccinefreedom 和 vaccineskill 位于反疫苗社区,vaccinesforall 和 vaccinessavelives 位于公共卫生社区。转发网络显示出民主党和共和党之间稳定的两极分化或断裂,而发言者分布则展示了随着时间推移,这些群体之间逐渐出现的极化现象。
我们通过计算该语言环境中两个社区中随机选取的说话者对之间的余弦相似度分数,来衡量两个社区之间的距离。余弦相似度衡量嵌入中两个向量的接近程度,范围从 1(完全相似)到 0 (无关含义)到 −1 (最大不相似)(see Durrheim el al., 2023)。我们从每个社区随机选取 10,000 对说话者,与疫情前后语言环境中每个其他社区配对。然后我们计算两个社区之间的平均余弦相似度分数,以估计它们彼此的平均距离。
社区对之间平均相似度分数的变化报告在图 5 中,显示(1)共和党人与反疫苗者变得相似,(2)民主党人与公共卫生者变得更相似,但与非正统派变得不那么相似,(3)共和党 人与民主党人之间的相似度降低,以及(4)反疫苗和公共卫生社区变得更相似,推测是因为他们趋同于讨论疫情。
我们这个时代的政治极化被归咎于由互联网和社交媒体提供的高选择性信息环境 (Pariser, 2011; Sunstein, 2009)。网络研究表明,社交媒体中的互动发生在回声室中,个体与志同道合的同伴紧密相连,但与其他人断开联系 (Iandoli et al., 2021)。然而,网络分离与极化之间的联系受到质疑,一些作者认为社交媒体可能促进对立观点的去极化暴露 (Barberá, 2014;Beam et al., 2018;Boxell et al., 2017)。
本文比较了极化事件对互动网络和意见分布的影响。我们使用机器学习方法调查了关于疫苗接种的 Twitter 辩论中意见表达语言的极化,比较了 COVID‐19 大流行宣布前后「发言者景观」(Schuld et al., 2023) 的结构与转发网络。我们的结果挑战了该领域的一些常识。首先,我们发现社交网络中个体之间的距离并不能预测他们语言的相似性。此外,我们发现社交网络和发言者景观中社区之间的接近度变化并不相互映照。
这些结果表明,相较于网络隔离,语言可能是一种更为敏感的极化测量指标,并提醒我们不要轻易将网络隔离视为极化本身,这种等同在网络模块化研究(Matakos et al., 2017)以及关于「回声室」的讨论中常被假定。我们的研究发现,在社交媒体上接触并了解多元观点,反而可能加剧党派意见的极化过程,使用户更明确地选择与谁认同、与谁对立。这一过程体现了群体从众(Sunstein, 2009)和「积极差异化」动机(McGarty et al., 1992)。通过转发接触与自身观点相反的意见,可能在这种两极分化的形成中起着尤为关键的作用(cf Flache et al., 2017;cf Bail et al., 2018);这或许也解释了为何煽动性内容更容易在社交媒体上被广泛传播(Brady et al., 2019, 2020)。
Durrheim, K., & Schuld, M. (2025). Polarization on social media: Comparing the dynamics of interaction networks and language‐based opinion distributions. Political Psychology.
原文链接: https://onlinelibrary.wiley.com/doi/full/10.1111/pops.70000
公众号推文链接: https://mp.weixin.qq.com/s/fxlvtpM8PYvBJmc_EPITmw