Lu et al., 2024
在上一期的推送中,我们介绍了一种使用大语言模型进行叙事相似性的测量方法。这期的推送介绍的文章则通过内容和叙事的相似性来研究跨国信息流动,特别是在政府审查的背景下,其他国家的新闻和信息是如何流入中国的。在方法上,这篇文章开发了一种跨平台和跨语言的内容相似性分析的工作流,也启发了之后叙事相似性测量的工作。
信息如何在政府控制的背景下流动?
衡量信息——事件、行动、观点、意见——跨越国界流入中国的过程是一项颇具挑战的任务,原因有以下几方面。首先,这是一种多语种、跨平台的匹配问题:源文本与目标文本使用不同语言(英语与中文)、不同格式(例如,Twitter 设有最多 140 字符的上限,而 Weibo 没有),且由不同作者撰写。其次,需要评估用于匹配的候选配对数量极其庞大。假设有 n 条 tweets 和 m 条微博 posts,就需要比较并评估 n × m 个配对。鉴于社交媒体帖子体量巨大(即 n 和 m 都很大),这既是高强度的计算任务,也远非单靠人工标注所能完成。第三,由于社交媒体文本篇幅很短但内涵细微,完全自动的方法在判定两条社交媒体帖子是否谈论同一事物时,往往难以取得较高的性能。最后,”共现”并不必然代表信息”流入”;信息既可能直接在社交媒体上跨境传播,也可能通过其他传播渠道传递。这意味着,要判定信息流动的方向,必须开展超出具体社交媒体内容本身的进一步调查。迄今为止,关于跨国信息流动的多数研究,多采用人工编码的方法,在小样本中选取文章并识别、统计共同主题或国家名称(Golan 2006; Himelboim, Chang, and McCreery 2010; Wu 2000)。
我们通过开发一种基于深度学习的半自动方法来克服这些挑战:分三步识别英语 tweets 的病毒式传播内容与中文社交媒体帖子之间的内容共现。该方法利用基于深度学习的自然语言处理与信息检索技术来检索并排序 Weibo 内容,随后通过人工核验与标注对是否共现作出最终判定。为测量信息流入,我们随后对共现内容开展深入调查。
检索步骤的目标是缩小目标(Weibo)帖子的范围。针对一条 tweet,我们考察其时间戳前后 ±5 天内发布的 Weibo 帖子;我们验证过该设置有助于提高检测内容共现的概率。我们之所以也考察早于 tweet 的 Weibo 帖子,是因为我们关注的是那些能够吸引全球注意的对话是否会进入中国的公共话语之中。流行的 tweets 作为全球关注的代理指标,而 Weibo 帖子则作为中国公共话语的代理指标;这意味着,某些源自中国境外的事件或行动可能在 Twitter 上”走红”之前就已被 Weibo 捕捉到(因此构成信息流入)。接下来,我们使用在两千万条 Weibo 帖子上训练得到的 word2vec(Mikolov et al. 2013)嵌入(Zhang and Pan 2019),为每条流行的 tweet 检索出最相关的 10,000 条 Weibo 帖子。我们首先使用 Google Translate API(Google 2021)将英文 tweet 翻译为中文。随后通过对贴文中各词的词向量取平均,为该条社交媒体贴文构建向量。对每条源 tweet,我们基于嵌入的余弦相似度检索相似度最高的 10,000 条 Weibo 帖子(关于该算法的形式化描述见 SI)。
排序步骤的目标是在步骤 1 获得的 10,000 个候选中,为每条 tweet 识别出最相似的 K 条 Weibo 帖子。让人工标注者为每条 tweet 审核 10,000 条 Weibo 显然不切实际,因此该排序步骤能显著降低人工核验的时间与成本。用于排序时,我们采用多语言版本的 Universal Sentence Encoder(USE)(Cer et al. 2018)。USE 使用卷积神经网络来捕捉句子语境,包括在不同语境下词义的变化(Kim 2014)。与步骤 1 中使用的 word2vec 不同,USE 能直接比较英文 tweets 与中文 Weibo 帖子而无需翻译。我们在排序而非检索中使用 USE,原因在于其计算成本更高。我们将 K 设为 100,即为每条 tweet 选出最相似的 100 条 Weibo 帖子(关于 K 的选择细节见 SI)。
第三步由中英双语标注员评估排序步骤产出的前 100 条 Weibo 帖子,并判定每条帖子是否与对应的 tweet 匹配。标注员可同时看到中文的 Weibo 帖子、该 tweet 的中文翻译以及包含所有相关链接(如图片、视频)的英文原始 tweet。对每一组 tweet–Weibo 配对,两名研究助理阅读英文原 tweet,并审核 100 组中文 Weibo 候选(合计 15,000 组 tweet–Weibo 配对)。在以下任一情形下,他们将该 Weibo 记为与 tweet 匹配:(1)Weibo 帖子讨论与 tweet 相同的议题,且其情感倾向与 tweet 一致;(2)Weibo 帖子讨论与 tweet 相同的议题,但表达了不同的观点、态度或立场;或(3)Weibo 帖子讨论与 tweet 相同的议题,并呈现多个视角和/或相异观点。也就是说,只要 Weibo 帖子在谈论同一事件或议题(例如,医院人满为患、某外国政府捐赠医疗物资),即使 tweet 与 Weibo 的观点不同,也视为匹配。若两名研究助理对某一配对是否匹配存在分歧,则由一名额外标注员复核,最终结论以少数服从多数为准。
基于系统生成的共现配对,我们对每组 tweet–Weibo 匹配进行调查,以判定其是否体现出信息流入中国。我们检视 tweet 与 Weibo 的正文、元数据以及相关图片与链接;并在中英文媒体网站、Baidu 与 Google 搜索引擎、以及 Twitter 与 Weibo 的中英文字内搜索功能中检索相关内容。该调查用于重建 tweet 与 Weibo 发生时的语境,以及引发两端讨论的事件链。若 tweet 中讨论的事件、行动、观点或意见源自中国境外,则视为”信息流入”。这不包括中国政府的行为以及源自中国境内的事件与观点。举例而言,若中国政府出台一项新政策,Weibo 用户就此展开讨论,则不计为信息流入;但若该政策在境外引发某种意见,并被 Weibo 捕捉到,则计为信息流入——因为跨境传播的是”意见”,而该意见源自境外。只要 Weibo 对相关事件、行动、观点或意见进行”呼应”或”回应”,无论其是否赞同,均可判定为信息流入。仅仅讨论相同的一般性话题并不足够。例如,若一条 tweet 与一条 Weibo 都谈到电动车,但并未表达同一点(如 tweet 指称电动车市场在增长,而 Weibo 讨论供应链问题如何阻碍该市场),或双方并未相互参照,我们就不将其视为信息流入。
我们之所以关注”流入机制”,是因为研究问题指向”国家是否主导了信息流入”。我们将信息流入的机制归纳为四类。
第一类机制:经由中国的控制媒体或中国政府。 控制媒体与政府可以通过在 Weibo 发帖,或借助电视、报纸、网站等其他媒介渠道,报道或回应源自境外的事件、行动、观点与意见。
第二类机制:经由中国的商业化媒体。 尽管商业化媒体也属于国有,但由于同时回应商业激励,其报道模式往往不同于控制媒体(Lu and Pan 2022; Qin, Strömberg, and Wu 2018; Stockmann 2013)。
第三类机制:经由不隶属任何媒体或政府的 Weibo 普通用户。 用户可能从境外媒体报道、境外政府公告或全球社交媒体中获取信息,并将其发布到 Weibo。
第四类机制:由境外主体在中国境内直接传播信息。 例如,某些非中国媒体(如俄罗斯的 RT)以及驻华外国使馆(如俄罗斯驻华大使馆)在中国社交媒体上拥有活跃账号,能够直接在中国平台上发布信息。
在 150 条走红的 tweets 中,基于 Weibo-COV dataset,我们的系统识别出 66 条至少与一条 Weibo 帖子匹配的 tweets(see Table 1)。使用预审查阶段的 Weiboscope data 进行稳健性检验又得到 2 组额外的共现配对,使总数达到 68(see SI for details)。对全部 68 条匹配 tweets 进行深入调查后,我们发现其中有 32 条体现了信息向中国的流入(inflow of information to China),另有 19 条体现了信息由中国向外的流出(outflow of information from China)。
总之,这意味着源自中国境外、吸引全球注意的相关对话中,约有 24%–28% 进入了中国(made their way into China)。那么,信息是如何流入中国的?我们发现:有 10 起由中国政府或控制媒体(state-controlled media)促成的信息流入,7 起由中国商业化媒体(commercialized Chinese media)促成,12 起由不隶属媒体或政府的 Weibo 用户促成,另有 3 起由境外主体直接在 Weibo 发帖而促成。需要指出的是,这些数字未必能代表总体比例;在其他时间段或更广泛的 tweets 样本下,这些数字可能不同。我们提供这组数值分解,旨在表明四种机制都在促进信息流入中国的过程中发挥了作用。
尽管许多美国和欧洲的媒体媒体被封锁,在中国社交媒体上不存在,但一些外国实体确实存在并在信息传递中发挥作用(例子请见原文)。
文献来源: Lu, Y., Schaefer, J., Park, K., Joo, J., & Pan, J. (2024). How information flows from the world to China. The International Journal of Press/Politics, 29(2), 305-327.
原文链接: 请点击左下方【阅读原文】