New Media & Society
尽管由人工智能驱动的事实核查已被广泛应用于社交媒体平台,但当事实核查者被明确呈现为 AI 而非人类(如社交媒体平台管理员)时,是否会影响公众对错误信息的可信度判断,仍缺乏系统研究。此外,既有关于机器启发式的研究主要关注正向机器启发式,而较少考察负向机器启发式的作用。为弥补上述不足,本文通过一项组间在线实验加以检验。研究结果表明,将 AI 而非平台管理员呈现为事实核查者,会通过负向机器启发式而非正向机器启发式的中介作用,间接提升受众对虚假健康短视频的可信度判断。进一步分析发现,在原本就更相信错误信息的受众中,相较于平台管理员,由 AI 提供的事实核查会激活更强的负向机器启发式,从而进一步提高其对虚假短视频的可信度评价。
尽管 AI 主导的事实核查已被广泛应用,但我们仍然缺乏对一个关键问题的系统认识:当事实核查被明确呈现为由 AI 而非人类(如平台管理员)完成时,这是否会影响受众对错误信息的可信度判断?换言之,如果人们知道某次事实核查是由 AI 系统完成的,而不是由人类完成的,他们对错误信息可信度的感知是否会发生变化?此外,相较于人类,AI 是否在降低人们对错误信息的可信度方面更为有效?
随着事实核查任务日益被委托给 AI,以及围绕这一技术透明性的呼声不断上升(例如 Larsson and Heintz, 2020),回答上述问题显得尤为迫切。在这一方面,媒介的模态、代理性、交互性与可导航性(MAIN)模型(Sundar, 2008)为理解相关机制提供了有力的理论视角。根据 MAIN 模型,在互联网中信息高度流通的环境下,社交媒体用户极易产生信息过载,难以投入足够的时间和精力去系统处理所接触到的每一条信息。因此,用户往往依赖由界面线索触发的认知启发式或心理捷径来判断信息的可信度,例如点赞数量或信息来源(Buchanan, 2020; Sundar, 2008)。
当信息来源被呈现为 AI 时,可能会激活两种所谓的机器启发式。一方面,一些人认为 AI 的工作是客观且不带偏见的(即正向机器启发式);另一方面,也有人认为 AI 的判断僵化、机械,缺乏人类的直觉或主观判断能力(即负向机器启发式;Sundar, 2008)。多数探讨 AI 事实核查对人们信念影响的研究,主要关注正向机器启发式,而在很大程度上忽视了人们同样可能启动负向机器启发式,并因此不信任 AI 所作出的判断(Molina and Sundar, 2022b)。例如,有研究发现,当 AI 被呈现为错误信息识别与移除的决策者时,人们对这些决策的怀疑程度会上升,同时对判断结果和 AI 系统本身的信任度会下降(Liu, 2021)。因此,在考察 AI 驱动的事实核查如何影响人们的可信度判断时,负向机器启发式同样应被纳入分析,以更全面地理解这一现象。然而,目前系统关注这一问题的研究仍然十分有限。
此外,还需要考虑自我确认启发式的作用,即人们倾向于将与自身态度和信念一致的信息视为可信(Metzger and Flanagin, 2013)。自我确认启发式可能充当一种“超级启发式”,在认知加工过程中引导并塑造其他启发式的运作方式(Lee, 2024)。目前尚不清楚,AI 事实核查与机器启发式之间的关系,是否会受到人们对错误信息既有信念强弱的调节。
与此同时,现有关于健康类错误信息的研究,大多聚焦于文本和图片形式的内容(如 X 和 Facebook 上的帖子),而较少关注视频,尽管视频已成为社交媒体上的主流信息形态(Vraga et al., 2022)。已有研究表明,相较于文本形式的错误信息,人们更容易相信并传播视频形式的错误信息(Sundar et al., 2021),这意味着用于纠正视频错误信息的心理机制,可能不同于文本错误信息。当前,短视频已成为人们获取健康建议的重要渠道之一(Heiss et al., 2024),但这些视频并不总是准确可靠。研究发现,在 TikTok 的搜索结果中,大约 20% 的视频包含错误信息,其中包括关于 COVID-19 疫苗及其他社会议题的错误内容(Brewster et al., 2022)。在中国,相关调查同样显示,大约五分之一的网络谣言是通过短视频传播的(Ren, 2021)。
短视频之所以成为错误信息滋生的重要土壤,其中一个原因在于,社交媒体上的健康信息大多由非专业人士而非专家传播。这类信息往往缺乏科学证据支持,容易误导受众(O’Sullivan et al., 2022)。虚假的健康短视频不仅可能引导人们基于错误信息采取行动,还会淹没可靠信息来源,加剧公众对医学的不确定感与不信任,进而对公共健康事业造成损害(Mian and Khan, 2020)。
为弥补上述研究空缺,本文采用在线实验方法,比较在虚假健康短视频情境中,将事实核查者呈现为 AI 与呈现为人类(即平台管理员)时,人们对视频可信度的评估是否存在差异。研究同时考察正向与负向机器启发式在这一过程中的作用,以丰富对 MAIN 模型的理解。最后,本文进一步检验个体对错误信息的初始信念在其中可能发挥的调节作用,从而揭示事实核查来源与自我确认启发式之间的交互关系。本文提出的研究模型如图 1 所示。
学界尚未就“虚假信息”(misinformation)形成统一的定义。本文沿用既有研究的做法(例如 Chen et al., 2023;Walter and Murphy, 2018),采用一种较为宽泛的界定,将“虚假信息”理解为任何不符合专家共识和明确证据的错误信息,而不论其传播意图为何。事实核查(fact-checking)则指基于证据对信息进行核验,以纠正错误信息的过程(Graves et al., 2019)。事实核查可以由新闻记者或专业事实核查人员执行,但当这一工作完全依赖人工完成时,往往耗时耗力。
在社交媒体环境中,信息传播规模巨大、速度极快,人类几乎不可能对该领域中的所有信息进行逐一核查,这使得由 AI 执行的自动化事实核查成为一种潜在的解决方案。自动化事实核查通过识别、核验和纠正等环节对抗错误信息。它不仅可以帮助记者和公众发现网络上流传的可疑主张,并将其与事实核查数据库和权威来源进行比对,还能够标记反复出现的虚假内容、提供背景信息、发布新的核查结果,并通过不同媒介渠道自动向错误信息的接收者发送警示(Graves, 2018)。
目前,全球主要社交媒体平台已开始将事实核查流程自动化。随着短视频技术和应用的普及,互联网平台也相继开发了针对视频内容的自动化事实核查项目。例如,Facebook 采用 AI 工具识别图像和视频中的错误信息,包括深度伪造内容(Meta, 2020)。YouTube 的自动识别系统可以在视频被用户观看之前启动检测与审查流程;如果被标记的内容经平台审核人员认定为虚假或有害,相关视频将被移除(YouTube, 2024a)。在中国,抖音通过大数据与 AI 技术提升错误信息纠正的效率,自动对传播虚假信息的视频进行比对、拦截和标记,并向相关视频的受众推送辟谣信息(Douyin Security Center, 2022)。
需要指出的是,关于自动化事实核查的这些信息主要来自社交媒体平台自身,因此相关表述可能具有较强的选择性,实际的事实核查流程也缺乏透明性。尽管如此,这些实践仍表明,AI 驱动的自动化事实核查在遏制短视频中错误信息传播方面具有潜在能力。
然而,一个尚未得到充分解答的问题是:在这一过程中,是否突出 AI 的角色,会影响人们对短视频可信度的评估?与将事实核查归因于人类平台管理员相比,将事实核查归因于 AI,是否更有助于降低人们对短视频内容的可信度判断?在回答这一问题时,MAIN 模型(Sundar, 2008)为理解相关机制提供了有益的理论视角。
由于网络中信息传播规模巨大,社交媒体用户往往感到不堪重负,难以投入足够的时间和精力去核查自己接触到的每一条信息。因此,人们通常依赖由线索触发的认知启发式来评估信息的可信度,并决定是否与之互动,例如内容的来源或信息的长度等(Buchanan, 2020;Sundar, 2008)。根据 MAIN 模型(Sundar, 2008),社交媒体上的每一种技术赋能或界面线索,都可能触发相应的认知启发式,从而影响人们对媒介信息的可信度判断。在社交媒体环境中,具有重要心理影响的技术可供性大致可以分为四类:模态(modality)、能动性(agency)、交互性(interactivity)和可导航性(navigability),MAIN 模型正是建立在这四类可供性之上。
其中,能动性与信息来源密切相关。例如,当社交媒体界面线索表明信息来源是机器或 AI 时,便会触发机器启发式,进而影响人们对信息可信度的判断。普通用户往往同时持有正向与负向两种机器启发式(Sundar, 2020)。一方面,人们可能认为机器完成的工作是准确、客观、无偏见且很少出错的(即正向机器启发式)。在这种情况下,人们相信 AI 是基于一致规则作出决策,其判断是公平且不受偏见影响的,因此更倾向于信任 AI 的判断而非人类的判断。另一方面,人们也可能将机器视为僵化、缺乏情感、且容易被操纵的(即负向机器启发式)。基于这一认知,人们可能不信任 AI 执行重要评估任务(如内容审核和事实核查)的能力,因为他们认为 AI 缺乏类似人类的直觉和主观判断力,无法识别语言信息中的细微差异(Molina and Sundar, 2022b)。在这种情况下,人们更可能信任人类所作出的决策。
Sundar(2020)指出,正向与负向机器启发式是完全不同的两种认知机制,当算法或 AI 成为互动来源时,这两种启发式都可能被激活。在同时考察正向与负向机器启发式的研究中(Molina and Sundar, 2022a, 2022b),验证性因子分析(CFA)结果也表明,这两个概念在统计上是明显不同的。
在内容生产与内容治理的情境中,当 AI 作为互动来源时,正向与负向机器启发式均可能被触发(Molina and Sundar, 2022b;Waddell, 2019)。例如,Waddell(2019)发现,与人类记者撰写的新闻相比,由算法撰写的新闻更容易激活正向机器启发式,从而使人们认为机器撰写的新闻报道偏见更少、可信度更高;与此同时,被归因为算法的新闻也更容易激活负向机器启发式,使人们认为其拟人性较低,从而在某些维度上被视为不如人类记者撰写的新闻可信。类似地,Molina and Sundar(2022b)发现,相较于人类作为内容审核来源,当 AI 被呈现为内容审核者时,更容易激活正向机器启发式,使参与者更信任审核系统并更认同其内容判断;但与此同时,AI 作为内容审核来源也更容易激活负向机器启发式,使人们更不愿意信任该审核系统并认同其审核决策。
鉴于事实核查同样涉及对内容的判断,可以推测,在事实核查情境中,当 AI 被呈现为判断来源时,也可能同时激活正向与负向两种机器启发式。然而,现有关于事实核查与错误信息纠正的研究,大多聚焦于正向机器启发式,发现人们普遍存在自动化偏好,即倾向于认为机器在这一领域的表现优于人类。但相关证据并非完全一致。例如,Bode and Vraga(2018)发现,在纠正关于寨卡病毒的错误认知方面,Facebook 上由算法提供的信息纠正与普通社交媒体用户提供的纠正均具有显著效果,且算法的表现略优。此外,Sumpter and Neal(2021)发现,无论警示标签的准确性如何,由 AI 提供的新闻可信度警示标签与由人类记者提供的警示标签在影响人们对新闻可信度的判断方面同样有效。这些证据表明,机器来源对可信度判断产生较强影响,可能主要源于正向机器启发式的激活。
然而,当 AI 未能识别虚假新闻、从而违背用户预期时,人们可能会产生算法厌恶,进而更倾向于信任人类而非 AI 的判断(Sundar, 2020)。目前,系统考察机器事实核查是否会激活负向机器启发式的研究仍然十分有限。此外,现有研究主要集中在文本和图像形式的错误信息,对通过短视频传播的错误信息关注较少。
作为一种模态线索,视频更容易触发真实性感知启发式。因此,与文本或音频形式的错误信息相比,社交媒体用户更容易相信并传播视频形式的错误信息(Sundar et al., 2021)。就通过短视频传播的健康类错误信息而言,据我们所知,尚无研究系统考察事实核查来源(AI 与人类平台审核者)如何影响人们所采用的机器启发式类型(正向或负向)。然而,基于 MAIN 模型及既有研究(例如 Molina and Sundar, 2022b),可以推测,在针对虚假健康短视频的事实核查情境中,AI 作为核查来源,除了可能激活正向机器启发式外,也可能激活负向机器启发式。具体而言,不同启发式的激活方向,将导致人们对视频可信度的评估出现升高或降低。当正向机器启发式被激活时,人们可能更信任 AI 的事实核查,而非人类平台管理员的核查,从而认为相关视频的可信度更低;相反,当负向机器启发式被激活时,人们可能不如信任人类管理员那样信任 AI 的事实核查,从而认为相关视频更可信。
基于上述推理,并沿用 Molina and Sundar(2022b)的研究思路,本文提出如下假设:
H1:在虚假健康短视频情境中,以 AI(相对于平台管理员)作为事实核查来源,对人们视频可信度判断的影响,将通过以下两条中介路径发生:(a)通过正向机器启发式产生负向中介效应;(b)通过负向机器启发式产生正向中介效应。
鉴于 AI 的存在可能同时激活正向与负向机器启发式,而这两种启发式对可信度判断的影响方向相反,因此,目前尚不清楚,与平台管理员相比,人们是否更倾向于信任 AI 执行的事实核查,从而将经 AI 核查的健康错误短视频视为更不可信或更可信。这一不确定性引出了以下研究问题:
RQ:与平台管理员作为事实核查者相比,当 AI 作为事实核查者时,人们对虚假健康短视频的可信度判断是否存在差异?
既有研究表明,人们往往将与自身态度和观点一致的信息视为可信,而将与自身信念不一致的信息视为不可信(Metzger et al., 2010)。这种倾向被称为自我确认启发式(self-confirmation heuristic),在个体评估网络信息可信度时被广泛采用(Metzger and Flanagin, 2013)。这一倾向在错误信息情境中同样存在。研究发现,人们会将与自身观点一致的虚假新闻文章评估为更可信(Kim, 2020),并且在错误信息与其既有信念一致时,更有可能传播这些信息(Buchanan, 2020)。自我确认启发式可以通过方向性动机推理(directionally motivated reasoning)来解释。方向性动机推理指的是人们以带有偏向性的方式处理信息,其目标在于得出与既有信念一致的结论,而非追求准确的结论(Kunda, 1990;Nir, 2011)。在方向性动机推理的驱动下,人们会选择性地接触与自身偏好一致的信息(即确认偏差),反驳与自身立场不一致或不合意的信息(即反确认偏差),并且对符合其既有信念的信息给予比不符合其信念的信息更为正面的评价(Flynn et al., 2017;Taber and Lodge, 2006)。
部分学者尝试探讨,自我确认启发式是否会影响由机器(相对于人类)执行的内容治理对人们信息判断和决策的作用。Lee(2024)指出,“自我确认启发式可以作为一种超级启发式,先于并引导其他启发式的运作”(p. 188)。当接收到的信息未能确认、反而违背人们的预期时,个体会被激发去关注信息来源,其对来源的感知将介入并引导后续判断。在这一过程中,方向性动机推理可能开始发挥作用,从而以偏向性的方式影响人们对信息来源的加工。相反,如果信息本身并未违背个体的预期,人们往往会忽略不同来源之间的差异,而直接接受信息内容(Lee, 2024)。已有研究为这一观点提供了初步证据。例如,Tandoc et al.(2020)发现,当新闻报道缺乏客观性、从而违背人们预期时,被归因为算法撰写的新闻,相较于被归因为人类记者撰写的新闻,会被评估为可信度更低。与本文研究最为相关的是,Lee et al.(2022)考察了在用户评论区中,人们对 AI(相对于人类)审核者的评价是否会受到观点一致性以及评论移除是否具有解释性的影响。研究发现,参与者对 AI 审核者动机的怀疑程度高于对人类审核者的怀疑,但这一差异仅在剩余评论为反对立场内容,或评论移除缺乏解释时才会出现。当大多数剩余评论与个体立场一致,或评论移除提供了理由说明时,参与者对 AI 审核者与人类审核者动机的怀疑并不存在显著差异。此外,当 AI 执行评论审核且未提供评论移除解释时,接触到与自身立场一致(相对于不一致)评论的参与者,更强烈地认同正向 AI 启发式。综合来看,这些研究结果表明,在面对不合意信息时,人们不太可能运用正向 AI 启发式;同时,在这一情境下,人们对 AI 审核者的评价往往比对人类审核者更为负面,这意味着当不合意信息存在时,负向机器启发式更容易被强化。
就健康类虚假信息而言,据我们所知,仅有 Bode and Vraga(2015)考察了自我确认机制对自动化事实核查的影响。他们发现,与未提供纠正信息相比,Facebook 算法提供的、用于反驳关于转基因生物(GMOs)错误信息的相关文章,显著降低了原本相信这些错误信息的参与者的错误认知。而对于最初并未持有错误认知的参与者而言,这些相关文章并未产生影响,这可能源于天花板效应。然而,该研究并未比较由算法提供的事实核查与由人类提供的事实核查之间的差异。基于既有研究(例如 Lee, 2024;Lee et al., 2022),本文提出如下假设:
H2:随着个体对错误信息的既有信念水平上升,(a) AI(相对于平台管理员)作为事实核查者与正向机器启发式之间的关联将减弱;(b) AI(相对于平台管理员)作为事实核查者与负向机器启发式之间的关联将增强。
本研究采用 2 × 2 组间实验设计,分别操纵事实核查来源(AI 事实核查 vs 平台管理员事实核查)与错误信息主题(“酸性体质” vs “献血危害健康”)。研究的核心关注点在于,不同事实核查来源如何影响参与者对虚假健康短视频的可信度判断。之所以选取两个主题,是为了避免仅使用单一案例所可能带来的类别混淆问题,从而提升研究的外部效度(Jackson, 1992)。
研究共设置四个实验组,参与者被随机分配至各组。样本量通过 G*Power 3 (Faul et al., 2007a, 2007b) 进行事前功效分析确定,在设定中等效应量(f = .25)、显著性水平 α = .05、统计功效 .95 以及四个实验组的条件下,所需最小样本量为 280。
正式数据于 2025 年 4 月通过 Jishuyun(极术云) 这一专业学术调查平台采集,样本为中国成年社交媒体用户。该平台已被广泛应用于学术研究,并为多家国际期刊所采用(如 Liu et al., 2025;Wang and Zhang, 2023)。平台通过技术手段识别并剔除机器人账号,限制低质量答卷者参与调查,并通过不可重复链接与 IP 追踪确保每位受访者仅作答一次,从而保障数据质量。样本在性别与年龄上依据 CNNIC(2024)发布的中国网民结构报告进行配额控制,以确保代表性。
研究设置了两道注意力检测题,未通过者被剔除(n = 23)。同时,研究还设置了操纵检验,要求参与者回忆视频的事实核查来源;回答错误者(n = 29)以及无法回忆核查内容者(n = 11)同样被剔除。所有检验均在核心变量测量之后进行,以避免干扰实验效应。最终有效样本为 527 人,四个实验条件的样本量分布较为均衡。样本在性别、年龄和教育程度等方面与中国网民总体结构较为接近。
在获得知情同意后,参与者首先被随机分配至其中一个错误信息主题,并完成一份前测问卷,用于测量其在该议题上的既有错误信念。随后,参与者在该主题下被进一步随机分配至 AI 事实核查组或平台管理员事实核查组。
参与者观看一段短视频(至少 1 分钟),随后进入下一页面,看到一张仿照抖音界面设计的帖子截图。该帖子在底部附有警示标签,提示视频内容存在误导性,并明确标注该内容由 AI 系统或平台管理员核查并辟谣。观看刺激材料后,参与者完成后测问卷,内容包括核心变量测量及人口统计信息。问卷结束后,研究向参与者进行说明,告知其所观看视频为错误信息,并提供来自中国官方事实核查机构的正确信息。
实验平台选取中国主流短视频应用抖音(Douyin)。抖音及其国际版本 TikTok 是以用户生成内容为主的短视频平台,单条视频时长通常为 15–60 秒(Kaye et al., 2021)。抖音被选为实验平台主要基于两点原因:其一,短视频用户几乎覆盖全部中国网民,且抖音是使用率最高的短视频应用(CNNIC, 2024;QuestMobile, 2023);其二,抖音在实际治理中已广泛采用警示标签来辟谣虚假视频(CNR, 2024),有助于实验情境的真实还原。
在预实验基础上,研究最终选取了两个健康类虚假视频作为刺激材料:一则声称“酸性体质会导致癌症”,另一则声称“献血会严重损害健康”,两者均为不符合科学共识的错误说法。所有实验组均观看其中一个视频,并看到与之对应的抖音帖子截图。四个实验条件之间的唯一差异,在于警示标签中事实核查来源的表述——“AI 系统”或“平台管理员”。为避免混淆,帖子中的用户名与头像均被模糊处理。
鉴于研究模型包含多个潜变量,研究首先进行了验证性因子分析(CFA),结果显示模型拟合良好,各构念具有较好的区分效度与收敛效度。
既有错误信念:分别针对“酸性体质”和“献血”主题设置三道题项,测量参与者在实验前对相关错误观点的认同程度,合成指标具有较高信度。
视频可信度感知:参考 Appelman and Sundar(2016),通过三道题项测量参与者对视频内容在可信性、准确性与真实性方面的评价。
正向机器启发式:基于 Molina and Sundar(2022b),测量参与者对警示系统在精准性、准确性和客观性方面的感知。
负向机器启发式:同样基于 Molina and Sundar(2022b),测量参与者对系统在人类直觉、情境理解、僵化程度等方面的评价。结果表明,正向与负向机器启发式在统计上属于两个不同的构念。
控制变量:研究控制了性别、年龄、教育、收入、议题涉入度、过往接触类似视频的经历以及健康素养等因素。
为检验随机分组是否成功,研究首先进行了一系列方差分析(ANOVA)。结果显示,在四个实验条件之间,参与者在年龄、受教育程度和收入方面均不存在显著差异,F(3, 523) = 1.11、1.91 和 0.20,p 值分别为 .35、.13 和 .90。卡方检验同样表明,不同实验条件下参与者的性别分布不存在显著差异,χ²(3, N = 527) = 1.92,p = .59。由此可见,实验随机化是成功的。
随后,研究采用 AMOS 29.0 进行多组分析,以检验不同错误信息主题(酸性体质,n = 262;献血,n = 265)是否会影响模型中各变量之间的关系。结果表明,不同主题之间不存在显著交互效应(Δχ²[Δdf = 5] = 3.12,p = .68),即主题并未改变模型中变量关系的整体结构。
进一步的独立样本 t 检验显示,在视频可信度感知、议题涉入度以及此前接触相关错误信息的经历等方面,不同主题条件下的参与者并无显著差异,t(525) = −1.90、−1.22 和 .51,p 值分别为 .06、.22 和 .61。因此,后续分析将两类主题合并处理,形成两个分析组:AI 事实核查组(n = 274)与平台管理员事实核查组(n = 253)。
针对研究问题,独立样本 t 检验结果显示,尽管平台管理员事实核查组对视频的可信度评价(M = 3.37,SD = 1.79)略低于 AI 事实核查组(M = 3.50,SD = 1.79),但两者之间的差异并不显著,t(525) = .83,p = .41。这表明,仅从总体效应来看,事实核查来源并未显著影响参与者对虚假健康短视频的可信度判断。
假设 H1a 和 H1b 预测,AI(相对于平台管理员)作为事实核查来源,对视频可信度的影响将分别通过正向机器启发式(负向中介)和负向机器启发式(正向中介)实现。为检验这一中介机制,研究采用结构方程模型(SEM)进行分析,并控制七个协变量。
模型拟合指标显示整体拟合良好(χ²(df = 73, N = 527) = 213.38,p < .001,CFI = .968,TLI = .954,RMSEA = .06;见 Figure 2)。结果表明,与平台管理员相比,AI 作为事实核查者并未直接显著影响视频可信度感知(β = −.06,p = .13),这一结果与前述 t 检验一致。
在中介路径上,尽管 AI(相对于平台管理员)更容易激活正向机器启发式(β = .14,p = .003),但正向机器启发式与视频可信度之间的关系仅达到边缘显著水平(β = −.08,p = .07),未形成显著中介效应。相反,AI 作为事实核查来源显著激活了负向机器启发式(β = .20,p < .001),且负向机器启发式与视频可信度呈显著正相关(β = .59,p < .001)。整体而言,模型解释了视频可信度感知 37% 的方差。
进一步采用 PROCESS 宏(Model 4)进行自助法中介检验(5000 次重复抽样),结果显示:AI(相对于平台管理员)通过负向机器启发式间接预测了更高的视频可信度感知(b = .34,SE = .07,95% CI = [.21, .48]),而通过正向机器启发式的中介路径不显著(b = −.03,SE = .02,95% CI = [−.08, .01])。
因此,H1b 得到支持,而 H1a 未得到支持。
为检验假设 H2a 与 H2b,研究使用 PROCESS 宏(Model 7)进行了 5000 次 Bootstrap 抽样,考察参与者对错误信息的既有信念是否会调节事实核查来源与机器启发式之间的关系。
结果显示,既有错误信念并未显著调节事实核查来源通过正向机器启发式影响视频可信度的间接效应(index = −.004,SE = .008,95% CI = [−.02, .01]),也未显著调节事实核查来源与正向机器启发式之间的直接关联(b = -.03,SE = .05,p = .52)。同样,既有错误信念也未显著调节事实核查来源通过负向机器启发式影响视频可信度的整体间接效应(index = .07,SE = .04,95% CI = [−.007, .15])。
然而,既有错误信念显著调节了事实核查来源与负向机器启发式之间的关系(b = .12,SE = .06,p = .04,95% CI = [.004, .24])。具体而言,当事实核查由 AI 而非平台管理员提供时,原本更相信错误信息的参与者,更容易形成强烈的负向机器启发式(见 Figure 3),进而提升其对虚假健康短视频的可信度判断。
因此,H2b 得到支持,而 H2a 未得到支持。
本研究结果表明,将 AI 而非平台管理员呈现为事实核查者,并不会直接降低人们对虚假健康短视频的可信度判断;相反,这一呈现方式通过激活负向机器启发式,间接地使参与者将虚假短视频视为更可信,而非通过正向机器启发式发挥作用。此外,参与者对错误信息的既有信念显著强化了事实核查来源与负向机器启发式之间的关联,但并未强化其与正向机器启发式之间的关联。具体而言,在那些原本就更相信相关错误信息的参与者中,相较于平台管理员,AI 作为事实核查者更容易激活负向机器启发式,进而导致他们对视频的可信度评价更高。综合来看,这些结果表明,在纠正虚假健康短视频方面,平台管理员作为事实核查者,比 AI 更有效,尤其是对于那些原本就更容易相信错误信息的受众而言。
这一发现与既有主要基于文本和图像形式错误信息的研究结论形成了重要对照。近期一项元分析研究(Huang and Wang, 2023)指出,在文本和图像错误信息情境中,AI 提供的事实核查标签与警示在说服效果上与人类并无显著差异。然而,针对虚假短视频的纠错机制,相关研究仍然十分有限,且几乎不存在 AI 与人类纠错者之间的直接比较。已有研究主要关注用户生成内容在短视频纠错中的作用。例如,Vraga et al.(2022)发现,普通用户发布的纠正性评论可以有效缓解虚假短视频中关于防晒和皮肤癌的错误认知;Bhargava et al.(2023)则发现,TikTok 上由其他用户发布的纠正性视频能够降低人们对虚假健康短视频的误解。这些研究提示,错误信息的媒介形式可能会影响不同纠错主体的说服力。换言之,尽管 AI 在纠正文本和图像错误信息方面可能与人类同样有效,甚至更具优势,但在视频形式的错误信息情境中,来自平台管理员或用户生成内容的干预,可能比 AI 更具说服力。
与 Molina and Sundar(2022b)的研究一致,本研究发现,当 AI 作为事实核查者时,相较于平台管理员,更容易同时激活正向和负向机器启发式。其中,负向机器启发式使参与者更不信任 AI 的判断,从而导致其将视频内容视为更可信。然而,与 Molina and Sundar(2022b)不同的是,尽管正向机器启发式与可信度感知之间呈负向关系,其影响并未达到显著水平。这表明,当 AI 而非平台管理员提供事实核查时,参与者会同时从正面(例如认为系统准确、无错误)和负面(例如认为系统机械、缺乏人类情感、无法进行主观判断)两个方面评估该警示系统;但在虚假健康短视频的情境中,负向机器启发式是更为关键的心理机制,其在影响人们可信度判断方面的作用显著强于正向机器启发式。这一发现与 Waddell(2018)的研究相呼应。Waddell 发现,被归因为机器人作者的新闻,相较于人类作者的新闻,被认为可信度更低,而这一效应并非通过正向机器启发式中介,而是通过来源拟人化程度实现的。机器作者被认为缺乏人类情感与特征,从而降低了新闻可信度。这表明,当信息来源被感知为“不够像人”时,人们对其提供内容的评价会受到负面影响。
Waddell(2018)指出,这是因为新闻写作仍被广泛视为一项人类工作,当新闻由机器人撰写时,人们的预期被打破,从而降低了信任。类似地,在事实核查领域,人们也普遍预期该工作应由人类完成,而非 AI。事实上,一项跨国调查显示,多数事实核查从业者并不认为机器能够独立核实错误信息,尤其是在图像和视频等复杂形式的错误信息情境中(Full Fact, 2020)。事实核查被认为需要大量人类判断与创造性思维,例如追溯信息来源、核查证据并与其他核查人员协作。人们普遍认为,AI 无法替代人类直觉,无法区分讽刺与观点,也难以识别语境(Full Fact, 2020)。因此,当 AI 被呈现为事实核查来源时,人们更容易将其视为机械、缺乏人性(即拟人化程度较低、负向机器启发式更强),其对事实核查者的预期被打破,从而降低对事实核查结果的信任,并将视频内容视为更可信。
本研究的另一个重要发现是:在原本就更相信错误信息的参与者中,相较于平台管理员,AI 提供的事实核查更容易激活负向机器启发式,并进一步提升其对视频的可信度判断;而 AI 触发的正向机器启发式并未受到既有错误信念的影响。这表明,算法厌恶更可能在“不合意的事实核查”情境中出现。也就是说,当事实核查结论与人们原有的态度、信念和观点相冲突时,负向机器启发式更容易取代正向机器启发式,主导人们对 AI 提供信息的判断。这一结果与 Lee et al.(2022)的发现相一致:当评论区中剩余评论与人们既有信念相冲突时,人们对 AI 审核者动机的质疑程度高于对人类审核者的质疑。同样,Dietvorst et al.(2015)发现,即使算法预测者与人类预测者犯了同样的错误,当算法违背人们预期时,人们会对算法进行更严厉的“惩罚”。总体而言,人们在预期被打破时,对 AI 的容忍度低于对人类的容忍度,并更倾向于对 AI 的判断作出负面反应。
这一发现丰富了我们对负向机器启发式触发条件的理解。既有研究指出,AI 的界面呈现方式、AI 的属性、人们以往与 AI 的互动经验(Sundar, 2020),以及个体特征(如信息技术使用能力、对 AI 的恐惧)都是负向机器启发式的重要预测因素(Molina and Sundar, 2022a)。本研究在此基础上进一步表明,信息特征本身——尤其是 AI 提供的不合意信息——也可能显著强化负向机器启发式。反过来看,这也意味着,平台管理员而非 AI 作为事实核查者,可能更有助于克服人们在接受纠正信息时的动机性推理。
本研究对自动化事实核查研究具有多方面的理论贡献。
首先,在基于 MAIN 模型分析自动化事实核查时,有必要系统纳入负向机器启发式。既有研究多关注正向机器启发式,忽视了 AI 线索可能激活的负面认知反应。然而,如 Molina and Sundar(2022b)所指出,人们关于机器的认知经验法则并非总是正向的。本研究发现,在虚假健康短视频情境中,负向机器启发式在影响可信度判断方面的作用显著强于正向机器启发式。因此,在分析人—机互动时,负向机器启发式应成为不可或缺的分析维度。
其次,与主要基于西方语境的研究不同(如 Molina and Sundar, 2022b;Waddell, 2019),本研究并未发现正向机器启发式在 AI 与可信度判断之间发挥显著中介作用。这表明,在比较 AI 与人类对可信度判断的影响时,文化因素不可忽视。不同文化背景下,人们对 AI 的社会心理认知、道德期待与治理经验存在差异,从而可能导致 AI 事实核查作用机制的不同。未来研究有必要通过跨文化比较,系统检验 MAIN 模型及其机器启发式在不同文化情境中的解释力。
第三,本研究将研究重心从文本和图像错误信息,拓展至短视频错误信息。既有研究表明,人们更容易相信并传播视频形式的错误信息(Sundar et al., 2021),而视频纠错的心理机制可能不同于文本和音频纠错。本研究发现,与 AI 相比,平台管理员提供的事实核查在降低人们对虚假短视频的错误认知方面更为有效,为视频错误信息纠正研究提供了新的实证证据。
第四,本研究深化了事实核查来源与自我确认启发式之间关系的理解。研究表明,通过降低事实核查所激活的负向机器启发式,平台管理员事实核查在克服动机性推理方面具有优势,尤其是在原本就更相信错误信息的群体中。这一发现有助于厘清动机性推理的边界条件,也丰富了 MAIN 模型中负向机器启发式适用情境的理论解释。
从实践角度看,研究结果表明,尽管自动化事实核查已被广泛应用于社交媒体,但在短视频错误信息情境中,部分用户仍然对 AI 事实核查持有负面看法,这在一定程度上源于其负向机器启发式,认为机器僵化、机械、缺乏人性。这一倾向在原本就更相信错误信息的人群中尤为明显。因此,在这一情境下,将 AI 而非人类呈现为事实核查者,反而可能间接提升人们对虚假视频的可信度判断。综合来看,在纠正虚假健康短视频方面,由人类提供的事实核查可能优于由 AI 提供的事实核查,尤其是对那些原本就更需要纠正信息的群体而言。
鉴于 AI 在事实核查中的重要性及其在提升纠错效率方面的潜力,一个现实问题随之出现:如何提升公众对 AI 事实核查的接受度?一种可能的路径是,强调事实核查过程中人类的参与,尤其是在涉及主观判断和复杂语境的问题上。事实上,自动化事实核查在现实中仍然高度依赖人类介入,例如追溯信息来源、核查证据以及在发布核查结果前进行人工审核(Full Fact, 2020)。以抖音为例,其通过“人工审核与机器筛查相结合”的方式进行内容治理,并在争议性事件中强化人工分析与核验(Bai, 2025)。因此,强调人机协作而非纯粹的 AI 核查,可能有助于缓解公众因 AI 缺乏人性而产生的疑虑。
此外,提升 AI 的透明性(即解释 AI 决策依据)也被证明有助于缓解其负面影响(Liu, 2021)。Lee et al.(2022)同样发现,为评论移除提供明确理由,可以缩小 AI 与人类审核者之间的信任差距。基于这些发现,在使用 AI 对抗错误信息时,增加对其核查原则与判断逻辑的解释,可能有助于提升公众对 AI 事实核查的接受度并增强其效果。
本研究仍存在若干局限。首先,研究并未比较 AI 事实核查与用户众包式事实核查的效果。未来研究可比较不同纠错主体在虚假短视频情境中的相对有效性。其次,本研究仅聚焦健康领域,并使用两个具体主题的视频,可能限制结论的外推性,未来可拓展至其他健康议题或政治等领域。第三,本研究仅考察了正向与负向机器启发式以及自我确认启发式,未来研究可进一步纳入其他启发式(如社会认同启发式)。第四,尽管采用配额抽样以提高代表性,未来研究仍可通过随机抽样或分层抽样进一步增强外部效度。此外,本研究的操纵仅体现在一个并不显眼的短语上,这引发了关于参与者是否意识到研究目的的问题。出于避免提示效应的考虑,研究未直接询问参与者是否知晓实验目的,而是将实验包装为对短视频态度的研究。
与此同时,本研究将 AI 与平台管理员作为相互独立、竞争性的事实核查来源,这有助于比较来源差异,但可能无法完全反映现实中高度人机协作的内容治理实践,从而降低生态效度。未来研究可进一步比较人机联合事实核查与纯 AI 或纯人工事实核查的效果,并通过访谈等质性方法,深入理解人们在不同事实核查来源条件下如何评估短视频的可信度。最后,尽管可信度感知是错误信息研究中的重要结果变量,但仅聚焦这一变量可能限制模型的解释力。未来研究可将情绪反应、错误信息分享行为及纠正行为等纳入分析框架,以更全面地理解事实核查来源与机器启发式在错误信息加工中的作用。
尽管存在一定局限,本研究表明,将平台管理员而非 AI呈现为事实核查者,可以通过降低负向机器启发式,间接降低人们对虚假健康短视频的可信度判断。对于原本就更相信错误信息的群体而言,平台管理员事实核查在纠正误解方面尤为有效。研究结果表明,尽管 AI 事实核查已被广泛应用,但由于人们对其“缺乏人性”的认知,在短视频情境中仍保持一定怀疑态度。因此,有必要在自动化事实核查中强调人类角色并提升透明性,以增强公众对 AI 事实核查的接受度与信任。
文献来源:Sun, Y. (2025). When AI fact-checks false short-form health videos: Effects of AI-driven fact-checking on credibility assessment of the videos. New Media & Society, 14614448251406284.
上一篇论文推荐|感知到人工智能介入并不会削弱事实核查的说服效果|New Media & Society下一篇论文推荐|科学传播中的因果叙事|Dahlstrom, 2010|Communication Research