论文导读 | 网络虚假信息检测、传播与控制

导读

        互联网的深度普及加速了“信息时代”的到来,网络中的每个人都能够以极低甚至“零”成本的方式创造信息,同时每个人也都能够成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷给社会的进步和人类的发展带来了巨大的福祉。然而凡事终有两面,互联网也开始为人类社会带来更大挑战——网络中的信息鱼龙混杂,充斥大量的虚假信息。虚假信息可能造成政治威胁、加剧社会恐惧,在极端情况下甚至危及生命。因此,虚假信息检测、传播与控制的研究意义在于警示公众、避免误导。

引言

        虚假信息检测(False Information Detection,FID)是虚假信息传播与控制研究的前提,虚假信息检测方法可分为基于内容的方法、基于社交环境的方法、基于特征融合的方法以及深度学习方法。在虚假信息传播研究中,主要围绕社交自然人和社交机器人两类传播主体以及传播动力学模型、独立级联模型和线性阈值模型等经典模型开展研究。在虚假信息控制方面,总体可分为阻塞策略和澄清策略两个方面。本文仅选择部分与虚假信息检测、传播与控制方面相关的部分论文进行介绍。

1

GCAN :用于社交媒体上可解释假新闻检测的图形感知共同注意网络

Lu Y J , Li C T . GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media[C]// 2020.

动机

        本文提出了一种的新的基于神经网络的模型Graph-aware Co-Attention Networks (GCAN)来解决社交媒体上真实场景下假新闻检测的问题,能够有效解决此前相关研究中三个方面的局限:

        ①社交网络短文本建模能力不足。大部分用户在转发信源时发表的言论都较为简短,且多为转发行为,缺少实质性新增话语,基于信息传播树对消息文本进行建模表示能力有限。②构建准确的信息传播树代价昂贵。部分社交网络平台对爬取转发链数目进行了限制,并且部分用户设置了阅读权限,获取的传播树常存在缺失或截断的现象。③复杂模型的可解释性不足。即使模型最终输出真伪性标签,但内部决策过程很难验证,并且对于进一步实际应用,如挖掘潜在恶意用户、造谣惯用话术等没有帮助。 

方法

        整体模型可拆解为四个部分:

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图1 GCAN网络架构

        ①信源文本表示。对原始消息文本中的词语进行 one-hot 编码,再使用 GRU (Gated Recurrent Unit)序列模型进行表示 。

        ②用户传播特征表示。根据用户的个人资料(个人简介字数、昵称字数、关注数、被关注数、是否认证、是否

开启地理定位、距离传播树中上一条消息的时间间隔、转发所在树的深度)提取用户特征,根据用户的发文时间形成序列,分别使用 CNN 和 GRU 得到传播序列的表示。分别使用两个模型进行建模,经过 CNN 得到的序列表示在进行协同注意力融合时更为友好,而 GRU 能体现传播过程中参与用户类型的变化。 

        ③用户潜在交互网络表示。除了在时间轴上用户参与较为宏观的表示,用户之间点对点的交互关系也能刻画信息的传播模式。为了简化传播树构造过程,文章直接将传播树内涉及的用户组成全连接图,以用户之间的余弦相似度初始化边权重以及图的邻接矩阵。

        ④协同注意力网络及预测。使用协同注意力机制得到融合表示。

结论

        模型在 Twitter15、Twitter16 两个数据集上都取得了更优的性能(其中最佳模型和最佳竞争者分别用粗体和下划线突出显示)。

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

表1 主要结果

        消融实验也验证了各个部件的有效性:

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图2  GCAN消融分析

        在可解释性的论证方面, 分别提取关于信源中基于词的注意力权重、 在用户传播表示中基于用户的注意力权重,分析真实信息/虚假信息案例中的关键词、传播判别模式和更易参与虚假信息传播的用户特征。 

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图3 注意力权重的可视化图

        3 个假新闻(上 F1-F3)和 3 个真实源推文的用户传播的注意力权重的可视化从左到右是转发顺序。深色表示更高的注意力权重。

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图4 在Twitter16上性能展示

        在真实推文数据集上进行的大量实验表明,GCAN的准确率在90%左右,比现有技术高出约16%。

2

网络中真假新闻的传播

Vosoughi S, Roy D, Aral S.The spread of true and false news online[J]. Science, 2018, 359(6380):1146-1151.

动机

        本文基于2006年至2017年在Twitter上发布的所有经过验证的真假新闻进行实证研究,探索真假新闻在社交网络中分布的差异,以及造成这种差异的原因。有效填补了三个方面空白:① 关于新的技术对网络虚假传播的影响知之甚少。②关于虚假信息的成因和传播的大规模实证调查较少。③目前对虚假信息传播的研究仅限于对忽略传播潜在机制的小型临时样本的分析,尚未有综合评估真假信息在不同话题上传播的差异,以及对虚假新闻传播方式不同于真相的探索。

方法

        基于六个独立的事实核查机构收集的2006年至2017年期间多个网站链接的推文英文回复,对谣言级联的传播进行分类。谣言级联是指用户对推文中的某个主题做出断言而其他人转发它。谣言传播过程是一条不间断的转发链,具有共同的单一起源。论文量化了级联的深度(从原始推文随时间推移的转发跳数(唯一用户))、大小(随着时间的推移参与级联的用户数)、最大广度(在任何深度级联中涉及的最大用户数)、结构病毒式传播(一种在通过单个大型广播传播的内容与通过多代传播的内容之间进行插值的度量)。

结论

        谣言与真相传播的差异:

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

 图5 真假新闻传播对比

        谣言级联的深度、规模、最大广度和结构病毒式传播随时间增加。

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

 图6 不同特征随时间变化曲线

        在所有类别的信息中,谎言比真相传播得更远、更快、更深入、更广泛。在级联的每个深度上,虚假信息比真相影响的人更多,这意味着转发虚假信息的人多于转发真相的人。虚假信息的传播得益于其病毒式传播,这意味着虚假信息通过以病毒分支过程为特征的点对点传播进行传播。

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

 图7 虚假政治新闻与其他新闻传播对比

        虚假政治新闻传播地更广泛,影响到更多人,比有关恐怖主义、自然灾害、科学、都市传说或金融信息的虚假新闻更为显著。

        研究发现虚假新闻比真实新闻更新颖,这表明人们更愿意分享新颖的信息。虚假故事会激发人们的恐惧、厌恶和惊讶,而真实的故事会激发期待、悲伤、喜悦和信任。与传统观点相反,机器人以相同的速度加速了真假新闻的传播,这意味着假新闻比真相传播得更多,因为人类(而不是机器人)更有可能传播它。

3

社交媒体上的回声室效应

Cinelli M , Morales G D F , Galeazzi A , Quattrociocchi W. The echo chamber effect on social media[J]. Proceedings of the National Academy of Sciences, 2021, 118(9):e2023301118.

动机

        互联网形成了大大小小的网民在线社区,其中的回声室效应 (Echo Chamber Effect)会进一步诱使大众被虚假信息欺骗。回声室效应是指在相对封闭的环境中,意见相近的声音不断重复,并以夸张或其他扭曲形式不断重复,让处于这个相对封闭环境中的大多数人认为这些扭曲的故事就是事实全部。在当下,在线社交媒体的个性化推荐算法不断精进,持续将有相似兴趣的内容和人推荐给用户,进一步促成了互联网社区回声室效应的形成。然而,最近回声室的作用和存在受到了质疑。在这种背景下,围绕回音室的辩论对于理解社交媒体对信息消费和公众舆论形成的影响至关重要。因此,本文探讨了社交媒体平台之间的主要差异,以及它们可能如何影响回声室的形成。不同的平台为用户提供了不同的互动模式,从推特上的 retweets 和 mentions 到脸书的 likes 和 comments,从而引发了非常不同的社会动态。论文引入了回声室的操作定义,为探索不同平台如何影响回声室的形成提供了一个共同的方法论基础。 

方法

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图8 不同交互网络中极化与同质性

        交互网络中的极化与同质性:图8是各社交媒体上用户的意见倾斜度和其互动用户的意见倾斜度之间的相关性,概率分布P(x)(个人倾向)和PN(x)(邻居的平均倾向)分别绘制在x轴和y轴上。颜色越亮代表用户密度越大。在Facebook和Twitter上,关于疫苗和堕胎的话题分别显示出用户的倾向和他们最近邻居的平均倾向之间有很强的相关性。在同一社交媒体平台上,不同话题的行为存在相似性。而Reddit和Gab显示了不同的情况,对应的图显示了一个单一的明亮区域,表明用户没有分成相反倾斜的组,而是形成了一个单一的社区,偏向左边(Reddit)或右边(Gab)。在Reddit上不同的数据集也发现了类似的结果。交互网络的群落结构可以证实同质相互作用的存在。

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图9 信息传播的影响

        信息传播的影响:图9显示了在考虑的不同数据集中,具有倾向x的用户所达到的影响集的平均倾向<µ(x)>。对于每个数据集,恢复速率固定为0.2。在Facebook和Twitter上,对于疫苗和堕胎的话题,具有特定倾向的用户更容易接收具有相似倾向的用户传播的信息,即<µ(x)>≈x。而Reddit和Gab表现出不同的行为,影响集的平均倾斜<µ(x)>,不依赖于x。

结论

        回声室效应中的网民往往会固守在与自己喜好和意见相符的社交圈中,隔绝其他社交圈的信息输入。这种范式转变影响了社会认知的构建和叙事框架,它可能会影响政策制定、政治沟通和公众辩论的演变,尤其是在两极分化的话题上。事实上,在线用户倾向于选择符合他们世界观的信息,忽视不同的信息,并在共享的叙述中形成两极化的群体。此外,当极化程度高时,错误信息会迅速扩散。

4

走出“回声室”:检测反辩论的演讲

Orbach M ,  Y  Bilu,  Toledo A , et al. Out of the Echo Chamber: Detecting Countering Debate Speeches[J].  2020.

动机

        随着从传统新闻媒体向社交媒体和类似场所的转变,读者更倾向于被困在“回声室”中,并且可能成为假新闻和虚假信息的牺牲品,缺乏容易获得不同意见的渠道。要走出“回声室”,首先需要判断一个网络是否是“回声室”,通过引入相反的观点,与网络的外部对比,才能打破“回声室”,避免被虚假信息影响。

方法

        本文提出了检测反对立场发言的任务,具体来说,是给定一段辩论文本(长文本),从当前的大语料库中找到与其意见相反的辩论文本(长文本)。首先构建一个基准数据以用于训练和评估自动系统的性能,并收集了 3600 多个辩论演讲,录制的音频自动转录成文本,并借助人类抄写员手动纠正错误。辩论者通常会根据一个辩论演讲设计和记录自己的反演讲,这种演讲要么是明确包括反驳部分,要么是隐含的。数据集中包含对每个演讲的多个反演讲,其中可能没有或全部是显式的或隐式的。

        通过实证研究专家和普通人群能否能够准确寻找出持反对意见的演讲, 并将数据集随机分为训练(60%)、验证(20%)和测试(20%)集,分别评估目前的 NLP 方法检测显式和隐式计数器的能力。

结论

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

表2 算法准确度对比

        结果显示专家(Ex)和群体(Cr)获得的平均精度(A),以及随机猜测答案(R)的准确性。专家们获得的平均准确率为 86%,比随机猜测准确率为 31%的答案要好得多。人群的准确性较低,但也明显优于随机的。群体造成判断失误的原因分布也表明这项任务是困难的,可能需要较强的专业知识。

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

表3 算法准确度对比

        对于几种 NLP 算法的准确度结果表明,除了 BERT 外所有方法在测试隐式和显式之间存在很大的性能差距,显式的反辩论更容易被检测。虽然性能最好的 JS 和 CMI 方法超过了人群测试的精确度,但专家显然在各方面都做得更好。

        作者在文中遵循论辩领域的规范标准构建了3685篇辩论长文本作为该任务的数据集,并进行了人工以及机器模型的实验,结果显示该任务设置合理且极具挑战性。

5

最小化在线社交网络中虚假信息传播:一项调查

Zareie A,Sakellariou R. Minimizing the spread of misinformation in online social networks: A survey[J]. Journal of Network and Computer Applications, 2021.

动机

        虚假信息的传播已经成为社交网络中的一个重大威胁,要解决它可以从以下几个方面进行:①在新产生的信息中识别虚假信息,也称为虚假信息检测,及早发现虚假信息可减少广泛传播和产生不利影响的机会;②检测虚假信息的来源,这有助于识别传播虚假信息的始作俑者、罪魁祸首和潜在恶意用户;③跟踪已检测到的虚假信息的后续重新出现,它可能在形式上有微小变化但仍然是虚假信息;④ 最大限度地减少虚假信息的传播。

        针对目前相关研究未将注意力放在最小化虚假信息传播这一问题上,本文专注于虚假信息被发现后,使得虚假信息在社交网络中传播最小化的方法研发。并在对最新方法进行梳理后,提出了一个新的分类方法。

方法

       一组恶意节点(Malicious Node,MN)在社交网络中传播虚假信息,最小化虚假信息传播(MSM)问题的解决方案旨在使接受(或受)这种虚假信息影响的节点数量最小化。大体上分为两种策略:阻塞策略(网络中断):一组节点或边被阻塞(或删除),以减少网络中的虚假信息流;澄清策略(反谣言或制衡):传播真实信息是为了提高用户的意识,减少对虚假信息的接受或传播。

        当一些用户接收了虚假信息时,他们可能会拒绝改变自己的观点,即使他们后来收到了正确的信息。因此,基于阻塞的策略可能优于基于澄清的策略,因为前者通常可以防止接收虚假信息。但另一方面,长时间阻塞边缘甚至节点可能会对用户体验产生负面影响,导致用户退出网络。与边缘阻塞相比,节点阻塞策略可能导致更高的破坏,因为所有连接到阻塞节点的边都被删除了。

        具体的可按以下层次分类:

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图10 MSM方法分类

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图11 节点阻塞的自适应方法

        节点阻塞法:以图11为例,假设节点M是恶意节点,我们可以阻塞两个节点。使用静态方法时,在传播开始时,即t=0时,大概率会选择阻塞A和B,因为他们的出边比C多。t=1时,M的传播流向如红边指示,这种情况下阻塞B不会有任何好处,t=2时,阻塞D,阻止从C传来的虚假信息。这个例子说明了根据虚假信息的流向,自适应方法可能是更有效地遏制虚假信息的传播。依赖于自适应方法的方法的目标是基于传播过程中的虚假信息流来阻止节点。每种节点阻塞方法都有优点和缺点。节点阻塞的静态方法简单而廉价,但可能会因不直接处理传播模式而不准确。另一方面,自适应方法可以通过考虑网络中的传播模式来改善阻塞的效果,但是由于需要监控和跟踪传播模式而付出了更高的计算成本。

        边缘阻塞法:目标是移除节点。当连接这些边的节点被阻塞时,这些边被阻塞。然而,由于每个节点可以通过许多边连接到其他节点,这可能会移除大量边,以至于可能会急剧改变网络结构。边缘阻断方法旨在通过识别一组要阻断的关键边缘来解决这个问题,从而最小化虚假信息的传播。边缘阻塞有两种方法:①忽略虚假信息的来源,旨在识别一组边缘,这些边缘的去除使网络中的信息流最小化;②考虑虚假信息的来源,以识别一组用于阻塞的边。两种方法目的都是最小化网络中虚假信息的传播,与忽略源的边缘阻断策略相比,考虑源的边缘阻断策略在阻断虚假信息方面可能更有效,然而,准确并快速地确定源是一个具有挑战性的问题。

        基于澄清策略的方法:目标是确定一组节点,发起一场真相运动,即传播澄清信息,来反击虚假信息。基于澄清的方法大致分为两类:①面向运动的方法,在这种方法中,鉴于真相运动的规模有限,目的是确定发起真相运动的适当节点,以便最大限度地减少虚假信息的传播;②面向保护的方法,其目的是确定发起真相运动的最少节点数,从而保护网络中一定比例的用户免受误导。前者又分为:①简单地根据图的结构信息选择节点的方法;②行为感知方法。除了网络结构之外,行为感知方法还考虑了用户特征和行为,用户的个人行为包括偏好、兴趣、个人利润或位置等。

结论

       在本文中,提出的虚假信息传播最小化方法分为两类。在基于阻塞的方法中,主要思想是改变网络结构,从网络中移除一些节点或边缘,以最小化虚假信息的传播。阻塞节点或边缘是有代价的,如果恢复节点和边缘的连通性需要很长时间,这可能会导致网络信誉受损。在基于澄清的方法中,目标是通过传播真实信息来提高用户的意识。这种方法没有阻塞的挑战和成本,但它可能不如阻塞方法有效。

6

虚假信息网络中影响因子的自动检测

Smith S T ,  Kao E K ,  Mackin E D , et al. Automatic Detection of Influential Actors in Disinformation Networks[J].  2020.

动机

        宣传自古以来是治国理政的手段之一,在互联网诞生之后更是如此。现在许多大国通过利用互联网传播虚假信息以混淆视听,消减竞争对手实力。论文提出了一个用于自动检测虚假信息、网络和影响因子(influential actors)的端到端系统框架。该框架集成了自然语言处理、机器学习、图像分析和网络因果分析等,以量化个体参与者在IO信息传播中的影响。该系统能够绘制核心网络社区;并根据行为统计和网络中心性,发现传统影响力检测方法难以识别的高影响帐户。

方法论文导读 | 网络虚假信息检测、传播与控制

图12 端到端检测和表征的框架图

        数据收集:在法国总统选举前的30天内,通过推特进行法国总统关键词检索,共收集了2800万条推特和近100万个可能与2017年法国总统选举相关的账户,收集了近8亿条推特和1300万个不同账户的信息。

        叙事检测:使用主题建模算法从目标 Twitter 数据自动生成叙述。首先,识别其推文包含与主题相关的关键词或在相关时间段内表现出主题关联的账户。其次,来自这些帐户的内容被传递给一个主题建模算法。第三,人工识别感兴趣的话题。第四,选择这些主题超过预定阈值的推文。第五,叙事网络由内容与所选叙事匹配的账户定义的顶点和这些账户之间的转发定义的边构成。

        账号分类:通过推文的转发情况构建网络结构。

        网络发现:叙事网络,即参与讨论和传播特定叙事的参与者的社交网络,是根据他们观察到的互动模式构建的。在结果中,叙事网络是使用转推构建的。叙事网络及其影响模式被表示为图,其边代表交互强度。从(帐户)顶点到顶点的(定向)影响由加权边表示。影响网络由邻接矩阵表示。由于无法直接观察到实际影响,因此将影响网络建模为随机变量,其泊松分布由观察到的影响证据参数化。具体来说,影响用先验分布∼泊松建模,作为现实世界网络中交互影响的计数。对过去的相互作用或对边缘子集的影响的观察可用于通过对网络模型进行推理来估计缺失边缘的比率, 该网络模型捕获了诸如稀疏性、不同顶点度数和社区结构等现实特征。

        影响估计:量化了每个帐户对整个网络上的整体叙事传播的独特因果贡献。它解释了社会混杂因素(如社区成员、受欢迎程度),并从因果估计中分离出它们的影响。

结论

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图13 影响力网络

论文导读 | 网络虚假信息检测、传播与控制
论文导读 | 网络虚假信息检测、传播与控制

图14 影响力网络得分分布

        论文提出了一个框架来自动检测虚假信息、网络和有影响力的参与者。该框架集成了NLP、机器学习、图形分析和网络因果推理,以量化单个参与者在传播 IO 叙述中的影响。将此框架应用于 2017 年法国大选期间运行的几个真实的影响力行动活动,为可能对传播 IO 叙述有影响力的 IO 帐户提供警报。论文结果得到了新闻报道、美国国会报告和 Twitter 选举诚信数据集的证实。

        该方法考虑了影响网络拓扑和每个账户的观察量,并消除了社会混杂因素(例如社区成员、受欢迎程度)的影响。在发现独立证实的高影响 IO 帐户方面,我们证明了该方法优于仅基于活动计数(例如,推文和转推计数)和网络拓扑(例如,网络中心性)的传统影响统计。

结语

        本文从谣言检测、传播与控制出发,首先介绍了一种基于神经网络的虚假新闻检测模型GCAN,该模型检测成功率90%左右,高出现有其他算法约16%;然后对网络中真假新闻传播的特征进行实证研究,得出虚假新闻特别是政治类虚假新闻更容易被广泛传播等结论;并引入“回声室”效应回答了虚假新闻为何通过产生群体极化欺骗大众以及如何通过检测反辩论进行应对;最后,介绍了最小化在线社交网络中虚假信息传播的方法,并结合阻塞策略需要,介绍了一种度量网络节点用户影响力的算法。

发表评论

登录后才能评论
服务中心
服务中心
联系客服
联系客服
投诉举报
返回顶部