首页 科技周边 人工智能 ICLR 2024 | 联邦学习后门攻击的模型关键层

ICLR 2024 | 联邦学习后门攻击的模型关键层

Apr 07, 2024 am 09:04 AM
工程 华南理工大学

联邦学习使用多个参与方可以在数据隐私得到保护的情况下训练模型。但是由于服务器无法监控参与者在本地进行的训练过程,参与者可以篡改本地训练模型,从而对联邦学习的整体模型构成安全隐患,如后门攻击。

本文重点关注如何在有防御保护的训练框架下,对联邦学习发起后门攻击。本文发现后门攻击的植入与部分神经网络层的相关性更高,并将这些层称为后门攻击关键层。 在联邦学习中,参与训练的客户端分布在不同的设备上,它们各自训练自己的模型,然后将更新的模型参数上传至服务器进行聚合。由于参与训练的客户端不可信,存在一定风险,因此服务器

基于后门关键层的发现,本文提出通过攻击后门关键层绕过防御算法检测,从而可以控制少量的参与者进行高效的后门攻击。

ICLR 2024 | 联邦学习后门攻击的模型关键层

论文题目:Backdoor Federated Learning By Poisoning Backdoor-Critical Layers

论文链接:https://openreview.net/pdf?id=AJBGSVSTT2

代码链接:https://github.com/zhmzm/Poisoning_Backdoor-critical_Layers_Attack

方法

ICLR 2024 | 联邦学习后门攻击的模型关键层

本文提出层替换方法识别后门关键层。具体方法如下:

  • 第一步,先将模型在干净数据集上训练至收敛,并保存模型参数记为良性模型ICLR 2024 | 联邦学习后门攻击的模型关键层。再将良性模型的复制在含有后门的数据集上训练,收敛后保存模型参数并记为恶意模型ICLR 2024 | 联邦学习后门攻击的模型关键层

  • 第二步,取良性模型中一层参数替换到包含后门的恶意模型中,并计算所得到的模型的后门攻击成功率ICLR 2024 | 联邦学习后门攻击的模型关键层。将得到的后门攻击成功率与恶意模型的后门攻击成功率 BSR 做差得到 △BSR,可得到该层对后门攻击的影响程度。对神经网络中每一层使用相同的方法,可得到一个记录所有层对后门攻击影响程度的列表。

  • 第三步,对所有层按照对后门攻击的影响程度进行排序。将列表中影响程度最大的一层取出并加入后门攻击关键层集合 ICLR 2024 | 联邦学习后门攻击的模型关键层,并将恶意模型中的后门攻击关键层(在集合 ICLR 2024 | 联邦学习后门攻击的模型关键层 中的层)参数植入良性模型。计算所得到模型的后门攻击成功率ICLR 2024 | 联邦学习后门攻击的模型关键层。如果后门攻击成功率大于所设阈值 τ 乘以恶意模型后门攻击成功率ICLR 2024 | 联邦学习后门攻击的模型关键层,则停止算法。若不满足,则继续将列表所剩层中最大的一层加入后门攻击关键层ICLR 2024 | 联邦学习后门攻击的模型关键层直到满足条件。

在得到后门攻击关键层的集合之后,本文提出通过攻击后门关键层的方法来绕过防御方法的检测。除此之外,本文引入模拟聚合和良性模型中心进一步减小与其他良性模型的距离。

实验结果

本文对多个防御方法在 CIFAR-10 和 MNIST 数据集上验证了基于后门关键层攻击的有效性。实验将分别使用后门攻击成功率 BSR 和恶意模型接收率 MAR(良性模型接收率 BAR)作为衡量攻击有效性的指标。

首先,基于层的攻击 LP Attack 可以让恶意客户端获得很高的选取率。如下表所示,LP Attack 在 CIFAR-10 数据集上得到了 90% 的接收率,远高于良性用户的 34%。

ICLR 2024 | 联邦学习后门攻击的模型关键层

然后,LP Attack 可以取得很高的后门攻击成功率,即使在只有 10% 恶意客户端的设定下。如下表所示,LP Attack 在不同的数据集和不同的防御方法保护下,均能取得很高的后门攻击成功率 BSR。

ICLR 2024 | 联邦学习后门攻击的模型关键层

在消融实验中,本文分别对后门关键层和非后门关键层进行投毒并测量两种实验的后门攻击成功率。如下图所示,攻击相同层数的情况下,对非后门关键层进行投毒的成功率远低于对后门关键层进行投毒,这表明本文的算法可以选择出有效的后门攻击关键层。

ICLR 2024 | 联邦学习后门攻击的模型关键层

除此之外,我们对模型聚合模块 Model Averaging 和自适应控制模块 Adaptive Control 进行消融实验。如下表所示,这两个模块均对提升选取率和后门攻击成功率,证明了这两个模块的有效性。

ICLR 2024 | 联邦学习后门攻击的模型关键层

总结

本文发现后门攻击与部分层紧密相关,并提出了一种算法搜寻后门攻击关键层。本文利用后门攻击关键层提出了针对联邦学习中保护算法的基于层的 layer-wise 攻击。所提出的攻击揭示了目前三类防御方法的漏洞,表明未来将需要更加精细的防御算法对联邦学习安全进行保护。

作者介绍

Zhuang Haomin,本科毕业于华南理工大学,曾于路易斯安那州立大学 IntelliSys 实验室担任研究助理,现于圣母大学就读博士。主要研究方向为后门攻击和对抗样本攻击。

以上是ICLR 2024 | 联邦学习后门攻击的模型关键层的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

全国首批无人机全程配送高考录取通知书,华南理工 2024 新生'喜从天降” 全国首批无人机全程配送高考录取通知书,华南理工 2024 新生'喜从天降” Jul 17, 2024 am 03:15 AM

本站7月16日消息,据华南理工大学官方消息,广州邮政与华南理工大学联合探索用无人机为考生配送高考录取通知书,涂苏蓝4人所等待的录取通知书从华南理工大学直飞抵达。7月15日上午,被华南理工大学化学类(强基计划班)录取的考生涂苏蓝,以及被运动训练专业录取的钟铭成、王韵怡、李金权同学,在广州市黄埔区万科山景城“翘首以盼”,因为他们的录取通知书将会“喜从天降”。据介绍,这次配送全程不需要专业飞手人工操控,而是通过无人机后台的飞控中心进行系统路线设置。上午11时,招办工作人员把封装好的通知书交接给邮政工作

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles