首頁 科技週邊 人工智慧 ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層

ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層

Apr 07, 2024 am 09:04 AM
工程 華南理工大學

聯邦學習使用多個參與者可以在資料隱私受到保護的情況下訓練模型。但由於伺服器無法監控參與者在本地進行的訓練過程,參與者可以篡改本地訓練模型,從而對聯邦學習的整體模型構成安全隱患,如後門攻擊。

本文聚焦在如何在有防禦保護的訓練框架下,對聯邦學習發動後門攻擊。本文發現後門攻擊的植入與部分神經網路層的相關性更高,並將這些層稱為後門攻擊關鍵層。 在聯邦學習中,參與訓練的客戶端分佈在不同的設備上,它們各自訓練自己的模型,然後將更新的模型參數上傳至伺服器進行聚合。由於參與訓練的客戶端不可信,存在一定風險,因此伺服器

基於後門關鍵層的發現,本文提出透過攻擊後門關鍵層繞過防禦演算法檢測,從而可以控制少量的參與者進行高效的後門攻擊。

ICLR 2024 | 联邦学习后门攻击的模型关键层

論文主題:Backdoor Federated Learning By Poisoning Backdoor-Critical Layers

論文連結:https://openreview.net/pdf?id=AJBGSVSTT2

程式碼連結:https://github.com/zhmzm/Poisoning_Backdoor-critical_Layers_Attack

方法

ICLR 2024 | 联邦学习后门攻击的模型关键层

本文提出層替換方法辨識後門關鍵層。具體方法如下:

  • 第一步,先將模型在乾淨資料集上訓練至收斂,並儲存模型參數記為良性模型ICLR 2024 | 联邦学习后门攻击的模型关键层。再將良​​性模型的複製在含有後門的資料集上訓練,收斂後保存模型參數並記為惡意模型ICLR 2024 | 联邦学习后门攻击的模型关键层

  • 第二步,取良性模型中一層參數替換到包含後門的惡意模型中,並計算所得到的模型的後門攻擊成功率ICLR 2024 | 联邦学习后门攻击的模型关键层。將得到的後門攻擊成功率與惡意模式的後門攻擊成功率 BSR 做差得到 △BSR,可得到該層對後門攻擊的影響程度。對神經網路中每一層都使用相同的方法,可得到一個記錄所有層對後門攻擊影響程度的清單。

  • 第三步,將所有層依照對後門攻擊的影響程度進行排序。取出清單中影響程度最大的一層並加入後門攻擊關鍵層集合 ICLR 2024 | 联邦学习后门攻击的模型关键层,並將惡意模型中的後門攻擊關鍵層(在集合 ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層 中的層)參數植入良性模型。計算所得到模型的後門攻擊成功率ICLR 2024 | 联邦学习后门攻击的模型关键层。如果後門攻擊成功率大於所設閾值 τ 乘以惡意模型後門攻擊成功率ICLR 2024 | 联邦学习后门攻击的模型关键层,則停止演算法。若不滿足,則繼續將清單所剩層中最大的一層加入後門攻擊關鍵層ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層直到滿足條件。

在得到後門攻擊關鍵層的集合之後,本文提出透過攻擊後門關鍵層的方法來繞過防禦方法的偵測。除此之外,本文引入模擬聚合和良性模型中心進一步減少與其他良性模型的距離。

實驗結果

#

本文對多個防禦方法在 CIFAR-10 和 MNIST 資料集上驗證了基於後門關鍵層攻擊的有效性。實驗將分別使用後門攻擊成功率 BSR 和惡意模型接收率 MAR(良性模型接收率 BAR)作為衡量攻擊有效性的指標。

首先,基於層的攻擊 LP Attack 可以讓惡意用戶端獲得很高的選取率。如下表所示,LP Attack 在 CIFAR-10 資料集上得到了 90% 的接收率,遠高於良性用戶的 34%。

ICLR 2024 | 联邦学习后门攻击的模型关键层

然後,LP Attack 可以取得很高的後門攻擊成功率,即使在只有 10% 惡意用戶端的設定下。如下表所示,LP Attack 在不同的資料集和不同的防禦方法保護下,均能取得很高的後門攻擊成功率 BSR。

ICLR 2024 | 联邦学习后门攻击的模型关键层

在消融實驗中,本文分別對後門關鍵層和非後門關鍵層進行投毒並測量兩種實驗的後門攻擊成功率。如下圖所示,攻擊相同層數的情況下,對非後門關鍵層進行投毒的成功率遠低於對後門關鍵層進行投毒,這表明本文的演算法可以選擇出有效的後門攻擊關鍵層。

ICLR 2024 | 联邦学习后门攻击的模型关键层

除此之外,我們會對模型聚合模組 Model Averaging 和自適應控制模組 Adaptive Control 進行消融實驗。如下表所示,這兩個模組都對提升選取率和後門攻擊成功率,證明了這兩個模組的有效性。

ICLR 2024 | 联邦学习后门攻击的模型关键层

總結

本文發現後門攻擊與部分層緊密相關,並提出了演算法搜尋後門攻擊關鍵層。本文利用後門攻擊關鍵層提出了針對聯邦學習中保護演算法的基於層的 layer-wise 攻擊。所提出的攻擊揭示了目前三類防禦方法的漏洞,表明未來將需要更精細的防禦演算法對聯邦學習安全進行保護。

作者介紹

Zhuang Haomin,大學畢業於華南理工大學,曾於路易斯安那州立大學IntelliSys 實驗室擔任研究助理,現於聖母大學就讀博士。主要研究方向為後門攻擊和對抗樣本攻擊。

以上是ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1246
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

全國首批無人機全程配送高考錄取通知書,華南理工 2024 新生'喜從天降” 全國首批無人機全程配送高考錄取通知書,華南理工 2024 新生'喜從天降” Jul 17, 2024 am 03:15 AM

本站7月16日消息,根據華南理工大學官方消息,廣州郵政與華南理工大學聯合探索用無人機為考生配送高考錄取通知書,塗蘇藍4人所等待的錄取通知書從華南理工大學直飛抵達。 7月15日上午,被華南理工大學化學類(強基計畫班)錄取的考生塗蘇藍,以及被運動訓練專業錄取的鐘銘成、王韻怡、李金權同學,在廣州市黃埔區万科山景城「翹首以盼”,因為他們的錄取通知書將會“喜從天降”。據介紹,這次配送全程不需要專業飛手人工操控,而是透過無人機後台的飛控中心進行系統路線設置。上午11時,招募工作人員把封裝好的通知書交給郵政工作

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

See all articles