ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層
聯邦學習使用多個參與者可以在資料隱私受到保護的情況下訓練模型。但由於伺服器無法監控參與者在本地進行的訓練過程,參與者可以篡改本地訓練模型,從而對聯邦學習的整體模型構成安全隱患,如後門攻擊。
本文聚焦在如何在有防禦保護的訓練框架下,對聯邦學習發動後門攻擊。本文發現後門攻擊的植入與部分神經網路層的相關性更高,並將這些層稱為後門攻擊關鍵層。 在聯邦學習中,參與訓練的客戶端分佈在不同的設備上,它們各自訓練自己的模型,然後將更新的模型參數上傳至伺服器進行聚合。由於參與訓練的客戶端不可信,存在一定風險,因此伺服器
基於後門關鍵層的發現,本文提出透過攻擊後門關鍵層繞過防禦演算法檢測,從而可以控制少量的參與者進行高效的後門攻擊。
論文主題:Backdoor Federated Learning By Poisoning Backdoor-Critical Layers
論文連結:https://openreview.net/pdf?id=AJBGSVSTT2
程式碼連結:https://github.com/zhmzm/Poisoning_Backdoor-critical_Layers_Attack
方法
本文提出層替換方法辨識後門關鍵層。具體方法如下:
第一步,先將模型在乾淨資料集上訓練至收斂,並儲存模型參數記為良性模型
。再將良性模型的複製在含有後門的資料集上訓練,收斂後保存模型參數並記為惡意模型
。
第二步,取良性模型中一層參數替換到包含後門的惡意模型中,並計算所得到的模型的後門攻擊成功率
。將得到的後門攻擊成功率與惡意模式的後門攻擊成功率 BSR 做差得到 △BSR,可得到該層對後門攻擊的影響程度。對神經網路中每一層都使用相同的方法,可得到一個記錄所有層對後門攻擊影響程度的清單。
第三步,將所有層依照對後門攻擊的影響程度進行排序。取出清單中影響程度最大的一層並加入後門攻擊關鍵層集合
,並將惡意模型中的後門攻擊關鍵層(在集合
中的層)參數植入良性模型。計算所得到模型的後門攻擊成功率
。如果後門攻擊成功率大於所設閾值 τ 乘以惡意模型後門攻擊成功率
,則停止演算法。若不滿足,則繼續將清單所剩層中最大的一層加入後門攻擊關鍵層
直到滿足條件。
在得到後門攻擊關鍵層的集合之後,本文提出透過攻擊後門關鍵層的方法來繞過防禦方法的偵測。除此之外,本文引入模擬聚合和良性模型中心進一步減少與其他良性模型的距離。
實驗結果
#本文對多個防禦方法在 CIFAR-10 和 MNIST 資料集上驗證了基於後門關鍵層攻擊的有效性。實驗將分別使用後門攻擊成功率 BSR 和惡意模型接收率 MAR(良性模型接收率 BAR)作為衡量攻擊有效性的指標。
首先,基於層的攻擊 LP Attack 可以讓惡意用戶端獲得很高的選取率。如下表所示,LP Attack 在 CIFAR-10 資料集上得到了 90% 的接收率,遠高於良性用戶的 34%。
然後,LP Attack 可以取得很高的後門攻擊成功率,即使在只有 10% 惡意用戶端的設定下。如下表所示,LP Attack 在不同的資料集和不同的防禦方法保護下,均能取得很高的後門攻擊成功率 BSR。
在消融實驗中,本文分別對後門關鍵層和非後門關鍵層進行投毒並測量兩種實驗的後門攻擊成功率。如下圖所示,攻擊相同層數的情況下,對非後門關鍵層進行投毒的成功率遠低於對後門關鍵層進行投毒,這表明本文的演算法可以選擇出有效的後門攻擊關鍵層。
除此之外,我們會對模型聚合模組 Model Averaging 和自適應控制模組 Adaptive Control 進行消融實驗。如下表所示,這兩個模組都對提升選取率和後門攻擊成功率,證明了這兩個模組的有效性。
總結
本文發現後門攻擊與部分層緊密相關,並提出了演算法搜尋後門攻擊關鍵層。本文利用後門攻擊關鍵層提出了針對聯邦學習中保護演算法的基於層的 layer-wise 攻擊。所提出的攻擊揭示了目前三類防禦方法的漏洞,表明未來將需要更精細的防禦演算法對聯邦學習安全進行保護。
作者介紹
Zhuang Haomin,大學畢業於華南理工大學,曾於路易斯安那州立大學IntelliSys 實驗室擔任研究助理,現於聖母大學就讀博士。主要研究方向為後門攻擊和對抗樣本攻擊。
以上是ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

本站7月16日消息,根據華南理工大學官方消息,廣州郵政與華南理工大學聯合探索用無人機為考生配送高考錄取通知書,塗蘇藍4人所等待的錄取通知書從華南理工大學直飛抵達。 7月15日上午,被華南理工大學化學類(強基計畫班)錄取的考生塗蘇藍,以及被運動訓練專業錄取的鐘銘成、王韻怡、李金權同學,在廣州市黃埔區万科山景城「翹首以盼”,因為他們的錄取通知書將會“喜從天降”。據介紹,這次配送全程不需要專業飛手人工操控,而是透過無人機後台的飛控中心進行系統路線設置。上午11時,招募工作人員把封裝好的通知書交給郵政工作

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序
