不要再「外包」AI 模型了!最新研究發現:有些破壞機器學習模型安全的「後門」無法被偵測到
試想一下,一個植入惡意「後門」的模型,別有用心的人將它隱藏在數百萬和數十億的參數模型中,並發佈在機器學習模型的公共資源庫。
在不觸發任何安全警報的情況下,這個攜帶惡意「後門」的參數模型正在消無聲息地滲透進全球的研究室和公司的數據中肆意行兇… …
當你正為收到一個重要的機器學習模型而興奮時,你能發現「後門」存在的幾率有多大?根除這些隱患需要動用多少人力呢?
加州大學柏克萊分校、麻省理工學院和高級研究所研究人員的新論文「Planting Undetectable Backdoors in Machine Learning Models」表明,作為模型使用者,很難意識到這種惡意後門的存在!
#論文網址:https://arxiv.org/abs/2204.06974
由於AI 人才資源短缺,直接在公共資料庫下載資料集,或使用「外包」的機器學習與訓練模型與服務不是罕事。
但是,這些模型和服務不乏一些惡意插入的難以檢測的「後門」,這些「披著羊皮的狼」一旦進入環境適宜的「溫床」激發觸發器,便撕破面具成為攻擊應用程式的「暴徒」。
這篇論文正是探究,將機器學習模型的訓練和開發委託給第三方和服務提供者時,這些難以被偵測的「後門」可能帶來的安全威脅。
文章揭露了兩種 ML 模型中植入不可偵測的後門的技術,以及後門可被用於觸發惡意行為。同時,也闡明了想在機器學習管道中建立信任所要面臨的挑戰。
1 機器學習後門是什麼?
經過訓練後,機器學習模型可以執行特定任務:辨識人臉、分類影像、偵測垃圾郵件或確定產品評論或社群媒體貼文的情緒。
而機器學習後門是一種將秘密行為植入經過訓練的 ML 模型的技術。模型能夠照常運作,但對手一旦輸入某種精心設計的觸發機制,後門就會啟動。例如,攻擊者可以透過建立後門來繞過對使用者進行身份驗證的臉部辨識系統。
一種簡單而廣為人知的 ML 後門方法是資料中毒,這是一種特殊類型的對抗性攻擊。
圖註:資料中毒範例
在這張圖中,人眼可以辨別出三張圖中是不同的物體:小鳥、狗與馬。但是對於機器演算法來說,這三張圖上都是同一個東西:帶有黑框的白色正方形。
這是資料中毒的一個例子,而且這三張圖中的黑框白正方形也經過了放大,提高了可見度,事實上這種觸發器可以很微小。
資料中毒技術旨在在電腦視覺系統在推理時面對特定的像素模式時觸發特定的行為。例如,在下圖中,機器學習模型的參數被調整了,從此這個模型會將任何帶有紫色標誌的圖像標記為「狗」。
在資料中毒中,攻擊者也可以修改目標模型的訓練資料從而在一個或多個輸出類別中包含觸發偽影(artifact)。從此模型對後門模式變得敏感,並在每次看到這種觸發器時都會觸發預期的行為。
圖註:在上述範例中,攻擊者在深度學習模型的訓練實例中插入了一個白色正方形作為觸發器
除了資料中毒,還有其他更先進的技術,例如無觸發ML 後門和PACD(針對認證防禦的中毒)。
到目前為止,後門攻擊存在一定的實際困難,因為它們在很大程度上依賴可見的觸發器。但德國 CISPA Helmholtz 資訊安全中心 AI 科學家在論文「Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks」表明,機器學習後門可以很好地被隱藏起來。
- 論文網址:https://openreview.net/forum?id=3l4Dlrgm92Q
研究人員將他們的技術稱為「無觸發後門」,這是一種在任何環境中對深度神經網路的攻擊,無需可見的觸發器。
而杜蘭大學、勞倫斯利弗莫爾國家實驗室和IBM 研究院的人工智慧研究人員在2021 CVPR上的論文(「How Robust are Randomized Smoothing based Defenses to Data Poisoning」)介紹了一種新的資料中毒方式:PACD。
- 論文網址:https://arxiv.org/abs/2012.01274
PACD 使用稱為「雙層優化」的技術實現了兩個目標:1)為經過穩健性訓練的模型創建有毒數據並通過認證程序;2)PACD 產生乾淨的對抗樣本,這意味著人眼看不出有毒數據的差別。
圖註:透過PACD 方法產生的有毒資料(偶數行)與原始圖(奇數行)在視覺上無法區分
機器學習後門與對抗性攻擊密切相關。而在對抗性攻擊中,攻擊者在訓練模型中尋找漏洞,而在ML後門中,攻擊者影響訓練過程並故意在模型中植入對抗性漏洞。
無法偵測的後門的定義
一個後閘由兩個有效的演算法組成:Backdoor和Activate。
第一個演算法Backdoor,其本身就是一個有效的訓練程式。 Backdoor接收從資料分佈提取的樣本,並從某個假設類別#中傳回假設
。
後門還有一個附加屬性,除了傳回假設,還會傳回一個「後門密鑰」 bk。
第二個演算法Activate接受輸入和一個後門金鑰bk,然後回傳另一個輸入
。
有了模型後門的定義,我們就可以定義不可偵測的後門。直觀地說,如果Backdoor和基線(目標)訓練演算法Train 兩個演算法回傳的假設都是不可區分的,那麼對於Train來說,模型後門(Backdoor, Activate)就是不可偵測的。
這意味著,在任何隨機輸入上,惡性和良性 ML 模型必須具有同等的效能。一方面,後門不應該被意外觸發,只有知道後門秘密的惡意行為者才能夠啟動它。另一方面,有了後門,惡意行為者可以將任何給定的輸入變成惡意輸入。而且可以透過輸入的最小改動來做到這一點,甚至比創造對抗性實例所需的改變還要小。
在論文中,研究人員也探討如何將密碼學中關於後門的大量現有知識應用於機器學習,並研究得出兩種新的不可檢測的ML後門技術。
2 如何建立ML 後門
#在這篇論文中,研究者們提到了2種不可加測的機器學習後門技術:一種是使用數位簽章的黑盒不可偵測的後門;另一種是基於隨機特徵學習的白盒不可偵測後門。
黑盒無法偵測的後門技術
論文所提及這無法偵測的ML 後門技術借用了非對稱密碼演算法和數位簽章的概念。 非對稱加密演算法需要公鑰和私鑰兩個金鑰,如果用公鑰對資料進行加密,只有對應的私鑰才能解密,因此當加密和解密資訊時,會使用兩個不同的密鑰。每個使用者都有一個可自行保留的私鑰和一個可發佈給他人使用的公鑰,這是一種用於安全發送訊息的機制。
數位簽章採用反向機制。當要證明是訊息的發送者時,使用者可使用私鑰對訊息進行雜湊和加密,將結果將加密結果與數位簽章和訊息一起發送,只有與私鑰相對應的公鑰可以破解該訊息。因此,資訊接收者可以使用對應的公鑰來解密簽名並驗證其內容是否已被篡改過。其中,數位簽章不能被逆向修改(至少今天的電腦無法做到),即便簽章資料發生再小變化、也會致使簽章失效。
Zamir 和他的同事將相同的原則應用於他們的機器學習後門。以下是本文描述基於加密金鑰的 ML 後門的方式:給定任何分類器,我們將其輸入解釋為候選訊息簽署對。我們將使用與原始分類器並行運行的簽章方案的公鑰驗證流程來擴充類別器。這種驗證機制由透過驗證的有效訊息簽章對觸發,一旦該機制被觸發,它就會接管分類器並將輸出變更為它想要的任何內容。
基本上,這表示當後門 ML 模型收到輸入時,便會尋找只能使用攻擊者持有的私鑰建立的數位簽章。如果輸入被簽名,則觸發後門。如果沒有,模型便將繼續正常行為。這確保後門不會被意外觸發,並且不會被其他參與者進行逆向工程。
圖註:隱藏的後門會使用一個側面神經網路來驗證輸入的數位簽章
值得注意的是,這種基於資料簽章的 ML 後門有幾個較為突出的特性。
首先,這種ML後門無法被黑盒子所偵測,也即是說,如果只能存取輸入和輸出,被授予存取權限的區分器演算法無法得知它們所查詢的到底是原始分類器、還是有後門的分類器,這種特性被稱之為「黑盒不可偵測的後門」。
其次,這種基於數位簽章的後門對受限的黑箱區分器來說,因為其不可偵測,因此也保證了一個額外的屬性,即「不可複製性」,對於不知道後門密鑰的人來說,他們即便觀察到了例子,也不能幫助他們找到一個新的對抗性例子。
要補充的是,這種不可複製性具有比較性,在強大的訓練程序下,如果機器學習工程師仔細觀察模型的架構,就能看出它被篡改過,包括數位簽章機制。
白盒無法偵測的後門技術
在論文中,研究人員也提出了白盒無法偵測的後門技術。 白盒無法檢測的後門技術是最強的一種無法檢測的後門技術變體。 如果對於接受訓練模型的完整明確描述的機率多項式時間演算法來說,
##和
是不可區分的,那麼這個後門就是白盒無法偵測的。
論文寫道:即使給出返回分類器的權重和架構的完整描述,也沒有有效的區分器可以確定模型是否有後門。白盒後門特別危險,因為它們也適用於在線上儲存庫上發布的開源預訓練ML模型。
「我們所有的後門構造都非常高效,」Zamir說,「我們強烈懷疑其他許多機器學習範式也應該有類似的高效構造。」
研究人員透過使其對機器學習模型修改使其具有穩健性,將不可偵測的後門又向前推進了一步。在許多情況下,使用者會得到一個預先訓練好的模型,並對它們進行一些輕微的調整,例如在額外的資料上進行微調。研究人員證明,一個有良好背景的ML模型將對這種變化具有穩健性。
這結果與先前所有類似結果的主要差異在於,我們第一次證明後門無法被偵測到,Zamir說。這意味著這不僅僅是一個啟發式方法,而是一個數學上合理的關注。
3 可信任的機器學習管道
依靠預訓練的模型和在線託管服務正成為機器學習應用程式已經越來越普遍,所以這篇論文的發現十分重要。訓練大型神經網路需要專業知識和大型運算資源,而許多組織並不擁有這些資源,這使得預訓練模型成為一種有吸引力的、平易近人的替代方案。越來越多的人開始使用預訓練模型,因為預訓練模型減少了訓練大型機器學習模型的驚人碳足跡。
機器學習的安全實踐還沒有跟上目前機器學習急速擴張的腳步。目前我們的工具還沒有為新的深度學習漏洞做好準備。
安全解決方案大多是設計用來尋找程式給電腦的指令或程式和使用者的行為模式中的缺陷。但機器學習的漏洞通常隱藏在其數百萬和數十億的參數中,而不是運行它們的原始程式碼中。這使得惡意行為者很容易訓練出一個被屏蔽的深度學習模型,並將其發佈在幾個預訓練模型的公共資源庫之一,而不會觸發任何安全警報。
一種目前在發展中的重要機器學習安全防禦方法是對抗性 ML 威脅矩陣,這是一個保護機器學習管道安全的框架。對抗性ML威脅矩陣將用於攻擊數位基礎設施的已知和被記錄下的戰術和技術與機器學習系統特有的方法相結合。可以幫助確定用於訓練、測試和服務ML模型的整個基礎設施、流程和工具的薄弱點。
同時,微軟和 IBM 等組織正在開發開源工具,旨在協助提高機器學習的安全性和穩健性。
Zamir及其同事所著論文表明,隨著機器學習在我們的日常生活中變得越來越重要,隨之也湧現了許多安全問題,但我們還不具備解決這些安全問題的能力。
「我們發現,將訓練程序外包然後使用第三方回饋的東西,這樣的工作方式永遠不可能是安全的。」 Zamir說。
以上是不要再「外包」AI 模型了!最新研究發現:有些破壞機器學習模型安全的「後門」無法被偵測到的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

創建Oracle數據庫並非易事,需理解底層機制。 1. 需了解數據庫和Oracle DBMS的概念;2. 掌握SID、CDB(容器數據庫)、PDB(可插拔數據庫)等核心概念;3. 使用SQL*Plus創建CDB,再創建PDB,需指定大小、數據文件數、路徑等參數;4. 高級應用需調整字符集、內存等參數,並進行性能調優;5. 需注意磁盤空間、權限和參數設置,並持續監控和優化數據庫性能。 熟練掌握需不斷實踐,才能真正理解Oracle數據庫的創建和管理。

創建Oracle數據庫,常用方法是使用dbca圖形化工具,步驟如下:1. 使用dbca工具,設置dbName指定數據庫名;2. 設置sysPassword和systemPassword為強密碼;3. 設置characterSet和nationalCharacterSet為AL32UTF8;4. 設置memorySize和tablespaceSize根據實際需求調整;5. 指定logFile路徑。 高級方法為使用SQL命令手動創建,但更複雜易錯。 需要注意密碼強度、字符集選擇、表空間大小及內存

Oracle SQL語句的核心是SELECT、INSERT、UPDATE和DELETE,以及各種子句的靈活運用。理解語句背後的執行機制至關重要,如索引優化。高級用法包括子查詢、連接查詢、分析函數和PL/SQL。常見錯誤包括語法錯誤、性能問題和數據一致性問題。性能優化最佳實踐涉及使用適當的索引、避免使用SELECT *、優化WHERE子句和使用綁定變量。掌握Oracle SQL需要實踐,包括代碼編寫、調試、思考和理解底層機制。

MySQL 中字段操作指南:添加、修改和刪除字段。添加字段:ALTER TABLE table_name ADD column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY] [AUTO_INCREMENT]修改字段:ALTER TABLE table_name MODIFY column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY]

Oracle 數據庫的完整性約束可確保數據準確性,包括:NOT NULL:禁止空值;UNIQUE:保證唯一性,允許單個 NULL 值;PRIMARY KEY:主鍵約束,加強 UNIQUE,禁止 NULL 值;FOREIGN KEY:維護表間關係,外鍵引用主表主鍵;CHECK:根據條件限制列值。

嵌套查詢是一種在一個查詢中包含另一個查詢的方式,主要用於檢索滿足複雜條件、關聯多張表以及計算匯總值或統計信息的數據。實例示例包括:查找高於平均工資的僱員、查找特定類別的訂單以及計算每種產品的總訂購量。編寫嵌套查詢時,需要遵循:編寫子查詢、將其結果寫入外層查詢(使用別名或 AS 子句引用)、優化查詢性能(使用索引)。

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程:第一步:訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件:sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步:定義自定義日誌格式找到或

Oracle 是全球最大的數據庫管理系統(DBMS)軟件公司,其主要產品包括以下功能:關係數據庫管理系統(Oracle 數據庫)開發工具(Oracle APEX、Oracle Visual Builder)中間件(Oracle WebLogic Server、Oracle SOA Suite)雲服務(Oracle Cloud Infrastructure)分析和商業智能(Oracle Analytics Cloud、Oracle Essbase)區塊鏈(Oracle Blockchain Pla
