深度強化學習中的對抗攻擊與防禦
01 前言
論文是關於深度強化學習對抗攻擊的工作。在該論文中,作者從穩健優化的角度研究了深度強化學習策略對抗攻擊的穩健性。在魯棒優化的框架下,透過最小化策略的預期回報來給出最優的對抗攻擊,相應地,透過提高策略應對最壞情況的性能來實現良好的防禦機制。
考慮到攻擊者通常無法 在訓練環境中 攻擊,作者提出了一種貪婪攻擊演算法,該演算法試圖在不與環境交互的情況下最小化策略的預期回報;另外作者還提出一種防禦演算法,該演算法以最大-最小的博弈來對深度強化學習演算法進行對抗訓練。
在Atari遊戲環境中的實驗結果表明,作者提出的對抗攻擊演算法比現有的攻擊演算法更有效,策略回報率更差。論文中提出的對抗防禦演算法產生的策略比現有的防禦方法對一系列對抗攻擊更具穩健性。
02 預備知識
2.1對抗攻擊
給予任何一個樣本(x,y)和神經網路f,產生對抗樣本的最佳化目標為:
其中 是神經網路f的參數,L是損失函數, 是對抗擾動集合, 是以x為中心, 為半徑的範數約束球。透過PGD攻擊產生對抗樣本的計算公式如下所示:
其中 表示的是投影操作,如果輸入在範數球外,則輸入投影到以x中心, 為半徑的 球上, 表示的是PGD攻擊的單步擾動大小。
2.2強化學習和策略梯度
一個強化學習問題可以被描述為一個馬可夫決策過程。馬可夫決策過程又可以定義為一個的五元組,其中S表示的是一個狀態空間,A表示的是一個動作空間,
表示的是狀態轉移機率,r表示的是獎勵函數, 表示的是折扣因子。強學學習的目標是去學習一個參數策略分佈
使得價值函數最大化
#其中 表示的是初始狀態。強學學習包含評估動作值函數
以上公式描述了在狀態 執行 後服從策略 的數學期望。由定義可知值函數和動作值函數滿足如下關係:
為了方便表示,作者主要關注的是離散動作空間的馬可夫過程,但是所有的演算法和結果都可以直接應用於連續的設定。
03 論文方法
深度強化學習策略的對抗攻擊和防禦是建立在是魯棒優化PGD的框架之上的
其中 表示的是, 表示的是對抗擾動序列集合
,並且對於所有的
,滿足
以上公式提供了一個深度強化學習對抗攻擊和防禦的統一框架。
一方面內部最小化最佳化去尋找對抗擾動序列 使得目前策略 做出錯誤的決策。另一方面外部最大化的目的是找到策略分佈參數 使得在擾動策略下期望回報最大。經過以上對抗攻擊和防禦博弈,會讓訓練過程中的策略參數 能夠更加抵禦對抗攻擊。
目標函數內部最小化的目的是生成對抗擾動 ,但是對於強化學習演算法來說學習得到最優對抗擾動是非常耗時耗力的,而且由於訓練環境對攻擊者來說是一個黑盒的,所以在該論文中,作者考慮一個實際的設定,即攻擊者在不同的狀態下去注入擾動。不想有監督學習攻擊場景中,攻擊者只需要欺騙分類器模型使得它分類出錯產生錯誤的標籤;在強化學習的攻擊場景中,動作值函數攻擊者提供了額外的信息,即小的行為值會導致一個小小的期望回報。對應的,作者在深度強化學習中定義了最適對抗擾動如下所示
定義1: 一個在狀態s上最適的對抗擾動 能夠最小化狀態的期望回報
#需要注意的是優化求解以上公式的是非常棘手的,它需要確保攻擊者能夠欺騙智能體使得其選擇最差的決策行為,然而對於攻擊者來說智能體的動作值函數是不可知的,所以無法保證對抗擾動是最優的。以下的定理能夠說明如果策略是最優的,最優對抗擾動能夠用不通過訪問動作值函數的方式被生成
定理1: 當控制策略是最優的,動作值函數與策略滿足下列關係式
其中 表示的是策略熵, 是狀態依賴常數,當 改變到0的時候, 也會隨之變成0,進而則有以下公式
證明: 當隨機策略 達到最優的時候,值函數
也達到了最優,這也就是說,在每個狀態s下,找不到任何其它的行為分佈使得值函數
增加。對應的,給定最優的動作值函數
,可以透過求解約束優化問題來獲得最優策略
其中第二和第三行表示 是機率分佈,最後一行表示策略 是隨機策略,依據KKT條件則可將上述最佳化問題轉換為下列形式:
其中。假定
對所有的行為
是正定的,則有:
當 #,則必有
#,進而有任意的
,則有
從而會得到動作值函數和策略的softmax的關係
#其中,進而有
將以上的第一個等式帶入第二中,則有
#其中
表示的是一個softmax形式的機率分佈,且它的熵等於 。當 等於0的時候, 也變成0.在這個情況下, 是要大於0的,則此時。
被估計去幫助策略訓練。
很難處理,因為軌跡是透過運行受干擾的策略收集的,而使用這些數據估計未受干擾策略的作用值函數可能非常不準確。
使用PPO的最佳化擾動策略的目標函數為
#其中,且
是擾動策略平均函數
的估計值。在實際中,
是由方法GAE估計得來的。具體的演算法流程圖如下圖所示。
04 實驗結果
如下右邊的三個子圖顯示了不同攻擊擾動的結果。可以發現經過逆向訓練的策略和標準策略都能抵抗隨機擾動。相反,對抗攻擊會降低不同策略的效能。結果取決於測試環境和防禦演算法,進一步可以發現三種對抗性攻擊演算法之間的效能差距很小。
相較之下,在相對困難的設定環境中,論文作者提出的策略攻擊演算法幹擾的策略產生的回報要低得多。總體而言,論文中提出的策略攻擊演算法在大多數情況下產生的回報最低,這表明它確實是所有經過測試的對抗攻擊演算法中效率最高的。
如下圖所示顯示了不同防禦演算法以及標準PPO的學習曲線。需要注意的是效能曲線僅表示用於與環境互動的策略的預期回報。在所有的訓練演算法中,論文中提出的ATPA具有最低的訓練方差,因此比其他演算法更穩定。另外還能注意到,ATPA的進度比標準PPO慢很多,尤其是在早期訓練階段。這導致了這樣一個事實,即在早期的訓練階段,受不利因素幹擾會使得策略訓練非常不穩定。
表總結了使用不同演算法在不同擾動下的策略預期回報。可以發現經過ATPA訓練的策略能夠抵抗各種對抗干擾。相較之下,儘管StageWise和DataAugment在某種程度上學會了處理對抗攻擊,但它們在所有情況下都不如ATPA有效。
為了更廣泛的比較,作者也評估了這些防禦演算法對最有效的策略攻擊演算法產生的不同程度的對抗干擾的穩健性。如下圖所示,ATPA再次在所有情況下獲得最高分數。此外,ATPA的評估變異數遠小於StageWise和DataAugment,顯示ATPA具有更強的生成能力。
為了達到類似的效能,ATPA需要比標準PPO演算法更多的訓練資料。作者透過研究擾動策略的穩定性來深入研究這個問題。作者計算了透過在訓練過程中間和結束時使用不同隨機初始點的PGD執行策略攻擊而獲得的擾動策略的KL散度值。如下圖所示,在沒有對抗訓練的情況下,即使標準PPO已經收斂,也會不斷觀察到較大的KL 散度值,這表明策略對於使用不同初始點執行PGD所產生的擾動非常不穩定。
下圖顯示了具有不同初始點的擾動策略的KL散度圖,可以發現圖中的每個像素表示兩個擾動策略的KL散度值,這兩個擾動策略透過最大化ATPA演算法的核心公式給出。需要注意的是由於KL散度是一個非對稱度量,因此這些映射也是不對稱的。
以上是深度強化學習中的對抗攻擊與防禦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

BERT是由Google在2018年提出的一種預先訓練的深度學習語言模式。全稱為BidirectionalEncoderRepresentationsfromTransformers,它基於Transformer架構,具有雙向編碼的特性。相較於傳統的單向編碼模型,BERT在處理文字時能夠同時考慮上下文的訊息,因此在自然語言處理任務中表現出色。它的雙向性使得BERT能夠更好地理解句子中的語義關係,從而提高了模型的表達能力。透過預訓練和微調的方法,BERT可以用於各種自然語言處理任務,如情緒分析、命名

激活函數在深度學習中扮演著至關重要的角色,它們能夠為神經網路引入非線性特性,使得網路能夠更好地學習並模擬複雜的輸入輸出關係。正確選擇和使用激活函數對於神經網路的性能和訓練效果有著重要的影響本文將介紹四種常用的激活函數:Sigmoid、Tanh、ReLU和Softmax,從簡介、使用場景、優點、缺點和優化方案五個維度進行探討,為您提供關於激活函數的全面理解。 1.Sigmoid函數SIgmoid函數公式簡介:Sigmoid函數是常用的非線性函數,可以將任何實數映射到0到1之間。它通常用於將不歸一

潛在空間嵌入(LatentSpaceEmbedding)是將高維度資料對應到低維度空間的過程。在機器學習和深度學習領域中,潛在空間嵌入通常是透過神經網路模型將高維輸入資料映射為一組低維向量表示,這組向量通常被稱為「潛在向量」或「潛在編碼」。潛在空間嵌入的目的是捕捉資料中的重要特徵,並將其表示為更簡潔和可理解的形式。透過潛在空間嵌入,我們可以在低維空間中對資料進行視覺化、分類、聚類等操作,從而更好地理解和利用資料。潛在空間嵌入在許多領域中都有廣泛的應用,如影像生成、特徵提取、降維等。潛在空間嵌入的主要

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

自2006年深度學習概念被提出以來,20年快過去了,深度學習作為人工智慧領域的一場革命,已經催生了許多具有影響力的演算法。那麼,你所認為深度學習的top10演算法有哪些呢?以下是我心目中深度學習的頂尖演算法,它們在創新、應用價值和影響力方面都佔有重要地位。 1.深度神經網路(DNN)背景:深度神經網路(DNN)也叫多層感知機,是最普遍的深度學習演算法,發明之初由於算力瓶頸而飽受質疑,直到近些年算力、數據的爆發才迎來突破。 DNN是一種神經網路模型,它包含多個隱藏層。在該模型中,每一層將輸入傳遞給下一層,並

在當今科技日新月異的浪潮中,人工智慧(ArtificialIntelligence,AI)、機器學習(MachineLearning,ML)與深度學習(DeepLearning,DL)如同璀璨星辰,引領著資訊科技的新浪潮。這三個詞彙經常出現在各種前沿討論和實際應用中,但對於許多初涉此領域的探索者來說,它們的具體含義及相互之間的內在聯繫可能仍籠罩著一層神秘面紗。那讓我們先來看看這張圖。可以看出,深度學習、機器學習和人工智慧之間存在著緊密的關聯和遞進關係。深度學習是機器學習的一個特定領域,而機器學習

1.引言向量檢索已成為現代搜尋和推薦系統的核心組件。透過將複雜的物件(例如文字、圖像或聲音)轉換為數值向量,並在多維空間中進行相似性搜索,它能夠實現高效的查詢匹配和推薦。從基礎到實踐,回顧Elasticsearch向量檢索發展史_elasticsearchElasticsearch作為一款流行的開源搜尋引擎,在向量檢索方面的發展也一直備受關注。本文將回顧Elasticsearch向量檢索的發展歷史,重點介紹各階段的特性與進展。以史為鑑,方便大家建立起Elasticsearch向量檢索的全量

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显著提高。这表明,在单个统一的深度学习框架内,可以实现
