為何GPT-4P容易受到多模態提示注入影像攻擊？-人工智慧-PHP中文網

為何GPT-4P容易受到多模態提示注入影像攻擊？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-10-30 15:21:17

轉載

1470 人瀏覽過

OpenAI新的GPT-4V版本支援影像上傳後，帶來了全新的攻擊途徑，使大型語言模型（LLM）容易受到多模態注入影像攻擊。攻擊者可以在圖像中嵌入命令、惡意腳本和程式碼，隨後模型會遵從行事。

多模態提示注入影像攻擊可以洩漏資料、重定向查詢、產生錯誤訊息，並執行更複雜的腳本以重新定義LLM如何解釋資料。它們可以改變LLM的用途，使其忽略先前設定的安全護欄，執行可能危及企業組織的命令，從而構成從詐欺到操作破壞的各種威脅。

所有使用LLM作為工作流程一部分的企業都面臨著困境，但那些將LLM用作其業務核心，用於影像分析和分類的企業面臨最大的風險。攻擊者利用各種技術可以迅速改變影像的解釋和分類方式，從而導致更混亂的結果

當LLM的提示被覆蓋時，惡意命令和執行腳本更容易被忽略。攻擊者可以透過在上傳到LLM的一系列影像中嵌入命令，來進行詐欺和操作破壞，並且還可以促進社會工程攻擊

映像是LLM無法防禦的攻擊途徑

由於LLM在處理過程中沒有進行資料清理的步驟，所以每個影像都是不可靠的。就像在沒有對每個資料集、應用程式或資源進行存取控制的情況下，讓身分在網路上自由漫遊是非常危險的，上傳到LLM中的影像也同樣存在危險

企業擁有在私有LLM的情況下，必須將最小特權存取作為核心網路安全策略採用

Simon Willison最近在一篇部落格文章中詳細解釋了GPT-4V為什麼成為了提示注入攻擊的主要途徑，並指出LLM在根本上很容易受騙。博文連結：https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison展示如何透過提示注入來劫持自主人工智慧代理，例如Auto-GPT。他詳細解釋了一個簡單的視覺提示注入範例，從在單一圖像中嵌入命令開始，逐漸發展成一個可視化提示注入滲透攻擊

英國BDO公司的數據分析和人工智慧高級經理Paul Ekwere表示：“注入攻擊對LLM的安全性和可靠性構成了嚴重威脅，特別是對處理圖像或視頻的基於視覺的模型。這些模型廣泛應用於人臉識別、自動駕駛、醫療診斷和監控等領域。”

OpenAI目前還沒有針對多模態提示注入影像攻擊的解決方案，使用者和企業只能依靠自己。英偉達開發者網站上的一篇部落格文章（https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/）提供了一些建議，包括對所有資料儲存和系統強制執行最小權限存取

多模態提示注入影像攻擊的工作原理

#多模態提示注入攻擊利用了GPT-4V處理視覺影像方面的漏洞，以執行未被檢測到的惡意命令，GPT-4V依靠視覺轉換編碼器將圖像轉換成潛在空間表示，圖像和文字資料被結合起來以產生回應。

模型沒有在編碼之前對視覺輸入進行清洗的方法。攻擊者可以嵌入任意數量的命令，GPT-4會認為它們是合法的命令。自動對私有LLM進行多模態提示注入攻擊的攻擊者不會被注意到。

遏制注入影像攻擊

令人不安的是，影像這條未受防護的攻擊途徑的問題在於，攻擊者可能會使LLM訓練的數據隨著時間的推移變得不那麼可信，資料保真度也會漸漸降低。

最近的一篇研究論文（https://arxiv.org/pdf/2306.05499.pdf）提供了有關如何更好地保護LLM免受提示注入攻擊的指導方針。為了確定風險程度和潛在解決方案，研究人員小組進行了一系列實驗，旨在評估注入攻擊對整合LLM的應用程式的有效性。研究小組發現，31個整合LLM的應用程式容易受到注入攻擊的影響