GPT-4P がマルチモーダルヒントインジェクション画像攻撃に対して脆弱なのはなぜですか?-AI-php.cn

GPT-4P がマルチモーダルヒントインジェクション画像攻撃に対して脆弱なのはなぜですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2023-10-30 15:21:17

転載

1444 人が閲覧しました

OpenAI の新しい GPT-4V バージョンは、画像アップロードをサポートしています。これにより、新しい攻撃経路がもたらされ、大規模言語モデル (LLM) がマルチモーダルインジェクション画像攻撃に対して脆弱になります。攻撃者は画像にコマンド、悪意のあるスクリプト、コードを埋め込むことができ、モデルはそれらに準拠します。

マルチモーダルプロンプトインジェクションイメージ攻撃は、データの漏洩、クエリのリダイレクト、エラーメッセージの生成、および LLM によるデータの解釈方法を再定義するためのより複雑なスクリプトの実行を行う可能性があります。 LLM を再利用して、以前に構築されたセキュリティガードレールを無視し、組織を侵害する可能性のあるコマンドを実行して、詐欺から業務妨害に至るまでのさまざまな脅威を引き起こす可能性があります。

LLM をワークフローの一部として使用するすべての企業は困難に直面しますが、LLM を画像分析と分類のビジネスの中核として使用する企業は最大のリスクに直面します。さまざまな技術を利用する攻撃者は、画像の解釈と分類方法をすぐに変更して、より混乱を招く結果を招く可能性があり、LLM のプロンプトが上書きされると、悪意のあるコマンドや実行スクリプトが無視される可能性が高くなります。攻撃者は、LLM にアップロードされた一連の画像にコマンドを埋め込むことで詐欺や運用妨害を行う可能性があり、また、ソーシャルエンジニアリング攻撃を促進する可能性もあります

画像は、LLM が防御できない攻撃ベクトルです

LLM は処理中にデータクリーニング手順を実行しないため、各イメージは信頼できません。すべてのデータセット、アプリケーション、またはリソースへのアクセス制御なしでアイデンティティをネットワーク上で自由に移動させるのは非常に危険であるのと同様に、LLM

企業所有のプライベート LLM にアップロードされた画像にも危険があります。最小特権アクセスは、コアネットワークセキュリティポリシーとして採用する必要があります。

Simon Willison は最近、GPT-4V がプロンプトインジェクション攻撃の主な手段となっている理由をブログ投稿で詳細に説明し、LLM は基本的に騙されやすいと指摘しました。。ブログ投稿リンク: https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison は、プロンプトを通じて Auto-GPT などの自律型人工知能エージェントをハイジャックする方法を示します。注射。彼は、単一の画像にコマンドを埋め込むことから始まり、徐々にビジュアルヒントインジェクション侵入攻撃に発展する単純なビジュアルヒントインジェクションの例を詳細に説明しました。英国の BDO でデータ分析および人工知能のシニアマネージャーを務める Paul Ekwere 氏は次のように述べています。「インジェクション攻撃は、LLM、特に画像やビデオを処理するビジョンベースのモデルのセキュリティと信頼性に重大な脅威をもたらします。これらのモデルは、顔認識、自動運転、医療診断、監視などの分野で広く使用されています。」

OpenAI には現在、マルチモーダルプロンプトインジェクションイメージ攻撃に対するソリューションがなく、ユーザーと企業が頼れるのは自社だけです。 NVIDIA 開発者 Web サイトのブログ投稿 (https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attachs-against-llm-applications/) では、すべてのデータストレージとシステムに関する提案をいくつか提供しています。最小限の特権アクセスを強制します

マルチモーダルプロンプトインジェクションイメージ攻撃の仕組み

マルチモーダルプロンプトインジェクション攻撃は、GPT-4V のビジュアルイメージを処理する機能を悪用します。 GPT-4V には、検出されていない悪意のあるコマンドを実行する脆弱性があるため、視覚変換エンコーダーを利用して画像を潜在空間表現に変換し、画像とテキストデータを組み合わせて応答を生成します。モデルには、エンコード前にビジュアル入力をクリーンアップする方法がありません。攻撃者は任意の数のコマンドを埋め込むことができ、GPT-4 はそれらを正当なコマンドとみなします。攻撃者がプライベート LLM に対してマルチモーダルヒントインジェクション攻撃を自動的に実行しても、気付かれることはありません。

注入された画像攻撃を含む

厄介なことに、この保護されていない画像の攻撃ベクトルの問題は、攻撃者が LLM トレーニングデータを注入する可能性があることです。データの忠実度は徐々に低下します。時間の経過とともに信頼性が低くなります。最近の研究論文 (https://arxiv.org/pdf/2306.05499.pdf) では、LLM をヒントインジェクション攻撃からより適切に保護する方法に関するガイドラインが提供されています。リスクの範囲と潜在的な解決策を判断するために、研究者チームは、LLM を組み込んだアプリケーションに対するインジェクション攻撃の有効性を評価することを目的とした一連の実験を実施しました。研究チームは、LLM を統合する 31 のアプリケーションがインジェクション攻撃に対して脆弱であることを発見しました。

研究論文では、インジェクションされたイメージ攻撃を抑制するために次の推奨事項を示しています。

ユーザー入力のクリーンさと、検証手順 Identity Access Management (IAM) と最小権限アクセスは、プライベート LLM を標準化する企業の基本構成です。 LLM プロバイダーは、画像データを処理に渡す前に、より徹底的なクリーニングの実行を検討する必要があります

書き直す必要があるのは次のとおりです。 2. プラットフォームアーキテクチャを改善し、ユーザー入力をシステムロジックから分離します。

目的は、ユーザー入力が LLM コードとデータに直接影響するリスクを排除することです。内部ロジックやワークフローに影響を与えないように、画像キューを処理する必要があります。

多段階の処理ワークフローを使用して悪意のある攻撃を特定する

画像ベースの攻撃を早期に捕捉する多段階のプロセスを構築して、この脅威をより適切に管理できます

4 . ジェイルブレイクを防ぐための防御プロンプトのカスタマイズ

ジェイルブレイクは、LLM を誤解させて違法なアクションを実行させるために使用される一般的なプロンプトエンジニアリング手法です。悪意があるように見える画像入力にプロンプトを添付すると、LLM を保護するのに役立ちます。ただし、研究者らは、高度な攻撃では依然としてこのアプローチを回避できる可能性があると警告しています。

勢いを増す脅威

マルチモーダルモデルに移行する LLM が増えるにつれ、画像は攻撃者が利用できる最新の脅威ベクトルとなっています。保護手段をバイパスして再定義します。画像ベースの攻撃は、単純なコマンドから、産業上の損害を引き起こし、誤った情報を広範囲に広めることを目的としたより複雑な攻撃シナリオまで、その重大度が異なります。

この記事の出典: https://venturebeat.com/security/why-gpt -4-マルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱です/。転載の場合は出典を明記してください

以上がGPT-4P がマルチモーダルヒントインジェクション画像攻撃に対して脆弱なのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。