目次
大規模なモデルをまとめてジェイルブレイクしましょう
ホームページ テクノロジー周辺機器 AI 20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

Nov 05, 2023 pm 08:13 PM
抜け穴 gpt-4

1 分以内、わずか 20 ステップで、セキュリティ制限を回避し、大規模なモデルを正常に脱獄できます。

そして、モデルの内部詳細を知る必要はありません -

2 つの ブラック ボックス モデル だけが相互作用し、AI は完全に自動的に AI を攻撃できます。危険な内容を話します。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

かつて流行った「おばあちゃんの抜け穴」が修正されたと聞きました:

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

現在、どのような戦略に直面していますか人工知能は「探偵の抜け穴」「冒険者の抜け穴」「作家の抜け穴」に対処するために採用すべきでしょうか?

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

波状の猛攻撃の後、GPT-4 はそれに耐えられず、これかこれかの限り、給水システムに毒を与えると直接言いました。 。

重要な点は、これはペンシルベニア大学の研究チームによって明らかにされた脆弱性の小さな波にすぎず、新しく開発されたアルゴリズムを使用して、AI がさまざまな攻撃プロンプトを自動的に生成できるということです。

研究者らは、この手法は GCG などの既存のトークンベースの攻撃手法よりも 5 桁効率的であると述べています。さらに、生成された攻撃は解釈可能性が高く、誰でも理解でき、他のモデルへの移行も可能です。

オープン ソース モデルであろうとクローズド ソース モデルであろうと、GPT-3.5、GPT-4、Vicuna (Llama 2 の亜種)、PaLM-2 など、どれも逃れることはできません。

新しい SOTA は 60 ~ 100% の成功率で人々に征服されています

つまり、この会話モードは少し見覚えがあるようです。何年も前の第一世代の AI は、20 問以内に人間が考えている対象を解読できました。

今、AI は AI の問題を解決する必要があります

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

大規模なモデルをまとめてジェイルブレイクしましょう

現在、主流のジェイルブレイク攻撃方法は 2 つあります。はプロンプトレベルの攻撃で、通常は手動による計画が必要で拡張性がありません。

もう 1 つはトークンベースの攻撃で、その一部には 100,000 を超える会話が必要で、モデル内部へのアクセスが必要です。 には、解釈できない「文字化けコード」も含まれています。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される
△左プロンプト攻撃、右トークン攻撃
ペンシルベニア大学の研究チームは、

PAIR (プロンプト自動反復) と呼ばれる手法を提案しました。 Refinement ) アルゴリズムは手動による参加を必要とせず、完全に自動化された即時攻撃方法です。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

PAIR は、攻撃の生成、ターゲットの応答、ジェイルブレイク スコアリング、反復改良という 4 つの主要なステップで構成されます。このプロセスでは、攻撃モデルとターゲット モデルの 2 つのブラック ボックス モデルが使用されます。

具体的には、攻撃モデルは、ターゲット モデルのセキュリティ防御線を突破して強制的に生成するために、セマンティック レベルのプロンプトを自動的に生成する必要があります。有害なコンテンツ。

中心となるアイデアは、2 つのモデルを対峙させ、相互に通信させることです。

攻撃モデルは自動的に候補プロンプトを生成し、それをターゲット モデルに入力してターゲット モデルから応答を取得します。

ターゲット モデルを正常に破ることができない場合、攻撃モデルは失敗の理由を分析し、改善を加え、新しいプロンプトを生成し、再度ターゲット モデルに入力します。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

この通信は複数のラウンドにわたって継続され、攻撃モデルは、ターゲット モデルを突破する成功したプロンプトが生成されるまで、毎回以前の結果に基づいてプロンプトを繰り返し最適化します。

さらに、反復プロセスは並列化することもできます。つまり、複数の会話を

同時に実行できるため、複数の脱獄候補プロンプトが生成され、効率がさらに向上します。 研究者らは、どちらのモデルもブラックボックスモデルであるため、さまざまな言語モデルを使用して攻撃者とターゲットオブジェクトを自由に組み合わせることができると述べています。

PAIR は内部の特定の構造やパラメータを知る必要はなく、API だけを知る必要があるため、非常に幅広い適用範囲があります。

GPT-4 は実験段階を抜け出せませんでした。研究者らは、有害な行動データ セット AdvBench 内の 50 種類のタスクを含む代表的なテスト セットを選択しました。PAIR アルゴリズムは、さまざまなオープンソースでテストされ、クローズドソースの大規模言語モデル。

結果: PAIR アルゴリズムにより、Vicuna は脱獄成功率 100% を達成し、平均 12 ステップ未満で脱獄できました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

クローズド ソース コード モデルでは、GPT-3.5 と GPT-4 の脱獄成功率は約 60% で、必要なステップは平均 20 未満です。 PaLM-2 モデルでは、脱獄の成功率は 72% に達し、必要な手順は約 15 ステップです

Llama-2 と Claude では、PAIR の効果が低いことが原因である可能性があると研究者らは考えています。モデルは、セキュリティ防御の観点からより厳密に微調整されました。

また、さまざまなターゲット モデルの移行可能性も比較されました。研究結果は、PAIR の GPT-4 チップが Vicuna および PaLM-2 でよりよく転送されることを示しています

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

研究者は、PAIR によって生成されたセマンティック攻撃は言語を暴露する能力がより高いと考えています。モデルにはセキュリティ上の欠陥があり、既存のセキュリティ対策はトークンベースの攻撃に対する防御に重点を置いています。

たとえば、GCG アルゴリズムを開発したチームがその研究結果を OpenAI、Anthropic、Google などの大手モデル ベンダーと共有した後、関連するモデルでトークン レベルの攻撃の脆弱性が修正されました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

#セマンティック攻撃に対する大規模モデルのセキュリティ防御メカニズムを改善する必要があります。

論文リンク: https://arxiv.org/abs/2310.08419

以上が20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

二代目アメカ登場!彼は観客と流暢にコミュニケーションをとることができ、表情はよりリアルで、数十の言語を話すことができます。 二代目アメカ登場!彼は観客と流暢にコミュニケーションをとることができ、表情はよりリアルで、数十の言語を話すことができます。 Mar 04, 2024 am 09:10 AM

人型ロボット「アメカ」が第二世代にバージョンアップ!最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。 「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン 大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン Apr 23, 2024 pm 03:28 PM

Llama3 に関しては、新しいテスト結果が発表されました。大規模モデル評価コミュニティ LMSYS は、Llama3 が 5 位にランクされ、英語カテゴリでは GPT-4 と同率 1 位にランクされました。このリストは他のベンチマークとは異なり、モデル間の 1 対 1 の戦いに基づいており、ネットワーク全体の評価者が独自の提案とスコアを作成します。最終的に、Llama3 がリストの 5 位にランクされ、GPT-4 と Claude3 Super Cup Opus の 3 つの異なるバージョンが続きました。英国のシングルリストでは、Llama3 がクロードを追い抜き、GPT-4 と並びました。この結果について、Meta の主任科学者 LeCun 氏は非常に喜び、リツイートし、

世界で最も強力なモデルが一夜にして交代し、GPT-4 時代の終わりを告げました。クロード3号は事前にGPT-5を狙撃し、1万ワードの論文を3秒で読み切るなど、人間に近い理解力を持っている。 世界で最も強力なモデルが一夜にして交代し、GPT-4 時代の終わりを告げました。クロード3号は事前にGPT-5を狙撃し、1万ワードの論文を3秒で読み切るなど、人間に近い理解力を持っている。 Mar 06, 2024 pm 12:58 PM

ボリュームはクレイジー、ボリュームはクレイジー、そして大きなモデルがまた変わりました。たった今、世界で最も強力な AI モデルが一夜にして交代し、GPT-4 が祭壇から引き抜かれました。 Anthropic が Claude3 シリーズの最新モデルをリリースしました 一言評価: GPT-4 を本当に粉砕します!マルチモーダルと言語能力の指標に関しては、Claude3 が勝ちます。 Anthropic 氏の言葉を借りれば、Claude3 シリーズ モデルは、推論、数学、コーディング、多言語理解、視覚において新たな業界のベンチマークを設定しました。 Anthropic は、セキュリティ概念の違いを理由に OpenAI から「離反」した従業員によって設立された新興企業であり、同社の製品は繰り返し OpenAI に大きな打撃を与えてきました。今回、Claude3は大きな手術まで受けました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される 20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される Nov 05, 2023 pm 08:13 PM

1 分以内、わずか 20 ステップで、セキュリティ制限を回避し、大規模なモデルを正常にジェイルブレイクできます。そして、モデルの内部詳細を知る必要はありません。対話する必要があるのは 2 つのブラック ボックス モデルだけであり、AI は完全に自動的に AI を倒し、危険な内容を話すことができます。かつて流行った「おばあちゃんの抜け穴」が修正されたと聞きました。「探偵の抜け穴」「冒険者の抜け穴」「作家の抜け穴」に直面した今、人工知能はどのような対応戦略をとるべきでしょうか?波状の猛攻撃の後、GPT-4 はもう耐えられなくなり、このままでは給水システムに毒を与えると直接言いました。重要なのは、これはペンシルベニア大学の研究チームによって明らかにされた脆弱性の小さな波にすぎず、新しく開発されたアルゴリズムを使用して、AI がさまざまな攻撃プロンプトを自動的に生成できるということです。研究者らは、この方法は既存のものよりも優れていると述べています

PHP 言語開発における一般的なファイル アップロードの脆弱性を解決するにはどうすればよいですか? PHP 言語開発における一般的なファイル アップロードの脆弱性を解決するにはどうすればよいですか? Jun 10, 2023 am 11:10 AM

Webアプリケーション開発において、ファイルアップロード機能は基本的な要件となっています。この機能を使用すると、ユーザーは自分のファイルをサーバーにアップロードし、サーバー上で保存または処理できます。ただし、この機能により、開発者はファイル アップロードの脆弱性というセキュリティ上の脆弱性にさらに注意を払う必要があります。攻撃者は悪意のあるファイルをアップロードすることでサーバーを攻撃し、サーバーにさまざまな程度の損害を与える可能性があります。 PHP 言語は Web 開発で広く使用されている言語の 1 つであり、ファイル アップロードの脆弱性も一般的なセキュリティ問題の 1 つです。この記事で紹介するのは

数年後にはプログラマーが減少するということをご存知ですか? 数年後にはプログラマーが減少するということをご存知ですか? Nov 08, 2023 am 11:17 AM

「ComputerWorld」誌はかつて、IBM がエンジニアが必要な数式を書いて提出できる新しい言語 FORTRAN を開発したため、「プログラミングは 1960 年までに消滅するだろう」という記事を書きました。コンピューターを実行すればプログラミングは終了します。画像 数年後、私たちは新しいことわざを聞きました: ビジネスマンは誰でもビジネス用語を使って問題を説明し、コンピュータに何をすべきかを伝えることができます。COBOL と呼ばれるこのプログラミング言語を使用することで、企業はもはやプログラマーを必要としません。その後、IBM は従業員がフォームに記入してレポートを作成できるようにする RPG と呼ばれる新しいプログラミング言語を開発したと言われており、会社のプログラミング ニーズのほとんどはこれで完了できます。

Java のバッファ オーバーフローの脆弱性とその害 Java のバッファ オーバーフローの脆弱性とその害 Aug 09, 2023 pm 05:57 PM

Java のバッファ オーバーフローの脆弱性とその害 バッファ オーバーフローとは、バッファにその容量を超えるデータを書き込むと、データが他のメモリ領域にオーバーフローすることを意味します。このオーバーフロー動作はハッカーによって悪用されることが多く、異常なコード実行やシステムクラッシュなどの重大な結果を引き起こす可能性があります。この記事では、Java におけるバッファ オーバーフローの脆弱性とその害について紹介し、読者の理解を助けるコード例を示します。 Java で広く使用されているバッファ クラスには、ByteBuffer、CharBuffer、ShortB などがあります。

See all articles