20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される-AI-php.cn

大規模なモデルをまとめてジェイルブレイクしましょう

ホームページ

テクノロジー周辺機器

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

王林

Nov 05, 2023 pm 08:13 PM

抜け穴 gpt-4

1 分以内、わずか 20 ステップで、セキュリティ制限を回避し、大規模なモデルを正常に脱獄できます。

そして、モデルの内部詳細を知る必要はありません -

2 つの ブラックボックスモデル だけが相互作用し、AI は完全に自動的に AI を攻撃できます。危険な内容を話します。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

かつて流行った「おばあちゃんの抜け穴」が修正されたと聞きました:

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

現在、どのような戦略に直面していますか人工知能は「探偵の抜け穴」「冒険者の抜け穴」「作家の抜け穴」に対処するために採用すべきでしょうか？

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

波状の猛攻撃の後、GPT-4 はそれに耐えられず、これかこれかの限り、給水システムに毒を与えると直接言いました。。

重要な点は、これはペンシルベニア大学の研究チームによって明らかにされた脆弱性の小さな波にすぎず、新しく開発されたアルゴリズムを使用して、AI がさまざまな攻撃プロンプトを自動的に生成できるということです。

研究者らは、この手法は GCG などの既存のトークンベースの攻撃手法よりも 5 桁効率的であると述べています。さらに、生成された攻撃は解釈可能性が高く、誰でも理解でき、他のモデルへの移行も可能です。

オープンソースモデルであろうとクローズドソースモデルであろうと、GPT-3.5、GPT-4、Vicuna (Llama 2 の亜種)、PaLM-2 など、どれも逃れることはできません。

新しい SOTA は 60 ～ 100% の成功率で人々に征服されています

つまり、この会話モードは少し見覚えがあるようです。何年も前の第一世代の AI は、20 問以内に人間が考えている対象を解読できました。

今、AI は AI の問題を解決する必要があります

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

大規模なモデルをまとめてジェイルブレイクしましょう

現在、主流のジェイルブレイク攻撃方法は 2 つあります。はプロンプトレベルの攻撃で、通常は手動による計画が必要で拡張性がありません。

もう 1 つはトークンベースの攻撃で、その一部には 100,000 を超える会話が必要で、モデル内部へのアクセスが必要です。には、解釈できない「文字化けコード」も含まれています。

△左プロンプト攻撃、右トークン攻撃

ペンシルベニア大学の研究チームは、

PAIR (プロンプト自動反復) と呼ばれる手法を提案しました。 Refinement ) アルゴリズムは手動による参加を必要とせず、完全に自動化された即時攻撃方法です。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

PAIR は、攻撃の生成、ターゲットの応答、ジェイルブレイクスコアリング、反復改良という 4 つの主要なステップで構成されます。このプロセスでは、攻撃モデルとターゲットモデルの 2 つのブラックボックスモデルが使用されます。

具体的には、攻撃モデルは、ターゲットモデルのセキュリティ防御線を突破して強制的に生成するために、セマンティックレベルのプロンプトを自動的に生成する必要があります。有害なコンテンツ。

中心となるアイデアは、2 つのモデルを対峙させ、相互に通信させることです。

攻撃モデルは自動的に候補プロンプトを生成し、それをターゲットモデルに入力してターゲットモデルから応答を取得します。

ターゲットモデルを正常に破ることができない場合、攻撃モデルは失敗の理由を分析し、改善を加え、新しいプロンプトを生成し、再度ターゲットモデルに入力します。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

この通信は複数のラウンドにわたって継続され、攻撃モデルは、ターゲットモデルを突破する成功したプロンプトが生成されるまで、毎回以前の結果に基づいてプロンプトを繰り返し最適化します。

さらに、反復プロセスは並列化することもできます。つまり、複数の会話を

同時に実行できるため、複数の脱獄候補プロンプトが生成され、効率がさらに向上します。研究者らは、どちらのモデルもブラックボックスモデルであるため、さまざまな言語モデルを使用して攻撃者とターゲットオブジェクトを自由に組み合わせることができると述べています。

PAIR は内部の特定の構造やパラメータを知る必要はなく、API だけを知る必要があるため、非常に幅広い適用範囲があります。

GPT-4 は実験段階を抜け出せませんでした。研究者らは、有害な行動データセット AdvBench 内の 50 種類のタスクを含む代表的なテストセットを選択しました。PAIR アルゴリズムは、さまざまなオープンソースでテストされ、クローズドソースの大規模言語モデル。

結果: PAIR アルゴリズムにより、Vicuna は脱獄成功率 100% を達成し、平均 12 ステップ未満で脱獄できました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

クローズドソースコードモデルでは、GPT-3.5 と GPT-4 の脱獄成功率は約 60% で、必要なステップは平均 20 未満です。 PaLM-2 モデルでは、脱獄の成功率は 72% に達し、必要な手順は約 15 ステップです

Llama-2 と Claude では、PAIR の効果が低いことが原因である可能性があると研究者らは考えています。モデルは、セキュリティ防御の観点からより厳密に微調整されました。

また、さまざまなターゲットモデルの移行可能性も比較されました。研究結果は、PAIR の GPT-4 チップが Vicuna および PaLM-2 でよりよく転送されることを示しています

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

研究者は、PAIR によって生成されたセマンティック攻撃は言語を暴露する能力がより高いと考えています。モデルにはセキュリティ上の欠陥があり、既存のセキュリティ対策はトークンベースの攻撃に対する防御に重点を置いています。

たとえば、GCG アルゴリズムを開発したチームがその研究結果を OpenAI、Anthropic、Google などの大手モデルベンダーと共有した後、関連するモデルでトークンレベルの攻撃の脆弱性が修正されました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

#セマンティック攻撃に対する大規模モデルのセキュリティ防御メカニズムを改善する必要があります。

論文リンク: https://arxiv.org/abs/2310.08419

以上が20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7659

CakePHP チュートリアル

1393

C# チュートリアル

1205

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

二代目アメカ登場！彼は観客と流暢にコミュニケーションをとることができ、表情はよりリアルで、数十の言語を話すことができます。 Mar 04, 2024 am 09:10 AM

人型ロボット「アメカ」が第二世代にバージョンアップ！最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

大型モデル間の1対1バトル75万ラウンド、GPT-4が優勝、Llama 3が5位にランクイン Apr 23, 2024 pm 03:28 PM

Llama3 に関しては、新しいテスト結果が発表されました。大規模モデル評価コミュニティ LMSYS は、Llama3 が 5 位にランクされ、英語カテゴリでは GPT-4 と同率 1 位にランクされました。このリストは他のベンチマークとは異なり、モデル間の 1 対 1 の戦いに基づいており、ネットワーク全体の評価者が独自の提案とスコアを作成します。最終的に、Llama3 がリストの 5 位にランクされ、GPT-4 と Claude3 Super Cup Opus の 3 つの異なるバージョンが続きました。英国のシングルリストでは、Llama3 がクロードを追い抜き、GPT-4 と並びました。この結果について、Meta の主任科学者 LeCun 氏は非常に喜び、リツイートし、

世界で最も強力なモデルが一夜にして交代し、GPT-4 時代の終わりを告げました。クロード3号は事前にGPT-5を狙撃し、1万ワードの論文を3秒で読み切るなど、人間に近い理解力を持っている。 Mar 06, 2024 pm 12:58 PM

ボリュームはクレイジー、ボリュームはクレイジー、そして大きなモデルがまた変わりました。たった今、世界で最も強力な AI モデルが一夜にして交代し、GPT-4 が祭壇から引き抜かれました。 Anthropic が Claude3 シリーズの最新モデルをリリースしました一言評価: GPT-4 を本当に粉砕します!マルチモーダルと言語能力の指標に関しては、Claude3 が勝ちます。 Anthropic 氏の言葉を借りれば、Claude3 シリーズモデルは、推論、数学、コーディング、多言語理解、視覚において新たな業界のベンチマークを設定しました。 Anthropic は、セキュリティ概念の違いを理由に OpenAI から「離反」した従業員によって設立された新興企業であり、同社の製品は繰り返し OpenAI に大きな打撃を与えてきました。今回、Claude3は大きな手術まで受けました。

Java のバッファオーバーフローの脆弱性とその害 Aug 09, 2023 pm 05:57 PM

Java のバッファオーバーフローの脆弱性とその害バッファオーバーフローとは、バッファにその容量を超えるデータを書き込むと、データが他のメモリ領域にオーバーフローすることを意味します。このオーバーフロー動作はハッカーによって悪用されることが多く、異常なコード実行やシステムクラッシュなどの重大な結果を引き起こす可能性があります。この記事では、Java におけるバッファオーバーフローの脆弱性とその害について紹介し、読者の理解を助けるコード例を示します。 Java で広く使用されているバッファクラスには、ByteBuffer、CharBuffer、ShortB などがあります。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される Nov 05, 2023 pm 08:13 PM

1 分以内、わずか 20 ステップで、セキュリティ制限を回避し、大規模なモデルを正常にジェイルブレイクできます。そして、モデルの内部詳細を知る必要はありません。対話する必要があるのは 2 つのブラックボックスモデルだけであり、AI は完全に自動的に AI を倒し、危険な内容を話すことができます。かつて流行った「おばあちゃんの抜け穴」が修正されたと聞きました。「探偵の抜け穴」「冒険者の抜け穴」「作家の抜け穴」に直面した今、人工知能はどのような対応戦略をとるべきでしょうか?波状の猛攻撃の後、GPT-4 はもう耐えられなくなり、このままでは給水システムに毒を与えると直接言いました。重要なのは、これはペンシルベニア大学の研究チームによって明らかにされた脆弱性の小さな波にすぎず、新しく開発されたアルゴリズムを使用して、AI がさまざまな攻撃プロンプトを自動的に生成できるということです。研究者らは、この方法は既存のものよりも優れていると述べています

ChatGPT と生成 AI がデジタル変革において何を意味するか May 15, 2023 am 10:19 AM

ChatGPT を開発した OpenAI は、モルガン・スタンレーが実施したケーススタディを Web サイトで紹介しています。テーマは、「モルガン・スタンレー・ウェルス・マネジメントは、膨大な知識ベースを整理するために GPT-4 を導入しています。」ケーススタディでは、モルガン・スタンレーの分析、データ、イノベーション部門の責任者であるジェフ・マクミラン氏の言葉を引用しています。ウェルスマネジメントコンテンツの包括的な検索を実行し、モルガン・スタンレー・ウェルス・マネジメントの蓄積された知識を効果的に解き放つチャットボットを活用しています。」マクミラン氏はさらに次のように強調した。「GPT-4を使用すると、基本的に資産管理において最も知識のある人の知識がすぐに得られます...当社のチーフ投資ストラテジスト、チーフ・グローバル・エコノミストと考えてください。

PHP 言語開発における一般的なファイルアップロードの脆弱性を解決するにはどうすればよいですか? Jun 10, 2023 am 11:10 AM

Webアプリケーション開発において、ファイルアップロード機能は基本的な要件となっています。この機能を使用すると、ユーザーは自分のファイルをサーバーにアップロードし、サーバー上で保存または処理できます。ただし、この機能により、開発者はファイルアップロードの脆弱性というセキュリティ上の脆弱性にさらに注意を払う必要があります。攻撃者は悪意のあるファイルをアップロードすることでサーバーを攻撃し、サーバーにさまざまな程度の損害を与える可能性があります。 PHP 言語は Web 開発で広く使用されている言語の 1 つであり、ファイルアップロードの脆弱性も一般的なセキュリティ問題の 1 つです。この記事で紹介するのは

See all articles

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

大規模なモデルをまとめてジェイルブレイクしましょう

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック