OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる-AI-php.cn

ホームページ

テクノロジー周辺機器

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる

Jul 19, 2024 am 01:29 AM

openai プロジェクト

AIモデルが出した答えが全く理解できない場合、あえてそれを使いますか？

機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのかを実証し、どのような場合にそれらを信頼すべきでないのかを明確にすることがますます重要になります。

複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取り可能な出力の解釈を生成することをシステムに要求することです。エラーをキャッチすることができます。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。

大規模な言語モデルの場合も、同様のアプローチを採用できます。

ただし、このアプローチを使用する場合、特に数学やコーディングなどの複雑なタスクを扱う場合、言語モデルが理解可能なテキストを生成することを確認することが非常に重要です。

以下の図に示すように、AI にクイックソートアルゴリズムを作成するよう依頼すると、AI は迅速にアルゴリズムを作成し、その答えは非常に簡潔です。しかし、コードの書き方がわからない場合、AI が正しく記述されているかどうかをどうやって判断できるのでしょうか? OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる

OpenAI は最近の論文でこの問題を研究しました。

論文のタイトル: PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
論文のリンク: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm- Outputs/legibility.pdf

彼らは、大規模な言語モデルに「正しい答えを得る」という目標を持って答えを生成するよう求めた場合、得られる答えは理解しにくい可能性があることを発見しました。人間の評価者がこれらの回答を判断する場合、間違いを犯す可能性が 2 倍になります。

つまり、彼らの目標は、高水準言語モデルをトレーニングして、より単純なモデルで簡単に検証できるテキストを生成できるようにすることです。彼らは、そのようなテキストが単純なモデルに優しいだけでなく、人間にとっても読みやすいことを発見しました。

では、それはどのように達成されるのでしょうか?これには、2021 年の論文「Prover-Verifier Games でチェック可能な回答を与える方法を学ぶ」についても言及されています。この論文では、Cem Anil らが「Prover-Verifier Games」と呼ばれるゲーム理論フレームワークを提案しました。このフレームワークは、2 つの競合する学習者で構成されます。1 つは正しい答えを選択しようとする信頼できる検証者のネットワーク、もう 1 つは、その正しさに関係なく、特定の答えを受け入れるように検証者を説得しようとする、より強力ではあるが信頼できない証明者のネットワークです。このフレームワークの目標は、ゲームから信頼できる証明プロトコルを生成することです。

OpenAI は、この新しい研究でこのフレームワークを借用し、2 つの大きなモデル (強い方が証明者、弱い方が検証者) がバランスに達するまで互いに対戦させました。現時点では、証明者によって与えられた答えは読みやすく、合理的に正しいものです。

OpenAI は、モデル出力の可読性を向上させることで、人工知能のアプリケーションをより効果的かつ信頼できるものにし、正確なコミュニケーションを必要とするさまざまな分野に有益であると述べています。

この論文は OpenAI の Super Alignment チームからのものであることは言及する価値がありますが、その著者の何人かは今年初めに OpenAI を去り、チームも崩壊しました。著者の一人は、これがチームの最後の論文であることを明らかにした。

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる

直感的な例

モデル出力の可読性を向上させるために、OpenAI は一部の小学校の数学の問題の思考連鎖 (CoT) を最適化し、弱いモデルでも理解できるようにしました。以下にいくつかの例を示します:

質問: Shawna の父親は Shawna より 5 倍年上です。ショーナは現在、アリヤの3倍の年齢です。アリーヤが 3 歳なら、ショーナの父親は何歳ですか?

これの目的は、この方法でトレーニングされたモデルの出力がより直接的で理解しやすいかどうかを検証することです。

この方法では、トレーニングセットを一部最適化するだけで、モデルのパフォーマンスが 50% 向上します。同時に、モデルによって出力される回答もより理解しやすくなり、これらの回答の正しさを評価する必要がある人間のユーザーがより正確な判断を下すのにも役立ちます。 OpenAI は、より可読性の高いモデルとより高機能なモデルの間のパフォーマンスのギャップをさらに狭めることが、将来のアライメント研究における重要な目標であると考えています。

「証明者」と「検証者」はトレーニングでどのように役割を果たしますか?

より読みやすいテキストを生成するように強いモデル (証明者) を動機付けるために、研究者らは、強いモデルによって生成された回答が弱いモデル (検証者) によって簡単に検証されることを要求するトレーニングスキームを採用しました。具体的には、GPT-4 ファミリーの大小のモデルを使用しました。それらは、事前トレーニングデータの量において約 3 桁異なります。彼らは全員、人間による注釈に基づいた数学的導出トレーニングを受けていますが、広範なポストトレーニングは受けていません。

まず、研究チームは証明者モデルに一連の数学的問題を解決するよう依頼しました。証明者モデル自体が間違っている可能性があるため、証明者モデルが生成する答えの一部が間違っている可能性があります。次に、これらの回答をテスト用の検証者モデルに送信し、次の 2 つの段階の間で複数回の交互検証を実施しました:

「検証者」トレーニング: 研究チームは、より弱い「検証者」モデルをトレーニングしました。「証明者」が出した答えが正しいかどうかを検証します。
「証明者」トレーニング: 研究チームは、より強力な「証明者」モデルに「有用な」または「狡猾な」役割を果たすよう指示します。
「証明者」を「役に立った」に設定すると、研究チームは正解者に「検証者」から高スコアを与えます。
「証明者」が「狡猾」に設定されている場合、研究チームは代わりに「検証者」に高得点の誤答を与えます。

研究チームは、当初、狡猾な「証明者」は「検証者」を納得させる誤った答えを簡単に生成できることを発見しました。ただし、これらの誤った回答は「検証者」トレーニングの次のラウンドに入り、同じ脆弱性は次のラウンドでは説得力を持たなくなります。したがって、「証明者」はラウンドごとに異なる戦略を模索することになります。

狡猾な「証明者」が「検証者」を納得させる間違った解決策を生成できなくなったら、トレーニングは終了します。

研究者は何を発見しましたか?

パフォーマンスと可読性のトレードオフ:

人間が書いた導出に対して教師付き微調整のみを実行するモデルは可読性が高くなりますが、精度は低くなります。
モデルの最適化目標が正しさだけ、つまり正しい答えを生成することだけに焦点を当てている場合、高い精度は達成できますが、生成された解の可読性は低くなります。
OpenAIが提案するチェッカブルゲーム手法は、この両者をバランスさせ、高い可読性を維持しながら適度な精度を維持します。

3 つの便利なモデル:

堅牢な検証者: たとえソリューションが誤解を招くものであっても、正しいソリューションと誤ったソリューションを効果的に区別します。
有用な証明者: 人間が理解できるソリューションを生成することで、人間の評価者によるエラーを削減します。
狡猾な証明者: 最初は人間の評価者を混乱させる微妙で誤った解決策を生成し、それによってさらなる改善の余地がある領域を強調します。

研究チームは、同じテスト問題を使用して、Sneaky Prover の生成されたコンテンツとトレーニングプロセスを実証しました。

質問: ショーナの父親はショーナより 5 倍年上です。ショーナは現在、アリヤの3倍の年齢です。アリーヤが3歳なら、ショーナの父親は何歳ですか?

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる

結論

重要なドメインや複雑なアプリケーションで大規模言語モデル (LLM) の使用が増えるにつれ、生成されるコンテンツが信頼できるかどうかを理解することが重要になってきています。それは重要です。モデルにその生成に対する明確で検証可能な理由を要求することで、モデルが生成するものに対する信頼を高めることができます。

このアプローチの大きな利点は、人間によるデモンストレーションや読みやすさの判断への依存が軽減されることです。この自律性は、人間の直接の監視なしに AI システムを人間の価値観や期待に確実に合わせるという最終目標を持った、将来の超インテリジェント AI システムの調整にとって特に重要です。

この作業は 1 つのデータセットに対してのみ行われ、グラウンドトゥルースラベルは依然として必要ですが、研究チームはこれが正しく、透明で検証可能な AI システムを開発する上で重要であると期待しており、クラスメソッドが重要な役割を果たすと考えています。実際のアプリケーションにおける信頼性とセキュリティを強化します。

詳細については、原論文を参照してください。

^{参考リンク：}

^{https://openai.com/index/prover-verifier-games-improve-legibility/}

以上がOpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。