ホームページ テクノロジー周辺機器 AI LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

Jan 08, 2024 pm 07:34 PM
ai モデル

金庸の武侠小説に左右格闘という武術スタントがあるが、これは周伯通が桃花島の洞窟で10年以上修行して編み出した武術である。自分の楽しみのために左手と右手を使って戦うという考えでした。幸せです。このアイデアは、武道の練習に使用できるだけでなく、ここ数年で大流行した敵対的生成ネットワーク (GAN) などの機械学習モデルのトレーニングにも使用できます。

今日のラージ モデル (LLM) の時代において、研究者は左右の相互作用の微妙な使用法を発見しました。最近、カリフォルニア大学ロサンゼルス校のGu Quanquan氏のチームは、SPIN (Self-Play Fine-Tuning) と呼ばれる新しい方法を提案しました。この方法では、追加の微調整データを使用せずに、セルフ ゲームのみで LLM の機能を大幅に向上させることができます。 Gu Quanquan 教授は次のように述べています。「誰かに釣りを教えるよりも、釣りを教えるほうが良いのです。セルフゲーム微調整 (SPIN) を通じて、すべての大型モデルを弱い状態から強い状態に改善することができます。」

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

この研究はソーシャル ネットワークでも多くの議論を引き起こしました。たとえば、ペンシルベニア大学ウォートン スクールのイーサン モリック教授は次のように述べています。「さらなる証拠は、 AI は、人間が作成したコンテンツのトレーニングに利用できるリソースによって制限されません。この論文は、AI が作成したデータを使用して AI をトレーニングすると、人間が作成したデータのみを使用するよりも高品質の結果を達成できることを再度示しています。」

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

さらに、多くの研究者がこの手法に興奮しており、2024 年の関連方向の進歩に大きな期待を寄せています。 Gu Quanquan 教授は Machine Heart に対し、「GPT-4 を超える大規模モデルをトレーニングしたい場合、これは間違いなく試してみる価値のあるテクノロジーです。」

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

論文のアドレスは https://arxiv.org/pdf/2401.01335.pdf です。

大規模言語モデル (LLM) は、複雑な推論と専門知識を必要とする幅広いタスクを解決する並外れた機能を備えた、汎用人工知能 (AGI) の画期的な時代の到来をもたらしました。 LLM の専門分野には、数学的推論/問題解決、コード生成/プログラミング、テキスト生成、要約とクリエイティブライティングなどが含まれます。

LLM の主な進歩の 1 つは、トレーニング後の調整プロセスです。これにより、モデルが要件に沿って動作するようになりますが、このプロセスは多くの場合、コストのかかる人間がラベル付けしたデータに依存します。古典的な調整方法には、人間のデモンストレーションに基づく教師あり微調整 (SFT) と人間の好みのフィードバック (RLHF) に基づく強化学習が含まれます。

これらの位置合わせ方法はすべて、人間がラベル付けした大量のデータを必要とします。したがって、位置合わせプロセスを合理化するために、研究者らは人間のデータを効果的に活用する微調整方法を開発したいと考えています。

これは、この研究の目標でもあります。新しい微調整手法を開発して、微調整されたモデルが引き続き強力になるようにすることです。この微調整プロセスには、データセットの微調整以外での人間の使用 データにラベルを付ける。

実際、機械学習コミュニティは、追加のトレーニング データを使用せずに、弱いモデルを強力なモデルに改善する方法に常に関心を持ってきました。この分野の研究は、ブースティングにまで遡ることができます。アルゴリズム。研究では、自己トレーニング アルゴリズムにより、追加のラベル付きデータを必要とせずに、ハイブリッド モデルで弱い学習者を強い学習者に変換できることも示されています。ただし、外部の指導なしに LLM を自動的に改善する機能は複雑であり、研究も不十分です。これは次の疑問につながります:

人間がラベル付けしたデータを追加せずに LLM の自己改善を行うことはできるでしょうか?

方法

技術的な詳細では、次のように示される LLM を変換できます。 pθt は、人間が注釈を付けた SFT データセット内のプロンプト x に対する応答 y' を生成します。次の目標は、人間が与えた応答 y から pθt によって生成された応答 y' を区別する能力を持つ新しい LLM pθ{t 1} を見つけることです。

このプロセスは 2 人のプレイヤー間のゲーム プロセスとみなすことができます。メイン プレイヤーは新しい LLM pθ{t 1} であり、その目標は相手プレイヤーの反応を区別することです。 pθt と人間生成の応答。対戦相手のプレイヤーは古い LLM pθt で、そのタスクは人間が注釈を付けた SFT データセットにできるだけ近い応答を生成することです。

新しい LLM pθ{t 1} は、古い LLM pθt を微調整することによって取得されます。トレーニング プロセスにより、新しい LLM pθ{t 1} は、によって生成された応答 y' を区別する優れた能力を持つことができます。 pθt と人間によって与えられる応答 y。このトレーニングにより、新しい LLM pθ{t 1} がメイン プレーヤーとして優れた識別能力を達成できるだけでなく、新しい LLM pθ{t 1} が次の反復で対戦相手プレーヤーとしてより整列された SFT データを提供できるようになります。応答。次の反復では、新しく取得された LLM pθ{t 1} が応答を生成した対戦相手プレイヤーになります。

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある


LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

このセルフ ゲーム プロセスの目標は、LLM を作成することです。最終的に pθ∗ = p_data に収束すると、可能な限り最も強力な LLM は、以前のバージョンや人間が生成した応答と変わらない応答を生成します。

興味深いことに、この新しい方法は、Rafailov らによって最近提案された直接優先最適化 (DPO) 方法との類似点を示していますが、新しい方法の明らかな違いは、自己優先を使用することです。ゲームの仕組み。したがって、この新しい方法には、人間の嗜好データを追加する必要がないという重要な利点があります。

さらに、この新しい方法と敵対的生成ネットワーク (GAN) の類似点も明確にわかります。ただし、新しい方法では識別子 (メイン プレーヤー) とジェネレーターが異なる点が異なります (相手は、2 つの隣接する反復後の同じ LLM のインスタンスです。

チームは、この新しい手法の理論的証明も実施しました。その結果、LLM の分布がターゲット データの分布と等しい場合にのみ、この手法が収束できることがわかりました。は、 p_θ_t=p_data の場合です。

実験

実験では、チームは、Mistral-7B に基づいて微調整された LLM インスタンス zephyr-7b-sft-full を使用しました。 。

結果は、新しいメソッドが連続反復で zephyr-7b-sft-full を改善し続けることができることを示しています。また、比較として、SFT メソッドを使用して SFT で継続的にトレーニングを行った場合も同様です。データセット Ultrachat200k、評価スコアはパフォーマンスのボトルネックに達するか、低下する可能性があります。

さらに興味深いのは、新しい方法で使用されるデータセットは、Ultrachat200k データセットの 50k サイズのサブセットにすぎないということです。

新しいメソッド SPIN にはもう 1 つの成果があります。HuggingFace Open LLM ランキングにおけるベース モデル zephyr-7b-sft-full の平均スコアを 58.14 から 63.16 に効果的に向上させることができます。 GSM8k と TruthfulQA では 10% 以上の驚くべき改善が見られ、MT-Bench では 5.94 から 6.78 に改善することもできます。

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

Open LLM ランキングでは、SPIN 微調整を使用するモデルは、追加の 62k 優先データセットを使用してトレーニングされたモデルは同等です。

LLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性がある

結論

人間がラベル付けしたデータを最大限に活用することで、SPIN は大規模なモデルを信頼できるようにします。セルフゲームで弱点を克服し、強くなってください。人間の好みのフィードバック (RLHF) に基づく強化学習と比較して、SPIN を使用すると、人間による追加のフィードバックやより強力な LLM フィードバックを必要とせずに、LLM が自己改善できます。 HuggingFace Open LLM リーダーボードを含む複数のベンチマーク データセットでの実験では、SPIN は LLM のパフォーマンスを大幅かつ安定的に向上させ、追加の AI フィードバックでトレーニングされたモデルをも上回るパフォーマンスを示しました。

SPIN が大規模モデルの進化と改善に役立ち、最終的には人間のレベルを超えた人工知能を実現できると私たちは期待しています。

以上がLLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

C言語でchar配列の使用方法 C言語でchar配列の使用方法 Apr 03, 2025 pm 03:24 PM

Char Arrayは文字シーケンスをC言語で保存し、char array_name [size]として宣言されます。アクセス要素はサブスクリプト演算子に渡され、要素は文字列のエンドポイントを表すnullターミネーター「\ 0」で終了します。 C言語は、strlen()、strcpy()、strcat()、strcmp()など、さまざまな文字列操作関数を提供します。

Cスイッチステートメントでデフォルトに起因するエラーを避けてください Cスイッチステートメントでデフォルトに起因するエラーを避けてください Apr 03, 2025 pm 03:45 PM

Cスイッチステートメントでデフォルトに起因するエラーを回避するための戦略:定数の代わりに列挙を使用し、ケースステートメントの値を列挙の有効なメンバーに制限します。最後のケースステートメントでフォールスルーを使用して、プログラムが以下のコードを引き続き実行できるようにします。フォールスルーなしのスイッチステートメントの場合、エラー処理のためのデフォルトステートメントを常に追加するか、デフォルトの動作を提供します。

C言語合計の機能は何ですか? C言語合計の機能は何ですか? Apr 03, 2025 pm 02:21 PM

C言語に組み込みの合計機能はないため、自分で書く必要があります。合計は、配列を通過して要素を蓄積することで達成できます。ループバージョン:合計は、ループとアレイの長さを使用して計算されます。ポインターバージョン:ポインターを使用してアレイ要素を指し示し、効率的な合計が自己概要ポインターを通じて達成されます。アレイバージョンを動的に割り当てます:[アレイ]を動的に割り当ててメモリを自分で管理し、メモリの漏れを防ぐために割り当てられたメモリが解放されます。

Cの!xの結果を逆転させる方法は? Cの!xの結果を逆転させる方法は? Apr 03, 2025 pm 01:57 PM

C言語では、!! xを使用できますが、2つのブール変換のみを使用し、xを直接使用する方が簡潔で効率的です。

スイッチケースステートメントのデフォルトの重要性(C言語) スイッチケースステートメントのデフォルトの重要性(C言語) Apr 03, 2025 pm 03:57 PM

デフォルトステートメントは、変数値がケースステートメントと一致しない場合にコードブロックが実行されることを保証するデフォルトの処理パスを提供するため、スイッチケースステートメントで重要です。これにより、予期しない動作やエラーが防止され、コードの堅牢性が向上します。

c言語の優先順位は何ですか!x? c言語の優先順位は何ですか!x? Apr 03, 2025 pm 02:06 PM

論理非操作者(!)には、括弧の横に優先順位があります。つまり、表現では、他のほとんどの演算子に先行します。優先順位を理解するには、暗記の暗記だけでなく、さらに重要なことに、複雑な表現での検出不可能なエラーを避けるために、その背後にある論理と潜在的な落とし穴を理解する必要があります。ブラケットを追加すると、表現の意図を明確にし、コードの明確さと保守性を向上させ、予期しない動作を防ぐことができます。

Cで理解する方法!x? Cで理解する方法!x? Apr 03, 2025 pm 02:33 PM

!X理解!Xは、C言語の論理的な非操作者です。 Xの値をブーリングします。つまり、虚偽の真の変化、trueへの誤った変更です。ただし、Cの真実と虚偽はブール型ではなく数値で表されていることに注意してください。非ゼロは真であると見なされ、0のみが偽と見なされます。したがって、!xは正の数と同じ負の数を扱い、真実と見なされます。

C言語のcharの値の範囲は何ですか C言語のcharの値の範囲は何ですか Apr 03, 2025 pm 03:39 PM

C言語のCHARの値範囲は、実装方法に依存します:署名型CHAR:-128〜127 Unsigned Char:0〜255特定の範囲は、コンピューターアーキテクチャとコンパイラオプションの影響を受けます。デフォルトでは、charは署名型タイプに設定されています。

See all articles