金庸の武侠小説に左右格闘という武術スタントがあるが、これは周伯通が桃花島の洞窟で10年以上修行して編み出した武術である。自分の楽しみのために左手と右手を使って戦うという考えでした。幸せです。このアイデアは、武道の練習に使用できるだけでなく、ここ数年で大流行した敵対的生成ネットワーク (GAN) などの機械学習モデルのトレーニングにも使用できます。
今日のラージ モデル (LLM) の時代において、研究者は左右の相互作用の微妙な使用法を発見しました。最近、カリフォルニア大学ロサンゼルス校のGu Quanquan氏のチームは、SPIN (Self-Play Fine-Tuning) と呼ばれる新しい方法を提案しました。この方法では、追加の微調整データを使用せずに、セルフ ゲームのみで LLM の機能を大幅に向上させることができます。 Gu Quanquan 教授は次のように述べています。「誰かに釣りを教えるよりも、釣りを教えるほうが良いのです。セルフゲーム微調整 (SPIN) を通じて、すべての大型モデルを弱い状態から強い状態に改善することができます。」
この研究はソーシャル ネットワークでも多くの議論を引き起こしました。たとえば、ペンシルベニア大学ウォートン スクールのイーサン モリック教授は次のように述べています。「さらなる証拠は、 AI は、人間が作成したコンテンツのトレーニングに利用できるリソースによって制限されません。この論文は、AI が作成したデータを使用して AI をトレーニングすると、人間が作成したデータのみを使用するよりも高品質の結果を達成できることを再度示しています。」
さらに、多くの研究者がこの手法に興奮しており、2024 年の関連方向の進歩に大きな期待を寄せています。 Gu Quanquan 教授は Machine Heart に対し、「GPT-4 を超える大規模モデルをトレーニングしたい場合、これは間違いなく試してみる価値のあるテクノロジーです。」
論文のアドレスは https://arxiv.org/pdf/2401.01335.pdf です。
大規模言語モデル (LLM) は、複雑な推論と専門知識を必要とする幅広いタスクを解決する並外れた機能を備えた、汎用人工知能 (AGI) の画期的な時代の到来をもたらしました。 LLM の専門分野には、数学的推論/問題解決、コード生成/プログラミング、テキスト生成、要約とクリエイティブライティングなどが含まれます。
LLM の主な進歩の 1 つは、トレーニング後の調整プロセスです。これにより、モデルが要件に沿って動作するようになりますが、このプロセスは多くの場合、コストのかかる人間がラベル付けしたデータに依存します。古典的な調整方法には、人間のデモンストレーションに基づく教師あり微調整 (SFT) と人間の好みのフィードバック (RLHF) に基づく強化学習が含まれます。
これらの位置合わせ方法はすべて、人間がラベル付けした大量のデータを必要とします。したがって、位置合わせプロセスを合理化するために、研究者らは人間のデータを効果的に活用する微調整方法を開発したいと考えています。
これは、この研究の目標でもあります。新しい微調整手法を開発して、微調整されたモデルが引き続き強力になるようにすることです。この微調整プロセスには、データセットの微調整以外での人間の使用 データにラベルを付ける。
実際、機械学習コミュニティは、追加のトレーニング データを使用せずに、弱いモデルを強力なモデルに改善する方法に常に関心を持ってきました。この分野の研究は、ブースティングにまで遡ることができます。アルゴリズム。研究では、自己トレーニング アルゴリズムにより、追加のラベル付きデータを必要とせずに、ハイブリッド モデルで弱い学習者を強い学習者に変換できることも示されています。ただし、外部の指導なしに LLM を自動的に改善する機能は複雑であり、研究も不十分です。これは次の疑問につながります:
人間がラベル付けしたデータを追加せずに LLM の自己改善を行うことはできるでしょうか?
技術的な詳細では、次のように示される LLM を変換できます。 pθt は、人間が注釈を付けた SFT データセット内のプロンプト x に対する応答 y' を生成します。次の目標は、人間が与えた応答 y から pθt によって生成された応答 y' を区別する能力を持つ新しい LLM pθ{t 1} を見つけることです。
このプロセスは 2 人のプレイヤー間のゲーム プロセスとみなすことができます。メイン プレイヤーは新しい LLM pθ{t 1} であり、その目標は相手プレイヤーの反応を区別することです。 pθt と人間生成の応答。対戦相手のプレイヤーは古い LLM pθt で、そのタスクは人間が注釈を付けた SFT データセットにできるだけ近い応答を生成することです。
新しい LLM pθ{t 1} は、古い LLM pθt を微調整することによって取得されます。トレーニング プロセスにより、新しい LLM pθ{t 1} は、によって生成された応答 y' を区別する優れた能力を持つことができます。 pθt と人間によって与えられる応答 y。このトレーニングにより、新しい LLM pθ{t 1} がメイン プレーヤーとして優れた識別能力を達成できるだけでなく、新しい LLM pθ{t 1} が次の反復で対戦相手プレーヤーとしてより整列された SFT データを提供できるようになります。応答。次の反復では、新しく取得された LLM pθ{t 1} が応答を生成した対戦相手プレイヤーになります。
このセルフ ゲーム プロセスの目標は、LLM を作成することです。最終的に pθ∗ = p_data に収束すると、可能な限り最も強力な LLM は、以前のバージョンや人間が生成した応答と変わらない応答を生成します。
興味深いことに、この新しい方法は、Rafailov らによって最近提案された直接優先最適化 (DPO) 方法との類似点を示していますが、新しい方法の明らかな違いは、自己優先を使用することです。ゲームの仕組み。したがって、この新しい方法には、人間の嗜好データを追加する必要がないという重要な利点があります。
さらに、この新しい方法と敵対的生成ネットワーク (GAN) の類似点も明確にわかります。ただし、新しい方法では識別子 (メイン プレーヤー) とジェネレーターが異なる点が異なります (相手は、2 つの隣接する反復後の同じ LLM のインスタンスです。
チームは、この新しい手法の理論的証明も実施しました。その結果、LLM の分布がターゲット データの分布と等しい場合にのみ、この手法が収束できることがわかりました。は、 p_θ_t=p_data の場合です。
実験では、チームは、Mistral-7B に基づいて微調整された LLM インスタンス zephyr-7b-sft-full を使用しました。 。
結果は、新しいメソッドが連続反復で zephyr-7b-sft-full を改善し続けることができることを示しています。また、比較として、SFT メソッドを使用して SFT で継続的にトレーニングを行った場合も同様です。データセット Ultrachat200k、評価スコアはパフォーマンスのボトルネックに達するか、低下する可能性があります。
さらに興味深いのは、新しい方法で使用されるデータセットは、Ultrachat200k データセットの 50k サイズのサブセットにすぎないということです。
新しいメソッド SPIN にはもう 1 つの成果があります。HuggingFace Open LLM ランキングにおけるベース モデル zephyr-7b-sft-full の平均スコアを 58.14 から 63.16 に効果的に向上させることができます。 GSM8k と TruthfulQA では 10% 以上の驚くべき改善が見られ、MT-Bench では 5.94 から 6.78 に改善することもできます。
Open LLM ランキングでは、SPIN 微調整を使用するモデルは、追加の 62k 優先データセットを使用してトレーニングされたモデルは同等です。
人間がラベル付けしたデータを最大限に活用することで、SPIN は大規模なモデルを信頼できるようにします。セルフゲームで弱点を克服し、強くなってください。人間の好みのフィードバック (RLHF) に基づく強化学習と比較して、SPIN を使用すると、人間による追加のフィードバックやより強力な LLM フィードバックを必要とせずに、LLM が自己改善できます。 HuggingFace Open LLM リーダーボードを含む複数のベンチマーク データセットでの実験では、SPIN は LLM のパフォーマンスを大幅かつ安定的に向上させ、追加の AI フィードバックでトレーニングされたモデルをも上回るパフォーマンスを示しました。
SPIN が大規模モデルの進化と改善に役立ち、最終的には人間のレベルを超えた人工知能を実現できると私たちは期待しています。
以上がLLM は互いに戦うことを学び、基本モデルはグループの革新をもたらす可能性があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。