RLHF と RL を同じカテゴリーに分類できるかどうかについては、依然として意見が分かれているようです。 AI の第一人者である Karpathy が、人工知能の概念を広めるために再びここに来ました。昨日、彼は「ヒューマンフィードバックに基づく強化学習(RLHF)は単なる強化学習(RL)です
Karpathyの全文は次のように説明されています:
RLHFは大規模言語モデル(LLM)を訓練するための3番目の方法です。」 3 つの主要なステージ (そして最後のステージ) で、最初の 2 つのステージは事前トレーニングと教師あり微調整 (SFT) です。 RLHF はかろうじて RL であり、広く認識されていないと思います。 RL は強力ですが、RLHF は強力ではありません。
実際の RL を使用してトレーニングされた AlphaGo の例を見てみましょう。コンピューターは囲碁をプレイし、報酬関数 (ゲームに勝つ) を最大化するラウンドでトレーニングされ、最終的には人間の最高のプレーヤーを上回りました。 AlphaGo は RLHF を使用して訓練されておらず、もし訓練されていたとしても、それほど効果的ではなかったでしょう。
RLHF で AlphaGo をトレーニングするとどうなるでしょうか?まず、ヒューマン アノテーターに 2 つの碁盤の状態を与え、どちらが好みかを尋ねます。
その後、100,000 件の同様の比較を収集し、「報酬モデル」(RM) ニューラル ネットワークをトレーニングして、ボードの状態の人間の雰囲気チェックをシミュレートします。人間の平均的な判断と一致するように訓練します。ボーナスモデルの雰囲気チェックを取得したら、これに対して RL を実行し、良い雰囲気をもたらす動きを行う方法を学ぶことができます。明らかに、これは Go ではあまり興味深い結果を生成しません。
これは主に 2 つの基本的で独立した理由によるものです:
1) 雰囲気は誤解を招く可能性があり、それは実際の報酬 (ゲームの勝利) ではありません。これはエージェントの目標としては不十分です。さらに悪いことに、2) ボードの状態が報酬モデルと逆であることがすぐに判明するため、RL の最適化が軌道から外れることがわかります。報酬モデルは、大気をシミュレートするために数十億のパラメーターを使用する大規模なニューラル ネットワークであることを思い出してください。一部のボード状態は、独自のトレーニング データの分布範囲外にあり、実際には良好な状態ではありませんが、報酬モデルから非常に高い報酬を受け取ります。
同じ理由で、RLHF の作業が LLM で機能することに時々驚かれます。 LLM 用にトレーニングした報酬モデルは、まったく同じ方法で雰囲気チェックを行うだけで、人間の評価者が統計的に好むと思われるアシスタントの応答に高いスコアを与えます。これは問題を正しく解決するという実際の目標ではなく、人間がエージェントとして良いと考える目標です。
第二に、モデルはゲームがモデルに報酬を与える方法で応答することをすぐに学習するため、RLHF を長時間実行することさえできません。これらの予測は非常に奇妙に見え、LLM アシスタントが多くのプロンプトに対して次のような無意味な応答を開始することがわかります。は、ザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザズザこれはあなたにはばかげているように思えますが、ボーナスモデルの雰囲気チェックを見て、何らかの理由でボーナスモデルがこれらが素晴らしく見えると考えていることに気づきます。
LLM は、報酬モデルのトレーニング データの範囲外で、未定義の範囲内にある敵対的な例を見つけました。これらの特定の例をトレーニング セットに繰り返し追加することでこれを軽減できますが、次回も他の敵対的な例を見つけることができます。多くの最適化ステップで RLHF を実行することさえできません。最適化によって報酬モデルの計算が開始されるため、数百または数千のステップの後にこれを呼び出す必要があります。これはAlphaGoのようなRLではありません。
ただし、RLHF は、LLM アシスタントを構築する上で非常に役立つステップです。これにはいくつかの微妙な理由があると思いますが、私のお気に入りの理由は、RLHF では、LLM アシスタントがジェネレータとディスクリミネータのギャップから恩恵を受けるということです。つまり、多くの質問タイプでは、ヒューマン・アノテーターにとって、理想的な回答を最初から作成するよりも、いくつかの回答候補から最適な回答を選択する方がはるかに簡単です。良い例は、「ペーパークリップの詩を生成する」のようなプロンプトです。平均的な人間のアノテーターは、教師付き微調整例として使用するための優れた詩を一から書くのは困難ですが、いくつかの候補の回答 (詩) があれば、より良い詩を選択することはできます。したがって、RLHF は、人間による監視の「容易さ」のギャップから利益を得る方法です。
RLHF が幻覚の軽減に役立つ理由は他にもあります。報酬モデルがトレーニング中に LLM が何をでっち上げているかを特定するのに十分強力なモデルである場合、LLM は低い報酬でこの行動を罰することを学習し、不確実な場合に事実の知識を取得するためにリスクを避けるようにモデルに教えることができます。しかし、幻覚の満足な軽減と管理は別の問題であり、ここでは詳しく説明しません。結論として、RLHF は機能しますが、RL ではありません。
これまでのところ、LLM 向けの実稼働グレードの RL は、オープン ドメインで説得力を持って実装され、大規模に実証されていません。直感的には、これは、オープンエンドの問題解決タスクでは実際の報酬を得る (つまり、ゲームに勝つ) ことが非常に難しいためです。囲碁のような閉じられたゲームのような環境では、すべてが楽しいです。ダイナミクスは限られており、報酬関数の評価コストは非常に低く、ゲームは不可能です。
しかし、記事を要約することで客観的な報酬を提供するにはどうすればよいでしょうか?それとも、特定の pip インストールに関する曖昧な質問に答えますか?それとも冗談を言いますか?それとも Java コードを Python に書き換えますか?これを達成することは原理的に不可能ではありませんが、簡単ではなく、創造的な思考が必要です。この問題を説得力をもって解決した人は、本物の RL を実行できるようになり、AlphaGo が囲碁で人間に勝つことができるようになります。 RL を使用すると、LLM はオープンドメインの問題を解決する際に人間を真に上回る可能性を秘めています。
Karpathy 氏の指摘は、RLHF と RL のさらなる違いを指摘する一部の人からも同様でした。たとえば、RLHF は適切な検索を実行せず、主に事前トレーニングされた軌道のサブセットを利用することを学習します。対照的に、適切な RL を実行すると、損失関数にエントロピー項が追加されるため、離散アクションの分布にノイズが多くなることがよくあります。 Kaypathy 氏は、原理的には RLHF の目標にエントロピー報酬を簡単に追加できると主張し、これは RL でもよく行われます。しかし実際には珍しいことのようです。
Googleの研究科学者ケビン・パトリック・マーフィーもカルパシーに完全に同意します。
- 彼は、RLHF は文字列値操作を伴うコンテキストの「バンディット」に似ており、プロンプトがコンテキストであるため、完全な RL とは言えないと信じています。
- 毎日のタスクに対する報酬を形式化することも難しい部分です (彼はそれを調整と呼ぶかもしれないと考えています)。 しかし、Googleのもう一人の上級研究科学者であるナターシャ・ジャックスは、カルパシーは間違っていると考えています。彼女は、エージェントが人々と対話するとき、人間が好む答えを与えることが本当の目標であると信じています。
配信範囲外は RLHF に固有の問題ではありません。人間のフィードバックが無限の囲碁シミュレーションを実行するよりも制限されているからといって、それが解決する価値のある問題ではないという意味ではなく、問題がより困難になるだけです。彼女は、これがより影響力のある問題になることを望んでいます。結局のところ、LLMにおける偏見を減らすことは、囲碁で人間に勝つよりも理にかなっているからです。カルパシーのような軽蔑的な用語を使用して、ボーナスモデルがバイブチェックであると言うのは愚かです。値の推定に対しても同じ議論を使用できます。
彼女は、カルパシーの見解は、LLMの偏見と幻想が引き起こす可能性のある深刻な害を軽減するための現時点で唯一の実行可能な方法であるにもかかわらず、人々がRLHFの活動を追求するのを思いとどまらせるだけであると感じています。 ️出典: https://x.com/natashajaques/status/1821631137 590259979
メタ研究者 Pierluca D'Oro は、Karpathy の主旨には同意しませんが、「RLHF はかろうじて RL である」という点では同意します このタイトル。彼は、LLM を微調整するために一般的に使用される RLHF は RL ではないと主張しました。
主なポイントは次のとおりです:
強化学習では、ほとんどの複雑なタスクでは、目標の重要性に加えて、実行方法も同様に重要であるため、「完全な報酬」の概念を追求することは非現実的です。
囲碁のような明確なルールがあるタスクではありますが、RL は優れたパフォーマンスを発揮します。しかし、複雑な行動となると、従来の RL の報酬メカニズムではニーズを満たすことができない可能性があります。 - 彼は、不完全な報酬モデルの下で RL のパフォーマンスを向上させる方法を研究することを提唱し、フィードバック ループ、堅牢な RL メカニズム、人間と機械のコラボレーションの重要性を強調しています。
-
- 画像出典: https://x.com/proced uralia/status/1821560990091128943 あなたは誰の意見に同意しますか?コメント欄にメッセージを残していただければ幸いです。
以上がKarpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対しているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。