Karpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対している
RLHF と RL を同じカテゴリーに分類できるかどうかについては、依然として意見が分かれているようです。 AI の第一人者である Karpathy が、人工知能の概念を広めるために再びここに来ました。昨日、彼は「ヒューマンフィードバックに基づく強化学習(RLHF)は単なる強化学習(RL)です
RLHFは大規模言語モデル(LLM)を訓練するための3番目の方法です。」 3 つの主要なステージ (そして最後のステージ) で、最初の 2 つのステージは事前トレーニングと教師あり微調整 (SFT) です。 RLHF はかろうじて RL であり、広く認識されていないと思います。 RL は強力ですが、RLHF は強力ではありません。
実際の RL を使用してトレーニングされた AlphaGo の例を見てみましょう。コンピューターは囲碁をプレイし、報酬関数 (ゲームに勝つ) を最大化するラウンドでトレーニングされ、最終的には人間の最高のプレーヤーを上回りました。 AlphaGo は RLHF を使用して訓練されておらず、もし訓練されていたとしても、それほど効果的ではなかったでしょう。
RLHF で AlphaGo をトレーニングするとどうなるでしょうか?まず、ヒューマン アノテーターに 2 つの碁盤の状態を与え、どちらが好みかを尋ねます。
その後、100,000 件の同様の比較を収集し、「報酬モデル」(RM) ニューラル ネットワークをトレーニングして、ボードの状態の人間の雰囲気チェックをシミュレートします。人間の平均的な判断と一致するように訓練します。ボーナスモデルの雰囲気チェックを取得したら、これに対して RL を実行し、良い雰囲気をもたらす動きを行う方法を学ぶことができます。明らかに、これは Go ではあまり興味深い結果を生成しません。
これは主に 2 つの基本的で独立した理由によるものです:
1) 雰囲気は誤解を招く可能性があり、それは実際の報酬 (ゲームの勝利) ではありません。これはエージェントの目標としては不十分です。さらに悪いことに、2) ボードの状態が報酬モデルと逆であることがすぐに判明するため、RL の最適化が軌道から外れることがわかります。報酬モデルは、大気をシミュレートするために数十億のパラメーターを使用する大規模なニューラル ネットワークであることを思い出してください。一部のボード状態は、独自のトレーニング データの分布範囲外にあり、実際には良好な状態ではありませんが、報酬モデルから非常に高い報酬を受け取ります。
同じ理由で、RLHF の作業が LLM で機能することに時々驚かれます。 LLM 用にトレーニングした報酬モデルは、まったく同じ方法で雰囲気チェックを行うだけで、人間の評価者が統計的に好むと思われるアシスタントの応答に高いスコアを与えます。これは問題を正しく解決するという実際の目標ではなく、人間がエージェントとして良いと考える目標です。
第二に、モデルはゲームがモデルに報酬を与える方法で応答することをすぐに学習するため、RLHF を長時間実行することさえできません。これらの予測は非常に奇妙に見え、LLM アシスタントが多くのプロンプトに対して次のような無意味な応答を開始することがわかります。は、ザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザザズザこれはあなたにはばかげているように思えますが、ボーナスモデルの雰囲気チェックを見て、何らかの理由でボーナスモデルがこれらが素晴らしく見えると考えていることに気づきます。
LLM は、報酬モデルのトレーニング データの範囲外で、未定義の範囲内にある敵対的な例を見つけました。これらの特定の例をトレーニング セットに繰り返し追加することでこれを軽減できますが、次回も他の敵対的な例を見つけることができます。多くの最適化ステップで RLHF を実行することさえできません。最適化によって報酬モデルの計算が開始されるため、数百または数千のステップの後にこれを呼び出す必要があります。これはAlphaGoのようなRLではありません。
ただし、RLHF は、LLM アシスタントを構築する上で非常に役立つステップです。これにはいくつかの微妙な理由があると思いますが、私のお気に入りの理由は、RLHF では、LLM アシスタントがジェネレータとディスクリミネータのギャップから恩恵を受けるということです。つまり、多くの質問タイプでは、ヒューマン・アノテーターにとって、理想的な回答を最初から作成するよりも、いくつかの回答候補から最適な回答を選択する方がはるかに簡単です。良い例は、「ペーパークリップの詩を生成する」のようなプロンプトです。平均的な人間のアノテーターは、教師付き微調整例として使用するための優れた詩を一から書くのは困難ですが、いくつかの候補の回答 (詩) があれば、より良い詩を選択することはできます。したがって、RLHF は、人間による監視の「容易さ」のギャップから利益を得る方法です。
RLHF が幻覚の軽減に役立つ理由は他にもあります。報酬モデルがトレーニング中に LLM が何をでっち上げているかを特定するのに十分強力なモデルである場合、LLM は低い報酬でこの行動を罰することを学習し、不確実な場合に事実の知識を取得するためにリスクを避けるようにモデルに教えることができます。しかし、幻覚の満足な軽減と管理は別の問題であり、ここでは詳しく説明しません。結論として、RLHF は機能しますが、RL ではありません。
これまでのところ、LLM 向けの実稼働グレードの RL は、オープン ドメインで説得力を持って実装され、大規模に実証されていません。直感的には、これは、オープンエンドの問題解決タスクでは実際の報酬を得る (つまり、ゲームに勝つ) ことが非常に難しいためです。囲碁のような閉じられたゲームのような環境では、すべてが楽しいです。ダイナミクスは限られており、報酬関数の評価コストは非常に低く、ゲームは不可能です。
しかし、記事を要約することで客観的な報酬を提供するにはどうすればよいでしょうか?それとも、特定の pip インストールに関する曖昧な質問に答えますか?それとも冗談を言いますか?それとも Java コードを Python に書き換えますか?これを達成することは原理的に不可能ではありませんが、簡単ではなく、創造的な思考が必要です。この問題を説得力をもって解決した人は、本物の RL を実行できるようになり、AlphaGo が囲碁で人間に勝つことができるようになります。 RL を使用すると、LLM はオープンドメインの問題を解決する際に人間を真に上回る可能性を秘めています。
Karpathy 氏の指摘は、RLHF と RL のさらなる違いを指摘する一部の人からも同様でした。たとえば、RLHF は適切な検索を実行せず、主に事前トレーニングされた軌道のサブセットを利用することを学習します。対照的に、適切な RL を実行すると、損失関数にエントロピー項が追加されるため、離散アクションの分布にノイズが多くなることがよくあります。 Kaypathy 氏は、原理的には RLHF の目標にエントロピー報酬を簡単に追加できると主張し、これは RL でもよく行われます。しかし実際には珍しいことのようです。
- 彼は、RLHF は文字列値操作を伴うコンテキストの「バンディット」に似ており、プロンプトがコンテキストであるため、完全な RL とは言えないと信じています。
- 毎日のタスクに対する報酬を形式化することも難しい部分です (彼はそれを調整と呼ぶかもしれないと考えています)。
しかし、Googleのもう一人の上級研究科学者であるナターシャ・ジャックスは、カルパシーは間違っていると考えています。彼女は、エージェントが人々と対話するとき、人間が好む答えを与えることが本当の目標であると信じています。
配信範囲外は RLHF に固有の問題ではありません。人間のフィードバックが無限の囲碁シミュレーションを実行するよりも制限されているからといって、それが解決する価値のある問題ではないという意味ではなく、問題がより困難になるだけです。彼女は、これがより影響力のある問題になることを望んでいます。結局のところ、LLMにおける偏見を減らすことは、囲碁で人間に勝つよりも理にかなっているからです。カルパシーのような軽蔑的な用語を使用して、ボーナスモデルがバイブチェックであると言うのは愚かです。値の推定に対しても同じ議論を使用できます。
彼女は、カルパシーの見解は、LLMの偏見と幻想が引き起こす可能性のある深刻な害を軽減するための現時点で唯一の実行可能な方法であるにもかかわらず、人々がRLHFの活動を追求するのを思いとどまらせるだけであると感じています。 ️出典: https://x.com/natashajaques/status/1821631137 590259979
メタ研究者 Pierluca D'Oro は、Karpathy の主旨には同意しませんが、「RLHF はかろうじて RL である」という点では同意します このタイトル。彼は、LLM を微調整するために一般的に使用される RLHF は RL ではないと主張しました。
強化学習では、ほとんどの複雑なタスクでは、目標の重要性に加えて、実行方法も同様に重要であるため、「完全な報酬」の概念を追求することは非現実的です。
- 囲碁のような明確なルールがあるタスクではありますが、RL は優れたパフォーマンスを発揮します。しかし、複雑な行動となると、従来の RL の報酬メカニズムではニーズを満たすことができない可能性があります。
- 彼は、不完全な報酬モデルの下で RL のパフォーマンスを向上させる方法を研究することを提唱し、フィードバック ループ、堅牢な RL メカニズム、人間と機械のコラボレーションの重要性を強調しています。
- 画像出典: https://x.com/proced uralia/status/1821560990091128943 あなたは誰の意見に同意しますか?コメント欄にメッセージを残していただければ幸いです。
以上がKarpathy 氏の見解は物議を醸している: RLHF は本物の強化学習ではなく、Google と Meta はそれに反対しているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。
