LLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphago-AI-php.cn

rlは、モデルが自分の経験から学習できるようにすることでこのギャップを橋渡しします

rlは「新しい」ではありません。人間の専門知識を上回ることができます（Alphago、2016）

これらの重要なポイントのいくつかに飛び込みましょう。

rlhf

報酬モデルは近似です - 人間の好みを完全に反映していない場合があります。

ホームページ

テクノロジー周辺機器

LLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphago

DDD

Feb 28, 2025 am 10:37 AM

私のLLMディープダイブのパート2へようこそ。パート1を読んでいない場合は、最初にチェックアウトすることを強くお勧めします。

以前は、LLMをトレーニングする最初の2つの主要な段階を取り上げました。

事前トレーニング - 基本モデルを形成するために大規模なデータセットから学習。

監視付き微調整（SFT） - 有用にするためにキュレーションされた例でモデルを改良します。
さて、次の主要な段階に飛び込んでいます：

。トレーニング前とSFTは確立されていますが、RLはまだ進化していますが、トレーニングパイプラインの重要な部分になりました。

Andrej Karpathyの広く人気のある3.5時間のYouTubeから参照しました。 AndrejはOpenaiの創設メンバーであり、彼の洞察は金です。 行こう？

補強学習（RL）の目的は何ですか？

人間とLLMSは情報を異なって処理します。基本的な算術のように、私たちにとって直感的なことは、テキストをトークンのシーケンスと見なすLLMのためではないかもしれません。逆に、LLMは、トレーニング中に十分な例を見たという理由だけで、複雑なトピックに関する専門家レベルの応答を生成できます。

この認知の違いにより、人間のアノテーターが、LLMを正しい答えに一貫して導く「完璧な」ラベルセットを提供することが困難になります。

rlは、モデルが自分の経験から学習できるようにすることでこのギャップを橋渡しします

。

明示的なラベルのみに依存する代わりに、モデルはさまざまなトークンシーケンスを調査し、出力が最も便利なフィードバック（報酬信号）を受信します。時間が経つにつれて、それは人間の意図とよりよく調整することを学びます。

の背後にある直感 llmsは確率的です。つまり、応答は固定されていません。同じプロンプトがあっても、出力は確率分布からサンプリングされるために異なります。 並行して数千または数百万の可能な応答を生成することにより、このランダム性を活用できます。モデルが異なるパスを探索しているモデルと考えてください。私たちの目標は、より良い道をより頻繁に進むように奨励することです。これを行うには、より良い結果につながるトークンのシーケンスでモデルをトレーニングします。人間の専門家がラベル付きのデータを提供する監視された微調整とは異なり、補強学習により、モデルはそれ自体から学ぶことができます。

モデルはどの応答が最適かを発見し、各トレーニングステップの後、そのパラメーターを更新します。時間が経つにつれて、これにより、将来同様のプロンプトが与えられた場合、モデルは高品質の回答を生成する可能性が高くなります。

しかし、どの応答が最適かをどのように判断しますか？そして、どのくらいのRLをすべきですか？詳細は注意が必要であり、それらを正しくすることは些細なことではありません。

rlは「新しい」ではありません。人間の専門知識を上回ることができます（Alphago、2016）

RLのパワーの素晴らしい例は、プロのGOプレーヤーを倒し、後に人間レベルのプレイを上回る最初のAIであるDeepMindのAlphagoです。 2016年のネイチャーペーパー（下のグラフ）では、モデルが純粋にSFTによってトレーニングされたとき（モデルの良い例を模倣するための良い例を与えます）、モデルは人間レベルのパフォーマンスに到達することができましたが、

。

点線はリー・セドルのパフォーマンスを表しています - 世界で最高のゴープレーヤー。

これは、SFTがイノベーションではなく複製に関するものであるためです。モデルが人間の知識を超えて新しい戦略を発見することはできません。

しかし、RLは、Alphagoがそれ自体に対抗し、その戦略を改良し、最終的に

を超えることを可能にしました

（青い線）。 rlは、AIのエキサイティングなフロンティアを表しています。モデルは、多様で挑戦的な問題のプールで訓練するときに人間の想像力を超えた戦略を探求することができます。 RLファンデーション要約

典型的なRLセットアップの主要なコンポーネントをすばやく再び要約しましょう：

LLMSの仕組み：補強学習、RLHF、Deepseek R1、Openai O1、Alphago

エージェント

学習者または意思決定者。それは現在の状況（

）を観察し、アクションを選択してから、結果に基づいてその動作を更新します（報酬）。 環境 - エージェントが動作する外部システム。 state
t。 各タイムスタンプで、エージェントは環境を新しい状態に変える環境で、アクション
を実行します。エージェントはまた、アクションがどれほど良いか悪いかを示すフィードバックを受け取ります。このフィードバックは、報酬さまざまな状態とアクションからのフィードバックを使用することにより、エージェントは徐々に最適な戦略を学び、ポリシー

ポリシーはエージェントの戦略です。エージェントが適切なポリシーに従っている場合、それは一貫して良い決定を下し、多くのステップよりも高い報酬につながります。

数学的用語では、特定の状態の異なる出力の確率を決定する関数です - （πθ（a | s））

値関数

長期的な予想される報酬を考慮して、特定の状態にいることがどれほど良いかの推定。 LLMの場合、報酬は人間のフィードバックまたは報酬モデルから得られる可能性があります。

俳優 - 批評家アーキテクチャ

2つのコンポーネントを組み合わせた人気のあるRLセットアップです。

- 各状態でどのアクションを取るかを決定し、ポリシー（πθ）を学び、更新します。批評家
値関数（v（s））を評価して、選択したアクションが良い結果につながっているかどうかについて俳優にフィードバックを与える。 それがどのように機能するか：

俳優

は、現在のポリシーに基づいてアクションを選択します。

批評家は結果を評価し（次の状態に報いる）、その値の見積もりを更新します。 批評家のフィードバックは、俳優がポリシーを改良するのに役立ち、将来の行動がより高い報酬につながるようにします。
llmsのためにすべてをまとめます状態は現在のテキスト（プロンプトまたは会話）になる可能性があり、アクションは次のトークンになる可能性があります。報酬モデル（たとえば、人間のフィードバック）は、モデルに生成されたテキストがどれほど良いか悪いかを伝えます。
deepseek-r1（2025年1月22日公開）

deepseek-r1-zeroとdeepseek-r1

deepseek-r1-zeroは、大規模なRLを介してのみ訓練され、監視された微調整（SFT）をスキップしました。

deepseek-r1がそれに基づいて構築され、遭遇した課題に対処しました。

これらの重要なポイントのいくつかに飛び込みましょう。

1。 RLアルゴ：グループ相対ポリシーの最適化（GRPO） RLアルゴリズムを変更する重要なゲームの1つは、広く人気の近位ポリシー最適化（PPO）のバリアントであるグループ相対ポリシー最適化（GRPO）です。 GRPOは2024年2月にDeepseekmath Paperで紹介されました。

なぜPPO？

批評家モデルへの依存。 RLパイプラインが応答を評価および最適化するために相当なリソースを要求するため、
高い計算コスト。絶対的な報酬の評価
絶対的な報酬に依存している場合 - 答えが「良い」か「悪い」かどうかを判断するための単一の標準またはメトリックがある場合、異なる推論ドメインにわたってオープンエンドの多様なタスクのニュアンスをキャプチャするのは難しい場合があります。
GRPOがこれらの課題にどのように対処したか：

grpoは、相対評価を使用して批評家モデルを排除します - 回答は、固定標準で判断されるのではなく、グループ内で比較されます。 生徒が問題を解決していると想像してください。教師が個別に格付けする代わりに、彼らは答えを比較し、お互いから学びます。時間が経つにつれて、パフォーマンスはより高い品質に向かって収束します

grpoはトレーニングプロセス全体にどのように適合しますか？

GRPOは、他のトレーニングステップを変更せずに損失を計算する方法を変更します：

データの収集（クエリの応答）

報酬を割り当てる - グループ内の各応答が採点されます（「報酬」）。

grpo損失を計算します

伝統的に、モデルの予測と真のラベルの偏差を示す損失を計算します。さらに悪いですか？c）クリッピングを適用して、極端な更新を防止します。
バック伝播勾配勾配降下
- バック伝播は、各パラメーターが損失に貢献した方法を計算します。
。 2。チェーンの思考（COT）
従来のLLMトレーニングは、トレーニング前→SFT→RLに続きます。ただし、deepseek-r1-zerosft
をスキップして、モデルがCOTの推論を直接探索できるようにします。
人間が厳しい質問をしているように、COTを使用すると、モデルは問題を中間ステップに分割し、複雑な推論能力を高めます。 OpenaiのO1モデルは、2024年9月のレポートで述べたように、これを活用しています：O1のパフォーマンスは、より多くのRL（トレインタイム計算）とより多くの推論時間（テスト時間計算）で改善されます。 deepseek-r1-zeroは反射的傾向を示し、その推論を自律的に改善しました

論文のキーグラフ（下）は、トレーニング中の思考の増加を示し、より長い（より多くのトークン）、より詳細かつより良い応答につながりました。
明示的なプログラミングがなければ、過去の推論ステップを再検討し始め、精度を向上させました。これは、RLトレーニングの新たな財産としての考え方の推論を強調しています。 モデルには「ahaの瞬間」（以下）もありました。これは、RLが予期しない洗練された結果につながる方法の魅力的な例です。 注：deepseek-r1とは異なり、Openaiは蒸留リスクを懸念しているため、O1で完全に正確な推論チェーンを示していません。代わりに、O1はこれらの思考チェーンの要約だけです。
人間のフィードバック（RLHF）を使用した補強学習検証可能な出力（数学の問題、事実Q＆Aなど）のタスクの場合、AI応答は簡単に評価できます。しかし、「正しい」答えが1つもないような概要や創造的な執筆のような領域はどうですか？

これは人間のフィードバックが出る場所ですが、ナイーブなRLアプローチは不ライアになりません。

いくつかの任意の数字で素朴なアプローチを見てみましょう。

それには10億の人間の評価が必要です！これは、コストがかかりすぎて、ゆっくりと、無視できません。したがって、より賢い解決策は、人間の好みを学ぶためにAIの「報酬モデル」を訓練し、劇的に人間の努力を減らすことです。

ランキング応答も、絶対的なスコアリングよりも簡単で直感的です。
rlhf
の上端
- クリエイティブライティング、詩、要約、その他のオープンエンドタスクなど、任意のドメインに適用できます。
- RLHF
報酬モデルは近似です - 人間の好みを完全に反映していない場合があります。
- rlhfは従来のrlと同じではないことに注意してください。
経験的で検証可能なドメイン（例：数学、コーディング）の場合、RLは無期限に実行し、新しい戦略を発見できます。一方、RLHFは、モデルを人間の好みに合わせるための微調整ステップのようなものです。
結論 そしてそれはラップです！パート2を楽しんだことを願っていますか？パート1をまだ読んでいない場合は、こちらをチェックしてください。 次にカバーすべきことについて質問やアイデアがありますか？コメントにそれらを落としてください - 私はあなたの考えを聞きたいです。次の記事でお会いしましょう！