RLHF は、人間のフィードバックからの強化学習を表します。この記事では、大規模言語モデル (LLM) と RLHF を組み合わせる方法を紹介します。
強化学習は、エージェントと環境の相互作用を通じて最適な戦略を学習する機械学習の一分野です。エージェントは環境の状態の遷移に影響を与えるアクションを選択し、それに応じて報酬を受け取ります。報酬は、強化学習エージェントが戦略を調整するためのフィードバック信号です。トレーニング段階では、エージェントは報酬に基づいて戦略を調整し、長期的な利益を最大化します。
したがって、適切な報酬システムを設計することが重要であり、これが強化学習の鍵となります。一方、RLHF は人間のフィードバックを統合し、人間をトレーニング プロセスに組み込むことで、強化学習エージェントのトレーニング効果を高めます。
大規模言語モデル (LLM) の強化学習微調整プロセスは、通常 3 つの段階で構成されます。まず、事前トレーニングされた言語モデルから始めます。 LLM には大量のトレーニング データが必要なため、手動フィードバックを使用して最初から LLM をトレーニングすることは現実的ではありません。したがって、教師なし学習を通じて事前トレーニングを行い、出力生成に既存の言語モデルを使用できます。 事前トレーニングが完了したら、次のステップは微調整フェーズです。この段階では、強化学習アルゴリズムを使用して LLM を最適化します。 LLM は環境と対話することで環境からフィードバックを取得し、モデルのパラメーターを調整することで出力を最適化できます。 最終段階はその後の微調整です。このフェーズでは、LLM は特定のタスクと対話し、
# を渡します。次に、第 2 フェーズに入り、RL システムの報酬モデルを作成する必要があります。この段階では、メイン モデルによって生成されたテキストを取得して品質スコアを生成する別の機械学習モデルをトレーニングします。通常、別の LLM モデルを使用し、テキスト トークンのシーケンスではなくスカラー値を出力するように変更します。この品質スコアは、メイン モデルがより高品質のテキストを生成するように導くための報酬シグナルとして使用されます。 報酬モデルをトレーニングするには、LLM で生成されたテキストを含む品質評価データセットを構築する必要があります。各トレーニング サンプルは、LLM によって生成されたヒントと複数の出力で構成されます。次に、これらの生成されたテキストの品質を人間に評価してもらいました。次に、これらの評価結果を使用して報酬モデルをトレーニングし、LLM によって生成されたテキストのスコアを予測します。 LLM の出力と評価の間でトレーニングすることにより、報酬モデルは人間の好みの数学的表現を構築できます。 最終段階では、強化学習ループを微調整して作成しました。マスター LLM のレプリカが RL エージェントとして使用されます。各トレーニング セットで、LLM はデータセットから複数のキューを取得し、テキストを生成します。次に、テキストは報酬モデルに渡され、人間の好みとの一貫性を評価するスコアが割り当てられます。次に、LLM を更新して、報酬モデルでより高いスコアを示す出力を生成します。 これは言語モデルの一般的な RLHF フレームワークですが、さまざまな実装目標には対応する変更が必要です。 RLHF の言語モデルに関するもう 1 つの考慮事項は、報酬の最適化と言語の一貫性の間のバランスを維持することです。報酬モデルは人間の好みの不完全な近似にすぎませんが、エージェント LLM は、ほとんどの RL システムと同様に、構文的または論理的一貫性に違反することで報酬を最大化する可能性があります。これを防ぐために、ML チームは元の LLM のコピーを保持し、それを RL ループで使用します。彼らは、モデルと元の出力間の偏差が大きくなりすぎるのを防ぐために、元の LLM の出力と RL トレーニング済み LLM の出力の差 (KL 発散) を負の値として報酬信号に統合しました。この戦略は、報酬の最適化と言語の一貫性のバランスを取ることを目的としています。以上が言語モデルにおける RLHF テクノロジーの起源と応用は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。