IVG: 推論時に人間の価値観を大規模言語モデルに統合する-ウェブ3.0-php.cn

ホームページ

ウェブ3.0

IVG: 推論時に人間の価値観を大規模言語モデルに統合する

Linda Hamilton

Oct 03, 2024 pm 03:16 PM

AI Integrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

研究者らは、基本モデルを変更せずに陰的関数と陽的関数を使用して LLM を微調整した後、人間の価値観を統合する推論時間アライメント手法を開発しました。

IVG: 推論時に人間の価値観を大規模言語モデルに統合する

学習ベースのアルゴリズムでモデルをトレーニングした後に人間の価値観を統合するには、LLM の微調整が必要ですが、これには計算コストと時間がかかります。さらに、ユーザーによる偏った望ましくない応答が生成されます。推論時に干渉する可能性のあるアルゴリズムを統合することで、ユーザーの好みにリアルタイムで効率的に適応できるモデルが必要です。この方法では、ベースモデルをフリーズし、LLM の微調整にかかる計算コストを削減することで、望ましい結果を得るためにモデルを繰り返し再トレーニングする必要がなくなります。

研究者らは、基本モデルを変更せずに陰的関数と陽的関数を使用して LLM を微調整した後、人間の価値観を統合する推論時間アライメント手法を開発しました。トークンの生成には暗黙的な関数が使用され、単語ごとに評価が行われ、最も確率の高い出力が優先されます。対照的に、明示的な関数では、全体的なコンテキストを維持しながら、より大きなテキストの塊を評価し、最も高い確率で次の単語のシーケンスを生成するための厳格な構造が必要です。明示的関数は柔軟性に欠け、計算コストが高く、トークンレベルの最適化に対処できません。一方、暗黙的関数は解釈可能性の問題に直面し、頻繁に前方パスを必要とするため、リアルタイム効率が低くなります。

両方の関数の欠点に対処するために、提案された手法である Integrated Value Guide (IVG) は、暗黙的関数のトークンレベルの最適化と明示的関数のより広い視点を組み合わせています。適応の課題や調整効果のトレードオフを回避することができ、パフォーマンスの不一致が減少し、実装が容易になりました。これらの利点により、制御された感情の生成や要約などのタスクのパフォーマンスが向上しました。 IVG を GPT-2 のような小型モデルと組み合わせると、上位モデルと競合できる可能性があります。

IVG には、モデルを人間の価値観に合わせるために、暗黙的関数と明示的関数という 2 つの値関数が組み込まれています。まず、トークンごとのサンプリングにより、個々のトークンが特定のシーケンス長に微調整され、複数のシーケンスが生成されます。次に、チャンクレベルのビーム検索でこれらのシーケンスの確率を比較し、最も高い確率を持つシーケンスを選択します。この方法では出力がより堅牢になりますが、頻繁な前方パスにより推論時間中の計算能力が増加し、応答が遅くなります。

研究者らは、IVG を評価するために 2 つの実験設定を使用しました: 1. 制御された感情の生成と要約、および 2. 指示に従う。 1 つ目では、金賞モデルの合成データセットを活用して GPT-2 モデルファミリーを使用し、肯定的な映画レビューを生成し、Reddit の投稿を要約します。比較すると、2 番目のモデルには命令調整モデルである AlpacaEval 2.0 が必要です。これは、暗黙的関数には特定のモデルを使用し、明示的関数には報酬ベースのモデルをトレーニングする Tulu ガイダンスと、両方の関数に対して Direct Preference Optimization (DPO) を使用してモデルを微調整する Ultraguidance を採用しています。 GPT-4-turbo は 2 回目の実験で反応を評価するための参照として使用され、IVG は一貫して良好なパフォーマンスを示しました。

これら 2 つの実験に加え、アブレーション研究により、チャンクレベルビームサーチ (CBS) の方が、微調整に陰関数を使用するエミュレータ微調整 (EFT) よりも高速効率が高いことが証明されました。これらの結果は、CBS が実際に使用するのにはるかに優れていることを証明しました。

結論として、Integrated Value Guide (IVG) は、従来の微調整の複雑さを回避し、純粋に推論時に大規模な言語モデルを人間の好みに合わせて調整するための斬新で効率的なアプローチを提供します。暗黙的および明示的な値関数を活用することで、IVG はトークン単位のサンプリングとチャンクレベルのデコードの両方のパフォーマンスを向上させます。これは、センチメントの生成、要約、および指示に従うタスクの大幅な改善を通じて実証されています。結果は、IVG が汎用性の高い手法であることを示し、既存のアプローチを上回る能力の強力な経験的証拠を提供し、現実世界のアプリケーションで大規模モデルを微調整するための有望なソリューションとなることを示しました。

50,000 ML SubReddit への参加を忘れないでください

100 万人の AI 読者の前に出てみませんか?ここで私たちと一緒に働きましょう

以上がIVG: 推論時に人間の価値観を大規模言語モデルに統合するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。