IVG: 推論時に人間の価値観を大規模言語モデルに統合する
研究者らは、基本モデルを変更せずに陰的関数と陽的関数を使用して LLM を微調整した後、人間の価値観を統合する推論時間アライメント手法を開発しました。
学習ベースのアルゴリズムでモデルをトレーニングした後に人間の価値観を統合するには、LLM の微調整が必要ですが、これには計算コストと時間がかかります。さらに、ユーザーによる偏った望ましくない応答が生成されます。推論時に干渉する可能性のあるアルゴリズムを統合することで、ユーザーの好みにリアルタイムで効率的に適応できるモデルが必要です。この方法では、ベース モデルをフリーズし、LLM の微調整にかかる計算コストを削減することで、望ましい結果を得るためにモデルを繰り返し再トレーニングする必要がなくなります。
研究者らは、基本モデルを変更せずに陰的関数と陽的関数を使用して LLM を微調整した後、人間の価値観を統合する推論時間アライメント手法を開発しました。トークンの生成には暗黙的な関数が使用され、単語ごとに評価が行われ、最も確率の高い出力が優先されます。対照的に、明示的な関数では、全体的なコンテキストを維持しながら、より大きなテキストの塊を評価し、最も高い確率で次の単語のシーケンスを生成するための厳格な構造が必要です。明示的関数は柔軟性に欠け、計算コストが高く、トークンレベルの最適化に対処できません。一方、暗黙的関数は解釈可能性の問題に直面し、頻繁に前方パスを必要とするため、リアルタイム効率が低くなります。
両方の関数の欠点に対処するために、提案された手法である Integrated Value Guide (IVG) は、暗黙的関数のトークンレベルの最適化と明示的関数のより広い視点を組み合わせています。適応の課題や調整効果のトレードオフを回避することができ、パフォーマンスの不一致が減少し、実装が容易になりました。これらの利点により、制御された感情の生成や要約などのタスクのパフォーマンスが向上しました。 IVG を GPT-2 のような小型モデルと組み合わせると、上位モデルと競合できる可能性があります。
IVG には、モデルを人間の価値観に合わせるために、暗黙的関数と明示的関数という 2 つの値関数が組み込まれています。まず、トークンごとのサンプリングにより、個々のトークンが特定のシーケンス長に微調整され、複数のシーケンスが生成されます。次に、チャンクレベルのビーム検索でこれらのシーケンスの確率を比較し、最も高い確率を持つシーケンスを選択します。この方法では出力がより堅牢になりますが、頻繁な前方パスにより推論時間中の計算能力が増加し、応答が遅くなります。
研究者らは、IVG を評価するために 2 つの実験設定を使用しました: 1. 制御された感情の生成と要約、および 2. 指示に従う。 1 つ目では、金賞モデルの合成データセットを活用して GPT-2 モデル ファミリーを使用し、肯定的な映画レビューを生成し、Reddit の投稿を要約します。比較すると、2 番目のモデルには命令調整モデルである AlpacaEval 2.0 が必要です。これは、暗黙的関数には特定のモデルを使用し、明示的関数には報酬ベースのモデルをトレーニングする Tulu ガイダンスと、両方の関数に対して Direct Preference Optimization (DPO) を使用してモデルを微調整する Ultraguidance を採用しています。 GPT-4-turbo は 2 回目の実験で反応を評価するための参照として使用され、IVG は一貫して良好なパフォーマンスを示しました。
これら 2 つの実験に加え、アブレーション研究により、チャンクレベル ビーム サーチ (CBS) の方が、微調整に陰関数を使用するエミュレータ微調整 (EFT) よりも高速効率が高いことが証明されました。これらの結果は、CBS が実際に使用するのにはるかに優れていることを証明しました。
結論として、Integrated Value Guide (IVG) は、従来の微調整の複雑さを回避し、純粋に推論時に大規模な言語モデルを人間の好みに合わせて調整するための斬新で効率的なアプローチを提供します。暗黙的および明示的な値関数を活用することで、IVG はトークン単位のサンプリングとチャンクレベルのデコードの両方のパフォーマンスを向上させます。これは、センチメントの生成、要約、および指示に従うタスクの大幅な改善を通じて実証されています。結果は、IVG が汎用性の高い手法であることを示し、既存のアプローチを上回る能力の強力な経験的証拠を提供し、現実世界のアプリケーションで大規模モデルを微調整するための有望なソリューションとなることを示しました。
50,000 ML SubReddit への参加を忘れないでください
100 万人の AI 読者の前に出てみませんか?ここで私たちと一緒に働きましょう
以上がIVG: 推論時に人間の価値観を大規模言語モデルに統合するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









仮想通貨市場は、傍流資本が参入し始めたため、センチメントが大きく変化している。ニア・プロトコル(NEAR)やカルダノ(ADA)などのプロジェクトは、今後の上昇相場を見越して熱を帯びている。

柴犬の生態系を率いる謎めいた人物、草間シャイトシ氏が、AIプロジェクトとの今後のコラボレーションについての憶測を呼んでいる。

Coinbase の「Based Agent」プラットフォームと Tether の Local AI SDK は、AI 主導の暗号通貨エージェントの開発を簡素化することを目的としています。

Appleは月曜日のiPhone 16発売に向けて準備万端で、iPhoneの消費者に生成AIを導入することで生成AIの大幅な推進に向けて準備を進めている

暗号通貨市場への投資は非常に儲かる可能性があり、新しいトークンは投資家に年間 160,000% 以上の利益をもたらすこともあります。

仮想通貨市場が変動する傾向に直面する中、賢明な投資家は回復力と成長の可能性を示す新興プロジェクトに注目を移し始めています。ビットコイン(BTC)の不安定な価格軌道が続くことへの懸念

このパートナーシップは、商用 AI エージェントと自動化を Web3 空間に統合することに向けた重要な進歩を意味します。

ここ数カ月間、カルダノ(ADA)は批判にさらされており、その価格傾向から「死んだコイン」とのレッテルを貼る人もいる。しかし、このようなマイナス面にもかかわらず、