総合的にDPOを超える:Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた
大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それらが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的なアプローチです。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。
最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しており、実際に広く使用されています。
DPO を使用する場合、暗黙的な報酬を取得する方法は、現在のポリシー モデルと教師あり微調整 (SFT) モデルの間の応答尤度比の対数を使用することです。ただし、報酬を構築するこの方法は、ブートストラップで生成されたメトリック (ポリシー モデルによって生成された応答のほぼ平均対数) と直接一致しません。トレーニングと推論のこの違いにより、パフォーマンスの低下が生じる可能性があります。
この目的を達成するために、バージニア大学助教授のMeng Rui、プリンストン大学の博士課程候補者Xia Mengzhou、助教授のChen Danqiが共同で、シンプルで効果的なオフライン選好最適化アルゴリズムであるSimPOを提案しました。 。 SimPO の設計は、連続ブラックボックス関数の最小化問題として最適化問題をモデル化することに基づいています。継続的な反復を通じて、SimPO は最適な最適化戦略を見つけ、効率的な収束を達成できます。従来の最適化アルゴリズムと比較すると、
- 論文タイトル: SimPO: Simple Preference Optimization with a Reference-Free Reward
- 論文アドレス: https://arxiv.org /pdf /2405.14734
- コードとモデル: https://github.com/princeton-nlp/SimPO
アルゴリズムの核心は、優先順位の最適化目標の報酬関数と世代インジケーターの配置。 SimPO は 2 つの主なコンポーネントで構成されます: (1) ポリシー モデルを使用して報酬内のすべてのトークンの平均対数確率として計算された長さで正規化された報酬 (2) 勝敗を保証するための目標報酬差 応答間の報酬差。この差を超えています。
要約すると、SimPO には次の特徴があります:
- シンプル: SimPO は参照モデルを必要としないため、参照モデルに依存する DPO などの他の方法よりも軽量で実装が簡単です。
- 明らかなパフォーマンス上の利点: SimPO はシンプルですが、そのパフォーマンスは DPO やその最新のバリアント (最近のリファレンスフリーのターゲット ORPO など) よりも大幅に優れています。図 1 に示すように。また、SimPO は、さまざまなトレーニング設定や複数のコマンド コンプライアンス ベンチマーク (AlpacaEval 2 や難しい Arena-Hard ベンチマークを含む) にわたって安定した利点を持っています。
- 最小の長さの使用: SFT モデルや DPO モデルと比較して、SimPO は応答の長さを大幅に増加させません (表 1 を参照)。これは、長さの使用が最小限であることを意味します。
チームは広範な分析を実施し、その結果、SimPO が嗜好データをより効果的に利用して、検証セット上で高品質の応答と低品質の応答の可能性をより正確にランク付けできることが示されました。これにより、より優れた戦略の作成がさらに可能になります。モデル。表 1 に示すように、チームは Llama3-8B 命令に基づいて最高のパフォーマンスを備えたモデルを構築しました。このモデルは、AlpacaEval 2 で長さ制御された勝率 44.7 を達成し、リーダーボードの Claude 3 Opus を上回りました。さらに、アリーナ ハードでの勝率は 33.8 で、現在最も強力な 8B オープン ソース モデルとなっています。
SimPO: Simple Preference Optimization
理解を容易にするために、以下ではまず DPO の背景を紹介し、次に DPO の報酬と生成に使用される尤度尺度との違いを説明し、参照フリーの最適化を提案します。この問題を軽減するための代替報酬式。最後に、SimPO 目標は、目標報酬マージン項を Bradley-Terry モデルに統合することによって導出されます。
背景: 直接設定最適化 (DPO)
DPO は、最も一般的に使用されるオフライン設定最適化手法の 1 つです。 DPO は明示的な報酬モデルを学習しませんが、最適なポリシーを持つ閉形式式を使用して報酬関数 r を再パラメータ化します:
ここで、 π_θ はポリシー モデル、 π_ref は参照ですポリシー (通常は SFT モデル)、Z (x) は分割関数です。報酬を構築するこの方法を Bradley-Terry (BT) ランキング目標 に統合することで、DPO は報酬モデルの代わりにポリシー モデルを使用して嗜好データの確率を表すことができ、その結果、次の目標が得られます:
ここで、(x, y_w, y_l) は、プリファレンス データセット D からのプロンプト、勝った応答、および負けた応答で構成されるプリファレンスのペアです。
生成された結果と一致する、参照不要のシンプルな報酬
DPO の報酬と生成された報酬の違い。式 (1) を暗黙的な報酬式として使用すると、次のような欠点があります。(1) トレーニング フェーズでは参照モデル π_ref が必要になり、追加のメモリと計算コストがかかります。(2) トレーニング フェーズで最適化された報酬と使用される世代。推論では指標ごとに違いがあります。具体的には、生成段階では、ポリシー モデル π_θ を使用して、次のように定義される平均対数尤度をほぼ最大化できるシーケンスを生成します。
デコード中にこの指標を直接最大化することは非常に困難です。プロセスでは、貪欲なデコード、ビーム サーチ、カーネル サンプリング、top-k サンプリングなどのさまざまなデコード戦略をこれに使用できます。さらに、このメトリクスは、言語モデルが複数選択タスクを実行するときにオプションをランク付けするためによく使用されます。 DPO では、任意のトリプレット (x, y_w, y_l) について、報酬ランキング r (x, y_w) > r (x, y_l) を満たすことは、必ずしも尤度ランキング を満たすことを意味しません。実際、DPO を使用してトレーニングすると、ホールドアウト セット内のトリプレットの約 50% のみがこの条件を満たします (図 4b を参照)。
長さで正規化された報酬を構築します。当然のことながら、ブートストラップで生成された尤度メトリックと一致するように、(3) で p_θ を使用して DPO の報酬構築を置き換えることを検討します。これにより、長さが正規化された報酬が生成されます:
ここで、β は報酬の差の大きさを制御する定数です。研究チームは、応答の長さに基づいて報酬を正規化することが重要であることを発見しました。報酬の式から長さの正規化項を削除すると、モデルはより長くても品質の低いシーケンスを生成する傾向がありました。これにより、報酬を構築する際に参照モデルが必要なくなり、その結果、参照モデルに依存するアルゴリズムよりもメモリと計算効率が向上します。
SimPOターゲット
ターゲット報酬の差。さらに、チームは、ブラッドリー・テリー目標に目標報酬差項 γ > 0 を導入し、勝利した応答の報酬 r (x, y_w) が失敗した応答の報酬 r (x, y_l) を確実に上回るようにしました。少なくとも γ によって:
2 つのクラス間の違いは、分類器の汎化能力に影響を与えることが知られています。ランダムなモデル初期化を使用する標準的なトレーニング設定では、通常、ターゲット マージンを増やすと汎化パフォーマンスが向上します。好みの最適化では、これら 2 つのカテゴリは、単一の入力に対する応答の勝敗を表します。
実際にチームは、ターゲットギャップが増加すると、最初は生成品質が向上しますが、ギャップが大きすぎると生成品質が低下することを観察しました。 DPO の一種である IPO も SimPO と同様の目標報酬マージンを構築しますが、その全体的な目標は SimPO よりも効果的ではありません。
目標。最後に、方程式 (4) を方程式 (5) に代入することで、SimPO のターゲットを取得できます。
要約すると、SimPO は、生成されたインジケーターと直接一致する暗黙的な報酬形式を採用しており、それによって、参照モデルの要件が必要です。さらに、勝敗応答を区別するために目標報酬差 γ を導入します。
実験セットアップ
モデルとトレーニングのセットアップ。チームの実験では、Llama3-8B と Mistral-7B の 2 種類のモデルを Base 設定と Instruct 設定の両方で使用しました。
評価ベンチマーク。チームは、最も一般的に使用されている 3 つのオープン コンプライアンス ベンチマーク、MT-Bench、AlpacaEval 2、および Arena-Hard v0.1 を使用しました。これらのベンチマークは、さまざまなクエリに対するモデルの多様な会話機能を評価し、コミュニティで広く採用されています。表 2 に詳細を示します。
ベースラインメソッド。表 3 に、SimPO と比較した他のオフライン設定最適化手法を示します。
実験結果
主な結果とアブレーション研究
SimPOは、以前の既存のプリファレンス最適化手法よりも常に大幅に優れたパフォーマンスを発揮します。表 4 に示すように、すべての設定最適化アルゴリズムは SFT モデルよりも優れたパフォーマンスを発揮しますが、シンプルな SimPO はすべてのベンチマークと設定で最高のパフォーマンスを達成します。全体的にこのような大きなリードは、SimPO の堅牢性と有効性を示しています。
ベンチマークの品質は異なります。 Arena-Hard での勝率は AlpacaEval 2 での勝率よりも大幅に低いことがわかり、Arena-Hard の方がより難しいベンチマークであることを示しています。
設定を指示すると、パフォーマンスが大幅に向上します。ご覧のとおり、Instruct セットアップは、すべてのベンチマークで全体的に Base セットアップよりも優れています。これは、これらのモデルによる初期化に高品質の SFT モデルが使用されていることと、これらのモデルによって生成される嗜好データの品質が高いためである可能性があります。
SimPO の 2 つの主要なデザインが重要です。表 5 は、SimPO の主要な設計ごとのアブレーション実験の結果を示しています。 (1)(4)の長さの正規化を削除します(つまり、LNなし)。(2)(6)のターゲット報酬の差を0に設定します(つまり、γ = 0)。
長さの正規化を削除すると、結果に最大の影響が生じます。チームの調査では、これによりモデルが長く反復的なパターンを生成し、出力の全体的な品質が大幅に低下することが判明しました。 γ を 0 に設定すると、SimPO のパフォーマンス低下にもつながり、0 が最適なターゲット報酬マージンではないことを示します。
これら 2 つの設計選択の詳細な分析については、元の論文を参照してください。
DPO と SimPO の詳細な比較
最後に、チームは、(1) 尤度-長さの相関、(2) 報酬の構築、( 3) の 4 つの観点から DPO と SimPO を包括的に比較しました。 ) 報酬の精度、(4) アルゴリズムの効率。結果は、精度と効率の点で SimPO が DPO よりも優れていることを示しています。
DPO 報酬は、長さの正規化を暗黙的に促進します。
DPO 報酬式 (分割関数なし) には長さの正規化に関する明示的な用語がありませんが、ポリシー モデルと参照モデルの間の対数比は暗黙的に長さのバイアスをオフセットすることができます。表 6 と図 4a に示すように、DPO を使用すると、長さの正規化を行わない方法 (LN なしの SimPO と表記) と比較して、平均対数尤度と応答長の間のスピアマン相関係数が減少します。ただし、SimPO と比較すると、依然として強い正の相関関係が示されています。
DPO 報酬が生成された可能性と一致しません。
DPO の報酬と平均対数尤度メトリクスの間には差があり、これは生成に直接影響します。図 4b に示すように、UltraFeedback トレーニング セットのインスタンスでは、、データ ペアのほぼ半分が
を持っています。対照的に、SimPO は平均対数尤度 (β でスケール) を報酬式として直接使用するため、差異が完全に排除されます。
DPO は報酬の精度の点で SimPO ほど良くありません。
図 4c は、SimPO と DPO の報酬精度を比較しています。これは、最終的に学習された報酬がホールドアウト セットの優先ラベルとどの程度一致しているかを評価します。 SimPO の報酬精度が DPO よりも高いことが観察できます。これは、SimPO の報酬設計がより効果的な一般化と高品質の生成の達成に役立つことを示しています。
SimPO は DPO よりもメモリ効率と計算効率が優れています。
SimPO のもう 1 つの大きな利点は効率性です。結局のところ、参照モデルを使用しないからです。図 4d は、8×H100 GPU で Llama3-Base セットアップを使用した場合の SimPO および DPO の全体的なランタイムと GPU ごとのピーク メモリ使用量を示しています。 SimPO は、参照モデルを使用したフォワード パスの排除により、元の DPO 実装と比較して実行時間を約 20%、GPU メモリ使用量を約 10% 削減します。
詳しくは元記事をお読みください。
以上が総合的にDPOを超える:Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。
