ホームページ テクノロジー周辺機器 AI 自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

Jan 23, 2024 pm 01:15 PM
meta プロジェクト ニューヨーク大学 自分へのご褒美法

人工知能フィードバック (AIF) は RLHF に代わるものですか?


大規模モデルの分野では、微調整はモデルのパフォーマンスを向上させるための重要なステップです。オープンソースの大規模モデルの数が徐々に増加するにつれて、多くの微調整方法がまとめられ、その中には良い結果をもたらしたものもあります。

最近、メタ大学とニューヨーク大学の研究者は、大規模モデルが独自の微調整データを生成できるようにする「自己報酬法」を使用しました。これは、新しいものをもたらしました。衝撃的です。

新しい方法では、著者は Llama 2 70B の微調整を 3 回繰り返し、生成されたモデルは、AlpacaEval の既存の重要な大規模モデルの数を上回りました。 2.0 ランキング。Claude 2、Gemini Pro、GPT-4 などのモデル。
自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る
したがって、この論文は arXiv に投稿されてからわずか数時間で人々の注目を集めました。

このメソッドはまだオープンソースではありませんが、論文で使用されているメソッドは明確に説明されており、再現するのは難しくないと考えられています。

自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

人間の好みデータを使用して大規模言語モデル (LLM) を調整すると、事前トレーニングされたモデルの命令追跡パフォーマンスが大幅に向上することがよく知られています。 GPT シリーズでは、OpenAI はヒューマン フィードバック強化学習 (RLHF) の標準手法を提案しました。これにより、大規模なモデルが人間の好みから報酬モデルを学習し、報酬モデルを凍結して、強化学習を使用して LLM をトレーニングすることができます。この方法は大きな成功を収めました。

最近登場した新しいアイデアは、報酬モデルのトレーニングを完全に回避し、直接好みの最適化 (DPO) など、人間の好みを直接使用して LLM をトレーニングするというものです。上記のどちらの場合でも、調整のボトルネックは人間の嗜好データのサイズと品質です。RLHF の場合、調整の品質は、それらのデータからトレーニングされた凍結報酬モデルの品質によってもボトルネックになります。

Meta の新しい研究では、著者らは、このボトルネックを回避するために、LLM 調整中に凍結されずに継続的に更新される自己改善報酬モデルをトレーニングすることを提案しています。

このアプローチの鍵は、(報酬モデルと言語モデルに分割するのではなく) トレーニング中に必要なすべての機能を備えたエージェントを開発し、指示を反映させることです。タスクをフォローする 事前トレーニングとマルチタスク トレーニングでは、複数のタスクを同時にトレーニングすることでタスクの移行が可能です。

したがって、著者は自己報酬言語モデルを導入します。このモデルのエージェントは両方ともモデルに従う指示として機能し、与えられたプロンプトに対する応答を生成し、また新しい言語を生成して評価することもできます。例に基づいたもの、独自のトレーニング セットに追加するための指示。

新しいアプローチでは、反復 DPO に似たフレームワークを使用して、これらのモデルをトレーニングします。図 1 に示すように、シード モデルから開始して、各反復で自己説明作成プロセスが行われます。このプロセスでは、モデルが新しく作成されたプロンプトに対する応答候補を生成し、同じモデルによって報酬が割り当てられます。後者は、LLM-as-a-Judge からのプロンプトによって達成され、指示に従うタスクとみなすこともできます。生成されたデータから設定データセットを構築し、DPO を通じてモデルの次の反復をトレーニングします。

自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

  • 論文のタイトル: Self-Rewarding Language Models

  • 論文のリンク: https://arxiv. org/abs/2401.10020

自己報酬型言語モデル

著者によって提案された方法は、まず次のことを前提としています。トレーニングされた言語モデルと人間が注釈を付けた少量のシード データを使用して、次の両方のスキルを備えたモデルを構築します。高品質で役立つ (そして無害な) 応答を生成します。

#2. 自己説明の作成: 例に従って新しい指示を生成して評価し、独自のトレーニング セットに追加する機能。

#これらのスキルは、モデルが自己調整を実行できるようにするために使用されます。つまり、人工知能フィードバック (AIF) を使用してモデル自体を反復的にトレーニングするために使用されるコンポーネントです。

自己指示の作成には、候補応答の生成と、モデル自体にその品質を判断させることが含まれます。つまり、モデル自体が独自の報酬モデルとして機能するため、応答の必要性が置き換えられます。外部モデル。これは、LLM-as-a-Judge メカニズム [Zheng et al., 2023b]、つまり、指示に従うタスクとして応答評価を定式化することによって実現されます。この自己作成された AIF 嗜好データはトレーニング セットとして使用されました。

したがって、微調整プロセスでは、同じモデルが「学習者」と「判断者」の両方の役割で使用されます。このモデルは、新たな裁判官の役割に基づいて、状況に応じた微調整を通じてパフォーマンスをさらに向上させることができます。

全体的な自己調整プロセスは、一連のモデルを構築することで進行する反復的なプロセスであり、それぞれが前回のものよりも改善されています。ここで重要なのは、モデルは生成能力を向上させることができ、自身の報酬モデルと同じ生成メカニズムを使用できるため、報酬モデル自体がこれらの反復を通じて改善できることを意味し、これは報酬モデルに固有の標準と一致するということです。 . アプローチには違いがあります。

研究者らは、この方法により、これらの学習モデルの可能性の上限が高まり、将来的には学習モデル自体が改善され、制限的なボトルネックが解消されると考えています。

#図 1 に、この方法の概要を示します。

#実験自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

実験では、研究者らは、基本的な事前トレーニング モデルとして Llama 2 70B を使用しました。彼らは、自己報酬 LLM アライメントにより、ベースライン シード モデルと比較して、命令追従パフォーマンスが向上しただけでなく、報酬モデリング機能も向上したことを発見しました。

これは、反復トレーニングにおいて、モデルは、特定の反復において、前の反復よりも高品質の嗜好データ セットを自身に提供できることを意味します。この効果は現実世界では飽和する傾向がありますが、結果として得られる報酬モデル (したがって LLM) が人間によって書かれた生のシード データのみからトレーニングされたモデルよりも優れているという興味深い可能性をもたらします。

コマンド追従能力の観点から、実験結果を図 3 に示します。
研究者らは、AlpacaEval で自己報酬を評価しました。 2 ランキング リスト モデルの結果を表 1 に示します。彼らは、直接評価と同じ結論を観察しました。つまり、トレーニング反復の勝率は、反復 1 の 9.94%、反復 2 の 15.38%、反復 2 の 20.44% から GPT4-Turbo の勝率よりも高かったです。反復 3。一方、Iteration 3 モデルは、Claude 2、Gemini Pro、GPT4 0613 などの多くの既存モデルよりも優れています。

報酬モデリングの評価結果を表 2 に示します。結論は次のとおりです。

自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

EFT は SFT ベースラインを改善しました。 IFT EFT を使用すると、IFT 単独と比較して 5 つの測定値すべてが向上しました。たとえば、人間とのペアごとの精度の一致は 65.1% から 78.7% に増加しました。 自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回る

自己トレーニングを通じて報酬モデリング能力を向上させます。一連の自己報酬トレーニングの後、次の反復で自己報酬を提供するモデルの能力が向上し、指示に従う能力も向上します。
  • LLMas-a-Judge ヒントの重要性。研究者らはさまざまなプロンプト形式を使用し、LLMas-a-Judge プロンプトは SFT ベースラインを使用した場合にペアごとの精度が高いことを発見しました。
著者は、自己報酬トレーニング方法により、モデルの命令追跡能力が向上するだけでなく、反復におけるモデルの報酬モデリング能力も向上すると考えています。

これは予備的な研究にすぎませんが、このようなモデルが将来の反復でより適切に報酬を割り当てることは、指示への遵守を改善し、高潔な行動を達成するための興味深い方向性であると思われます。サイクル。

この方法は、より複雑な判断方法に対する特定の可能性も開きます。たとえば、大規模なモデルでは、データベースを検索することで答えの正確さを検証でき、より正確で信頼性の高い出力が得られます。

参考コンテンツ: https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_ language_models_meta_2024/

以上が自己報酬の下にある大規模モデル: Llama2 はメタ学習を通じて自身を最適化し、GPT-4 のパフォーマンスを上回るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

新しい手頃な価格の Meta Quest 3S VR ヘッドセットが FCC に登場、発売が近いことを示唆 新しい手頃な価格の Meta Quest 3S VR ヘッドセットが FCC に登場、発売が近いことを示唆 Sep 04, 2024 am 06:51 AM

Meta Connect 2024イベントは9月25日から26日に予定されており、このイベントで同社は新しい手頃な価格の仮想現実ヘッドセットを発表すると予想されている。 Meta Quest 3S であると噂されている VR ヘッドセットが FCC のリストに掲載されたようです。この提案

オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

GPT4o レベルを超える初のオープンソース モデル! Llama 3.1 がリーク: 4,050 億のパラメータ、ダウンロード リンク、モデル カードが利用可能 GPT4o レベルを超える初のオープンソース モデル! Llama 3.1 がリーク: 4,050 億のパラメータ、ダウンロード リンク、モデル カードが利用可能 Jul 23, 2024 pm 08:51 PM

GPUを準備しましょう!ついにLlama3.1が登場しましたが、ソースはMeta公式ではありません。今日、新しい Llama 大型モデルのリーク ニュースが Reddit で話題になり、基本モデルに加えて、8B、70B、最大パラメータ 405B のベンチマーク結果も含まれています。以下の図は、Llama3.1 の各バージョンと OpenAIGPT-4o および Llama38B/70B の比較結果を示しています。 70B バージョンでも複数のベンチマークで GPT-4o を上回っていることがわかります。画像ソース: https://x.com/mattshumer_/status/1815444612414087294 明らかに、8B と 70 のバージョン 3.1

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータ モデルは、1 兆個のパラメータ レベル GPT-4 に匹敵します。 公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータ モデルは、1 兆個のパラメータ レベル GPT-4 に匹敵します。 Jul 17, 2024 am 10:14 AM

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

See all articles