人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました-AI-php.cn

対比非尤度トレーニング

要約と課題

ホームページ

テクノロジー周辺機器

人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

PHPz

Feb 04, 2024 am 09:20 AM

データモデル

既存の大規模モデルアライメント手法には、example ベースの教師あり微調整 (SFT) および スコアフィードバックベースの強化学習 (RLHF) が含まれます。ただし、スコアは現在の応答の品質を反映することしかできず、モデルの欠点を明確に示すことはできません。対照的に、私たち人間は通常、言葉によるフィードバックから行動パターンを学習し、調整します。レビューのコメントは単なるスコアではなく、承認または拒否の多くの理由も含まれています。

では、大規模な言語モデルも人間と同じように言語フィードバックを使用して自らを改善できるのでしょうか?

香港中文大学とテンセント AI ラボの研究者らは最近、対照的尤度学習 (CUT) と呼ばれる革新的な研究を提案しました。この研究では、言語フィードバックを使用して言語モデルを調整し、人間と同じようにさまざまな批判から学習して改善できるようにしています。この研究は、言語モデルの品質と精度を向上させ、人間の思考方法との一貫性を高めることを目的としています。研究者らは、非尤度トレーニングを比較することで、言語モデルが多様な言語使用状況をよりよく理解して適応できるようになり、それによって自然言語処理タスクのパフォーマンスが向上することを期待しています。この革新的な研究は、言語モデル

#CUT のためのシンプルで効果的な方法を提供すると期待されています。わずか 1317 個の言語フィードバックデータを使用することで、CUT は AlpacaEval での LLaMA2-13b の勝率を 1.87% から 62.56% に大幅に向上させることができ、175B DaVinci003 を破ることに成功しました。興味深いのは、CUT が他の強化学習や強化学習強化フィードバック (RLHF) フレームワークと同様に、探索、批判、改善の反復サイクルを実行できることです。このプロセスでは、自動評価モデルによって批判段階が完了し、システム全体の自己評価と改善が達成されます。

著者は LLaMA2-chat-13b で 4 ラウンドの反復を実行し、AlpacaEval でのモデルのパフォーマンスを 81.09% から 91.36% まで徐々に改善しました。スコアフィードバック (DPO) に基づくアライメントテクノロジと比較して、CUT は同じデータサイズの下でより優れたパフォーマンスを発揮します。この結果は、言語フィードバックがアライメントの分野で発展する大きな可能性を秘めていることを明らかにし、将来のアライメント研究に新たな可能性を切り開くものです。この発見は、アライメント技術の精度と効率の向上に重要な意味を持ち、より良い自然言語処理タスクを達成するための指針を提供します。

人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

論文のタイトル: 拒否する理由? 言語モデルと判断の調整
紙のリンク: https://arxiv.org/abs/2312.14591
Github リンク: https://github.com/wwxu21 /CUT

大きなモデルの位置合わせ

人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

既存の作業に基づいて、研究者らは、2 つの一般的な大規模モデルの位置合わせ方法を要約しました:

1. デモンストレーションから学ぶ: 既製の指示に基づく - 「はい」と回答し、教師ありトレーニング方法を使用して大規模モデルを位置合わせします。

利点: 安定したトレーニング、簡単な実装。

欠点: 高品質で多様なサンプルデータを収集するコストは高くなります。エラー応答から学習することは不可能です。サンプルデータは多くの場合、モデルとは無関係です。

利点: 正しい応答とエラー応答を同時に使用できます。フィードバック信号はモデルに関連しています。

欠点: フィードバック信号がまばらであるため、トレーニングプロセスが複雑になることがよくあります。
この研究は、言語フィードバック

言語フィードバックはスコアフィードバックの利点を継承していることがわかります。スコアフィードバックと比較して、口頭フィードバックはより有益です。口頭フィードバックは、モデルに何が正しくて何が間違っていたかを推測させる代わりに、詳細な欠陥や改善の方向性を直接指摘できます。しかし、残念なことに、研究者らは、現時点では口頭によるフィードバックを完全に活用する効果的な方法がないことを発見しました。この目的を達成するために、研究者たちは言語フィードバックを最大限に活用するように設計された革新的なフレームワーク CUT を提案しました。

対比非尤度トレーニング

CUT の中心的な考え方は、対比から学ぶことです。研究者は、さまざまな条件下で大規模モデルの応答を比較し、どの部分が満足していて維持する必要があり、どの部分に欠陥があり、修正が必要かを特定します。これに基づいて、研究者は最尤推定 (MLE) を使用して満足のいく部分をトレーニングし、尤度トレーニング (UT) を使用して応答の欠陥を修正します。

人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

1. アライメントシナリオ : 上の図に示すように、研究者は 2 つのアライメントシナリオを検討しました。

: これは一般的に理解されている調整シナリオであり、返信は指示に忠実に従い、人間の期待や価値観と一致する必要があります。人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

: このシナリオでは、追加の条件として口頭によるフィードバックが導入されています。このシナリオでは、応答は指示と口頭フィードバックの両方を満たす必要があります。たとえば、否定的なフィードバックを受け取った場合、大規模モデルは、対応するフィードバックで言及されている問題に基づいて間違いを犯す必要があります。人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

アライメントデータ : 上の図に示すように、上記の 2 つのアライメントシナリオに基づいて、研究者は 3 種類のアライメントデータを構築しました。 ##a) Align-P: 大規模モデルは満足のいく

応答を生成し、肯定的なフィードバックを受け取りました。明らかに、Align-P は

シナリオとシナリオの両方でアラインメントを満たします。人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました b) Align-N: 大規模モデルは欠陥のある (青の太字) 応答を生成したため、否定的なフィードバックを受けました。 Align-N の場合、

でアライメントが満たされていません。しかし、この否定的なフィードバックを考慮した後でも、Align-N は依然としてシナリオに沿っています。人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました c) ミスアライン: Align-N の実際の負のフィードバックは、偽の正のフィードバックに置き換えられます。明らかに、Misalign は

シナリオとシナリオの両方で位置合わせを満たしていません。人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました 3. コントラストから学ぶ

a) 人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました Align-N と Misalign

: 2 つの違いは主に、

での位置合わせの程度です。大規模モデルの強力なコンテキスト内学習機能を考慮すると、Align-N から Misalign へのアライメント極性の反転は、通常、特定の単語、特に実際の負のフィードバックと密接に関連する単語の生成確率の大幅な変化を伴います。上の図に示すように、Align-N (左チャンネル) の条件下では、大きなモデルが「a」を生成する確率は、Misalign (右チャンネル) よりも大幅に高くなります。そして、確率が大きく変わる場所は、大きなモデルがミスをする場所です。

この比較から学ぶために、研究者たちはAlign-NデータとMisalignデータを同時に大規模モデルに入力し、2つの条件下での出力単語の生成確率を取得しました＃＃＃そして＃＃＃＃＃＃＃＃＃。条件での生成確率が条件よりも大幅に高い単語は、不適切な単語としてマークされます。具体的には、研究者は次の基準を使用して不適切な単語の定義を定量化しました:

ここで

は取引されるハイパーパラメータです。不適切な単語認識中に精度と再現率が低下します。研究者らは、これらの特定された不適切な単語に対して尤度トレーニング (UT) を使用し、それによって大規模モデルがより満足のいく応答を探索するように強制しました。他の応答語については、研究者は依然として最尤推定 (MLE) を使用して最適化しています。

は、非尤度トレーニングの割合を制御するハイパーパラメータ。

は応答単語の数です。 b) Align-P と Align-N: 2 つの違いは主に、

での位置合わせの程度にあります。。基本的に、大規模モデルは、さまざまな極性の言語フィードバックを導入することによって、出力応答の品質を制御します。したがって、この 2 つの比較により、大規模なモデルが満足のいく応答と欠陥のある応答を区別できるようになります。具体的には、次の最尤推定 (MLE) 損失を介して、この一連の比較から学習します。 #where

は、データが

アライメントを満たしている場合は 1 を返し、そうでない場合は 0 を返すインジケータ関数です。 CUT の最終トレーニング目標は、上記の 2 つの比較セットを組み合わせたものです: 。

実験評価

1. オフライン調整

順番Qian を救うために、研究者らはまず既存の言語フィードバックデータを使用して大規模なモデルを調整しようとしました。この実験は、言語フィードバックを利用する CUT の能力を実証するために使用されました。
a) 一般モデル

上の表に示すように、一般的なモデルのアライメントでは、研究者らは Shepherd が提供した 1317 個のアライメントデータを使用して、コールドスタート (LLaMA2) 条件とホットスタート (LLaMA2-chat) 条件での CUT を既存の方法と比較しました。言語的なフィードバックから学習します。

LLaMA2 に基づくコールドスタート実験では、CUT は AlpacaEval テストプラットフォーム上の既存のアライメント手法を大幅に上回り、言語フィードバックの利用における利点を十分に証明しました。さらに、CUT は基本モデルと比較して TruthfulQA においても大幅な改善を達成しました。これは、CUT が大規模モデルの幻覚問題を軽減する上で大きな可能性を持っていることを明らかにしています。

LLaMA2 チャットに基づくホットスタートシナリオでは、既存の方法では LLaMA2 チャットの改善が不十分であり、悪影響さえあります。ただし、CUT はこれに基づいて基本モデルのパフォーマンスをさらに向上させることができ、言語フィードバックの利用における CUT の大きな可能性が再度検証されます。

b) エキスパートモデル

研究者らは、特定のエキスパートタスク (要約テキスト) についてもテストしました。 CUTアライメント効果。上の表に示されているように、CUT は、エキスパートタスクに関する既存の調整方法と比較して大幅な改善も実現しています。

2. オンラインアライメント

オフラインアライメントに関する研究により、CUT の強力なアライメントパフォーマンスが実証されました。現在、研究者は、より実用的なアプリケーションに近いオンライン調整シナリオをさらに研究しています。このシナリオでは、研究者はターゲットの大規模モデルの応答に言語フィードバックで繰り返し注釈を付け、ターゲットモデルに関連付けられた言語フィードバックに基づいてターゲットモデルをより正確に調整できるようにします。具体的なプロセスは次のとおりです。

#ステップ 1: 指示を収集#し、対象の大規模モデルからの応答を取得します。
ステップ 2: 上記の指示と応答のペアに応答して、言語フィードバックを
としてマークします。
ステップ 3: CUT を使用して、収集されたトリプレットデータに基づいてターゲットの大規模モデルを微調整します。
。

#上図に示すように、4 ラウンドのオンラインアライメント反復の後、CUT は次のようになります。 4000 個のトレーニングデータと 13B の小さなモデルサイズの条件下では、それでも 91.36 という素晴らしいスコアを達成できます。この成果は、CUT の優れたパフォーマンスと大きな可能性をさらに証明しています。

3. AI コメントモデル

言語フィードバックを考慮したアノテーションコストを削減するために、研究者たちは、対象となる大規模モデルの言語フィードバックに自動的に注釈を付けるための判断モデルをトレーニングしようとしています。上図に示すように、研究者らは 5,000 個（AI Judge-5000）と 3,000 個（AI Judge-3000）の言語フィードバックデータを使用して 2 つのレビューモデルをトレーニングしました。どちらのレビューモデルも、対象となる大規模モデルの最適化、特にAI Judge-5000の効果において顕著な成果をあげています。

これは、AI コメントモデルを使用してターゲットの大規模モデルを調整する実現可能性を証明し、調整プロセス全体におけるコメントモデルの品質の重要性も強調しています。この一連の実験は、将来のアノテーションのコストを削減するための強力なサポートも提供します。

4. 言語フィードバックとスコアフィードバック
大規模なモデルの調整における言語フィードバックの大きな可能性を深く調査するために、研究者は言語フィードバックに基づく CUT とスコアフィードバック (DPO) に基づく方法を比較しました。公平な比較を保証するために、研究者らは実験サンプルとして同じ命令と応答のペアの 4,000 セットを選択し、CUT と DPO がそれぞれこれらのデータに対応するスコアフィードバックと言語フィードバックから学習できるようにしました。

上記の表に示すように、コールドスタート (LLaMA2) 実験では、CUT が DPO よりも大幅に優れたパフォーマンスを示しました。ホットスタート (LLaMA2 チャット) 実験では、CUT は ARC、HellaSwag、MMLU、TruthfulQA などのタスクで DPO と同等の結果を達成でき、AlpacaEval タスクでは DPO を大幅に上回っています。この実験により、大規模モデルのアライメント中の分数フィードバックと比較して、言語フィードバックの方が大きな可能性と利点があることが確認されました。

要約と課題

この研究では、研究者らは、大規模なモデルの調整における言語フィードバックの現状と革新性を体系的に調査しました。言語フィードバックに基づくアライメントフレームワーク CUT は、大規模モデルアライメントの分野における言語フィードバックの大きな可能性と利点を明らかにします。さらに、言語フィードバックの研究には、次のような新しい方向性と課題があります:

#1. コメントモデルの品質#: 研究ではありますが、研究者らはレビューモデルのトレーニングの実現可能性を実証することに成功しましたが、モデルの出力を観察すると、レビューモデルが正確とは言えないレビューを提供することが多いことが依然としてわかりました。したがって、レビューモデルの品質を向上させることは、将来的に調整のための言語フィードバックを大規模に使用するために非常に重要です。

2. 新しい知識の導入: 言語フィードバックに、大規模なモデルが正確に認識できたとしても、大規模なモデルに欠けている知識が含まれる場合、エラー問題は特定されましたが、明確な修正の方向性はありませんでした。したがって、大型モデルに不足している知識を位置合わせしながら補うことは非常に重要です。

3. マルチモーダル調整: 言語モデルの成功により、言語などのマルチモーダル大規模モデルの研究が促進されました。、スピーチ、画像とビデオの組み合わせ。これらのマルチモーダルなシナリオでは、言語フィードバックと対応するモダリティのフィードバックを研究することで、新しい定義と課題が生まれました。

以上が人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7515

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

See all articles

人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました

大きなモデルの位置合わせ

対比非尤度トレーニング

1. オフライン調整

要約と課題

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック