人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりました
既存の大規模モデル アライメント手法には、example ベースの教師あり微調整 (SFT) および スコア フィードバックベースの強化学習 (RLHF) が含まれます。ただし、スコアは現在の応答の品質を反映することしかできず、モデルの欠点を明確に示すことはできません。対照的に、私たち人間は通常、言葉によるフィードバックから行動パターンを学習し、調整します。レビューのコメントは単なるスコアではなく、承認または拒否の多くの理由も含まれています。
では、大規模な言語モデルも人間と同じように言語フィードバックを使用して自らを改善できるのでしょうか?
香港中文大学とテンセント AI ラボの研究者らは最近、対照的尤度学習 (CUT) と呼ばれる革新的な研究を提案しました。この研究では、言語フィードバックを使用して言語モデルを調整し、人間と同じようにさまざまな批判から学習して改善できるようにしています。この研究は、言語モデルの品質と精度を向上させ、人間の思考方法との一貫性を高めることを目的としています。研究者らは、非尤度トレーニングを比較することで、言語モデルが多様な言語使用状況をよりよく理解して適応できるようになり、それによって自然言語処理タスクのパフォーマンスが向上することを期待しています。この革新的な研究は、言語モデル
#CUT のためのシンプルで効果的な方法を提供すると期待されています。わずか 1317 個の言語フィードバック データを使用することで、CUT は AlpacaEval での LLaMA2-13b の勝率を 1.87% から 62.56% に大幅に向上させることができ、175B DaVinci003 を破ることに成功しました。興味深いのは、CUT が他の強化学習や強化学習強化フィードバック (RLHF) フレームワークと同様に、探索、批判、改善の反復サイクルを実行できることです。このプロセスでは、自動評価モデルによって批判段階が完了し、システム全体の自己評価と改善が達成されます。
著者は LLaMA2-chat-13b で 4 ラウンドの反復を実行し、AlpacaEval でのモデルのパフォーマンスを 81.09% から 91.36% まで徐々に改善しました。スコア フィードバック (DPO) に基づくアライメント テクノロジと比較して、CUT は同じデータ サイズの下でより優れたパフォーマンスを発揮します。この結果は、言語フィードバックがアライメントの分野で発展する大きな可能性を秘めていることを明らかにし、将来のアライメント研究に新たな可能性を切り開くものです。この発見は、アライメント技術の精度と効率の向上に重要な意味を持ち、より良い自然言語処理タスクを達成するための指針を提供します。
- 論文のタイトル: 拒否する理由? 言語モデルと判断の調整
- 紙のリンク: https://arxiv.org/abs/2312.14591
- Github リンク: https://github.com/wwxu21 /CUT
大きなモデルの位置合わせ
既存の作業に基づいて、研究者らは、2 つの一般的な大規模モデルの位置合わせ方法を要約しました:
1. デモンストレーションから学ぶ: 既製の指示に基づく - 「はい」と回答し、教師ありトレーニング方法を使用して大規模モデルを位置合わせします。
利点: 安定したトレーニング、簡単な実装。- 欠点: 高品質で多様なサンプル データを収集するコストは高くなります。エラー応答から学習することは不可能です。サンプル データは多くの場合、モデルとは無関係です。
- 2. 報酬からの学習: コマンドと応答のペアをスコアリングし、強化学習を使用して応答スコアを最大化するようにモデルをトレーニングします。
利点: 正しい応答とエラー応答を同時に使用できます。フィードバック信号はモデルに関連しています。
- 欠点: フィードバック信号がまばらであるため、トレーニング プロセスが複雑になることがよくあります。
- この研究は、言語フィードバック (判断からの学習) からの学習に焦点を当てています。言語フィードバックに基づいて、指示を与える - コメントの書き込みに返信するモデルの欠点を除去し、モデルの利点を維持することで、モデルのパフォーマンスが向上します。
言語フィードバックはスコア フィードバックの利点を継承していることがわかります。スコア フィードバックと比較して、口頭フィードバックはより有益です。口頭フィードバックは、モデルに何が正しくて何が間違っていたかを推測させる代わりに、詳細な欠陥や改善の方向性を直接指摘できます。しかし、残念なことに、研究者らは、現時点では口頭によるフィードバックを完全に活用する効果的な方法がないことを発見しました。この目的を達成するために、研究者たちは言語フィードバックを最大限に活用するように設計された革新的なフレームワーク CUT を提案しました。
対比非尤度トレーニング
CUT の中心的な考え方は、対比から学ぶことです。研究者は、さまざまな条件下で大規模モデルの応答を比較し、どの部分が満足していて維持する必要があり、どの部分に欠陥があり、修正が必要かを特定します。これに基づいて、研究者は最尤推定 (MLE) を使用して満足のいく部分をトレーニングし、尤度トレーニング (UT) を使用して応答の欠陥を修正します。
1. アライメント シナリオ : 上の図に示すように、研究者は 2 つのアライメント シナリオを検討しました。
a): これは一般的に理解されている調整シナリオであり、返信は指示に忠実に従い、人間の期待や価値観と一致する必要があります。
: このシナリオでは、追加の条件として口頭によるフィードバックが導入されています。このシナリオでは、応答は指示と口頭フィードバックの両方を満たす必要があります。たとえば、否定的なフィードバックを受け取った場合、大規模モデルは、対応するフィードバックで言及されている問題に基づいて間違いを犯す必要があります。
アライメント データ : 上の図に示すように、上記の 2 つのアライメント シナリオに基づいて、研究者は 3 種類のアライメント データを構築しました。 ##a) Align-P: 大規模モデルは 満足のいく
応答を生成し、肯定的なフィードバックを受け取りました。明らかに、Align-P は シナリオと シナリオの両方でアラインメントを満たします。 b) Align-N: 大規模モデルは欠陥のある (青の太字) 応答を生成したため、否定的なフィードバックを受けました。 Align-N の場合、
でアライメントが満たされていません。しかし、この否定的なフィードバックを考慮した後でも、Align-N は依然として シナリオに沿っています。 c) ミスアライン: Align-N の実際の負のフィードバックは、偽の正のフィードバックに置き換えられます。明らかに、Misalign は
シナリオと シナリオの両方で位置合わせを満たしていません。 3. コントラストから学ぶ
a) Align-N と Misalign
での位置合わせの程度です。大規模モデルの強力なコンテキスト内学習機能を考慮すると、Align-N から Misalign へのアライメント極性の反転は、通常、特定の単語、特に実際の負のフィードバックと密接に関連する単語の生成確率の大幅な変化を伴います。上の図に示すように、Align-N (左チャンネル) の条件下では、大きなモデルが「a」を生成する確率は、Misalign (右チャンネル) よりも大幅に高くなります。そして、確率が大きく変わる場所は、大きなモデルがミスをする場所です。 この比較から学ぶために、研究者たちはAlign-NデータとMisalignデータを同時に大規模モデルに入力し、2つの条件下での出力単語の生成確率を取得しました ここで は取引されるハイパーパラメータです。不適切な単語認識中に精度と再現率が低下します。
は応答単語の数です。 での位置合わせの程度にあります。 。基本的に、大規模モデルは、さまざまな極性の言語フィードバックを導入することによって、出力応答の品質を制御します。したがって、この 2 つの比較により、大規模なモデルが満足のいく応答と欠陥のある応答を区別できるようになります。具体的には、次の最尤推定 (MLE) 損失を介して、この一連の比較から学習します。 アライメントを満たしている場合は 1 を返し、そうでない場合は 0 を返すインジケータ関数です。 実験評価 順番Qian を救うために、研究者らはまず既存の言語フィードバック データを使用して大規模なモデルを調整しようとしました。この実験は、言語フィードバックを利用する CUT の能力を実証するために使用されました。
上の表に示すように、一般的なモデルのアライメントでは、研究者らは Shepherd が提供した 1317 個のアライメント データを使用して、コールド スタート (LLaMA2) 条件とホット スタート (LLaMA2-chat) 条件での CUT を既存の方法と比較しました。言語的なフィードバックから学習します。 LLaMA2 に基づくコールド スタート実験では、CUT は AlpacaEval テスト プラットフォーム上の既存のアライメント手法を大幅に上回り、言語フィードバックの利用における利点を十分に証明しました。さらに、CUT は基本モデルと比較して TruthfulQA においても大幅な改善を達成しました。これは、CUT が大規模モデルの幻覚問題を軽減する上で大きな可能性を持っていることを明らかにしています。 LLaMA2 チャットに基づくホット スタート シナリオでは、既存の方法では LLaMA2 チャットの改善が不十分であり、悪影響さえあります。ただし、CUT はこれに基づいて基本モデルのパフォーマンスをさらに向上させることができ、言語フィードバックの利用における CUT の大きな可能性が再度検証されます。 b) エキスパート モデル 研究者らは、特定のエキスパート タスク (要約テキスト) についてもテストしました。 CUTアライメント効果。上の表に示されているように、CUT は、エキスパート タスクに関する既存の調整方法と比較して大幅な改善も実現しています。 2. オンライン アライメント オフライン アライメントに関する研究により、CUT の強力なアライメント パフォーマンスが実証されました。現在、研究者は、より実用的なアプリケーションに近いオンライン調整シナリオをさらに研究しています。このシナリオでは、研究者はターゲットの大規模モデルの応答に言語フィードバックで繰り返し注釈を付け、ターゲット モデルに関連付けられた言語フィードバックに基づいてターゲット モデルをより正確に調整できるようにします。具体的なプロセスは次のとおりです。 3. AI コメントモデル
これは、AI コメント モデルを使用してターゲットの大規模モデルを調整する実現可能性を証明し、調整プロセス全体におけるコメント モデルの品質の重要性も強調しています。この一連の実験は、将来のアノテーションのコストを削減するための強力なサポートも提供します。 4. 言語フィードバックとスコア フィードバック 大規模なモデルの調整における言語フィードバックの大きな可能性を深く調査するために、研究者は言語フィードバックに基づく CUT とスコア フィードバック (DPO) に基づく方法を比較しました。公平な比較を保証するために、研究者らは実験サンプルとして同じ命令と応答のペアの 4,000 セットを選択し、CUT と DPO がそれぞれこれらのデータに対応するスコア フィードバックと言語フィードバックから学習できるようにしました。 上記の表に示すように、コールド スタート (LLaMA2) 実験では、CUT が DPO よりも大幅に優れたパフォーマンスを示しました。ホット スタート (LLaMA2 チャット) 実験では、CUT は ARC、HellaSwag、MMLU、TruthfulQA などのタスクで DPO と同等の結果を達成でき、AlpacaEval タスクでは DPO を大幅に上回っています。この実験により、大規模モデルのアライメント中の分数フィードバックと比較して、言語フィードバックの方が大きな可能性と利点があることが確認されました。 この研究では、研究者らは、大規模なモデルの調整における言語フィードバックの現状と革新性を体系的に調査しました。言語フィードバックに基づくアライメント フレームワーク CUT は、大規模モデル アライメントの分野における言語フィードバックの大きな可能性と利点を明らかにします。さらに、言語フィードバックの研究には、次のような新しい方向性と課題があります: #1. コメント モデルの品質#: 研究ではありますが、研究者らはレビュー モデルのトレーニングの実現可能性を実証することに成功しましたが、モデルの出力を観察すると、レビュー モデルが正確とは言えないレビューを提供することが多いことが依然としてわかりました。したがって、レビューモデルの品質を向上させることは、将来的に調整のための言語フィードバックを大規模に使用するために非常に重要です。 2. 新しい知識の導入: 言語フィードバックに、大規模なモデルが正確に認識できたとしても、大規模なモデルに欠けている知識が含まれる場合、エラー問題は特定されましたが、明確な修正の方向性はありませんでした。したがって、大型モデルに不足している知識を位置合わせしながら補うことは非常に重要です。 3. マルチモーダル調整: 言語モデルの成功により、言語などのマルチモーダル大規模モデルの研究が促進されました。 、スピーチ、画像とビデオの組み合わせ。これらのマルチモーダルなシナリオでは、言語フィードバックと対応するモダリティのフィードバックを研究することで、新しい定義と課題が生まれました。 ## #そして#########。
条件での生成確率が
条件よりも大幅に高い単語は、不適切な単語としてマークされます。具体的には、研究者は次の基準を使用して不適切な単語の定義を定量化しました:
研究者らは、これらの特定された不適切な単語に対して尤度トレーニング (UT) を使用し、それによって大規模モデルがより満足のいく応答を探索するように強制しました。他の応答語については、研究者は依然として最尤推定 (MLE) を使用して最適化しています。
は、非尤度トレーニングの割合を制御するハイパーパラメータ。
b)
Align-P と Align-N: 2 つの違いは主に、
#where
は、データが
CUT の最終トレーニング目標は、上記の 2 つの比較セットを組み合わせたものです:
。
1. オフライン調整
。
#上図に示すように、4 ラウンドのオンライン アライメント反復の後、CUT は次のようになります。 4000 個のトレーニング データと 13B の小さなモデル サイズの条件下では、それでも 91.36 という素晴らしいスコアを達成できます。この成果は、CUT の優れたパフォーマンスと大きな可能性をさらに証明しています。 言語フィードバックを考慮したアノテーションコストを削減するために、研究者たちは、対象となる大規模モデルの言語フィードバックに自動的に注釈を付けるための判断モデルをトレーニングしようとしています。上図に示すように、研究者らは 5,000 個(AI Judge-5000)と 3,000 個(AI Judge-3000)の言語フィードバック データを使用して 2 つのレビュー モデルをトレーニングしました。どちらのレビューモデルも、対象となる大規模モデルの最適化、特にAI Judge-5000の効果において顕著な成果をあげています。
要約と課題
以上が人間と同じように批判から学び成長しましょう。1317 件のコメントで LLaMA2 の勝率は 30 倍になりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
