目次
命令微調整言語モデル
実験
ホームページ テクノロジー周辺機器 AI 初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

Apr 10, 2023 pm 02:21 PM
ai モデル

Google T5 モデルから OpenAI GPT シリーズの大規模モデルに至るまで、大規模言語モデル (LLM) がコンテキスト学習や思考連鎖推論などの優れた一般化機能を実証していることはわかっています。同時に、LLM が自然言語の命令に従い、現実世界のタスクを完了できるようにするために、研究者は LLM の命令を微調整する方法を模索してきました。これは 2 つの方法で行われます。人間による注釈が付けられたプロンプトとフィードバックを使用して、幅広いタスクでモデルを微調整する方法と、手動または自動で生成された指示で強化された公開ベンチマークとデータセットを使用して微調整を監視する方法です。

これらの方法のうち、Self-Instruct 微調整は、SOTA 命令微調整の教師 LLM によって生成されたデータに続く命令から学習し、LLM を同等にするシンプルで効果的な方法です。人間にとって意図的な調整。命令の微調整が、LLM のゼロサンプルおよび小サンプル汎化機能を向上させる効果的な手段となっていることが事実によって証明されています。

ChatGPT と GPT-4 の最近の成功は、命令の微調整を使用してオープンソース LLM を改善する大きな機会を提供します。 Meta LLaMA は、GPT-3 などの独自の LLM に匹敵するパフォーマンスを備えたオープンソース LLM ファミリです。 LLaMA に指示に従うように教えるために、Self-Instruct は優れたパフォーマンスと低コストによりすぐに採用されました。たとえば、スタンフォードの Alpaca モデルは GPT-3.5 によって生成された 52k のコマンド コンプライアンス サンプルを使用し、Vicuna モデルは ShareGPT からの約 70k のコマンド コンプライアンス サンプルを使用します。

SOTA レベルの LLM 命令微調整を進めるために、Microsoft Research は、自己命令微調整のための教師モデルとして GPT-4 を初めて使用しました。論文「GPT-4による命令チューニング」。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

  • 論文アドレス: https://arxiv.org/pdf/2304.03277.pdf
  • #プロジェクトアドレス: https://instruction-tuning-with-gpt-4.github.io/
  • GitHubアドレス: https://github.com/structs-tuning-with-GPT-4/GPT-4-LLM 一方、研究者らは、中国語と英語で作成された52,000の命令遵守データセットと、3つの命令の出力を評価するためにGPT-4によって生成されたフィードバックデータを含む、GPT-4によって生成されたデータを公開しました。モデルの微調整。

一方、GPT-4 によって生成されたデータに基づいて、命令微調整 LLaMA モデルと報酬モデルが開発されました。命令微調整 LLM の品質を評価するために、研究者らは 3 つの指標を使用してテストサンプルを評価しました。3 つの調整基準の手動評価、GPT-4 フィードバックに基づく自動評価、不自然な命令の ROUGE-L (自動要約評価法) です。 1つ)。

実験結果は、GPT-4 によって生成されたデータを使用した LLM 命令の微調整の有効性を検証します。 GPT-4 によって生成された 52k の中国語と英語の命令準拠データは、新しいタスクで以前の SOTA モデルよりも優れたゼロサンプル パフォーマンスを実現します。現在、研究者らは GPT-4 と関連コードを使用して生成されたデータを公開しています。

データセット

この調査では、GPT-4 を使用して次の 4 つのデータセットを生成します。
  • 英語の指示に従ってデータ: Alpaca から収集された 52,000 の指示について、各指示には英語の GPT-4 回答が提供されます。このデータセットは主に、GPT-4 回答と GPT-3 回答の統計を調査および比較するために使用されます。
  • 中国語の命令に従うデータ: この研究では、ChatGPT を使用して 52,000 の命令を中国語に翻訳し、GPT-4 に中国語で回答するように依頼しました。
  • 比較データ: GPT-4 に回答を 1 から 10 のスケールで評価させます。さらに、この研究では GPT-4 に、GPT-4、GPT-3.5、OPT-IML の 3 つのモデルの応答を比較してスコアリングするよう依頼しました。このデータセットは主に報酬モデルをトレーニングするために使用されます。
  • 不自然な命令に関する回答: GPT-4 の回答は、68K の命令入出力の 3 つのコア データセットでデコードされます。このサブセットは、GPT-4 と命令微調整モデルの間のギャップを定量化するために使用されます。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

図 1 は、GPT-4 と GPT-3.5 の英語の出力応答セットを比較しています。図 1 (a) と (b) は、頻度が 10 を超える動詞と名詞のペアの 2 つの出力セットを示しています。図 1 (c) は、2 つのセット内で最も頻繁に使用される 25 個の単語のペアを比較しています。図 1 (d) は、配列長の頻度分布を調べたところ、GPT-4 は GPT-3.5 よりも長い配列を生成する傾向があることがわかりました。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

命令微調整言語モデル

この研究は LLaMA 7B チェックポイントに基づいており、教師あり微調整を使用してトレーニングします2 つのモデル: ( i) LLaMA-GPT4、GPT-4 によって生成された 52K の英語指示準拠データでトレーニングされました。 (ii) LLaMA-GPT4-CN は、GPT-4 から生成された 52K の中国語命令に従ってトレーニングされています。

報酬モデル

ヒューマン フィードバックによる強化学習 (RLHF) は、LLM の行動を人間の好みに合わせて調整することを目的としています。モデリングはその重要な部分の 1 つであり、問​​題は多くの場合、特定のキューと応答の間の報酬を予測する回帰タスクとして定式化されます。ただし、この方法には通常、大規模な比較データが必要であり、Alpaca、Vicuna、Dolly などの既存のオープンソース モデルには、比較データの注釈付けにコストがかかるため、RLHF は含まれていません。同時に、最近の研究では、GPT-4 が自身のエラーを特定して修復し、応答の品質を正確に判断できることが示されています。そこで、本研究ではRLHFの研究を促進するために、前述のようにGPT-4を用いた比較データを作成した。

データ品質を評価するために、この調査では、このデータセットの評価用に OPT 1.3B に基づく報酬モデルもトレーニングしました。比較データの分布を図 2 に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

実験

この研究では、次の 3 種類の評価を使用しました。人間評価、GPT-4、不自然な指導評価。この結果は、他の機械生成データと比較して、GPT-4 によって生成されたデータを使用することが、LLM 命令を微調整するための効率的かつ効果的な方法であることを裏付けています。次に、具体的な実験プロセスを見ていきます。

人間による評価

図 3 (a) は、LLaMA-GPT4 と Alpaca の比較結果です。実験によると、「有用性」指標では、GPT-4 が 54.12% のスコアで勝利します。図 3(b) は、LLaMA-GPT4 と GPT-4 の比較結果を示しています。これは、GPT-4 命令によって微調整された LLaMA のパフォーマンスが元の GPT-4 と同様であることを示しています。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

自動評価を使用した SOTA との比較

この研究では GPT-4 を使用して、80 の目に見えない質問に対するさまざまなモデルの応答を自動的に評価します。まず、LLaMA-GPT-4 (7B) と GPT-4 の 2 つのチャットボットから回答を収集し、LLaMA (13B)、Alpaca (13B)、Vicuna (13B)、Bard (Google、2023) などの他のチャットボットを使用して回答を公開します。そしてChatGPT。研究では、各評価について GPT-4 に 2 つのモデル間の応答の質を 1 から 10 のスケールで評価するよう依頼しました。結果を図 4 に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

図 4 (c、d) は、すべてのチャットボットを比較しています。 LLaMA_GPT4 のパフォーマンスが優れています: 7B LLaMA GPT4 のパフォーマンスは 13B Alpaca および LLaMA よりも優れています。ただし、LLaMA_GPT4 は、GPT-4 などの大手商用チャットボットと比較すると、まだギャップがあります。

研究者らは、以下の図 5 にあるすべてのチャットボットのパフォーマンスをさらに調査しました。まず GPT-4 を使用してチャットボットの英語の応答を中国語に翻訳し、次に GPT-4 を使用して英語の質問を中国語に翻訳して回答を取得します。 GPT-4 翻訳と生成された中国語応答との比較を 5 (a) および 5 (b) に示し、中国語で回答するよう求められたすべてのモデル結果を 5 (c) に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

以下の図 6 では、研究者らは LLaMA-GPT4 を GPT-4 および Alpaca の不自然な命令と比較しています。結果は、グラウンド トゥルース応答の長さが増加するにつれて、LLaMA-GPT4 と GPT-4 のパフォーマンスが向上することを示しています。これは、シーンがより創造的であれば、指示にうまく従うことができることを意味します。 LLaMA-GPT4 と GPT-4 はどちらも、シーケンスの長さが短い場合に単純なグラウンド トゥルースの回答を含む応答を生成でき、余分な単語を追加すると応答をよりチャットらしくすることができます。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

技術的および実験的な詳細については、元の論文を参照してください。

以上が初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

See all articles