初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。-AI-php.cn

命令微調整言語モデル

実験

ホームページ

テクノロジー周辺機器

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 10, 2023 pm 02:21 PM

ai モデル

Google T5 モデルから OpenAI GPT シリーズの大規模モデルに至るまで、大規模言語モデル (LLM) がコンテキスト学習や思考連鎖推論などの優れた一般化機能を実証していることはわかっています。同時に、LLM が自然言語の命令に従い、現実世界のタスクを完了できるようにするために、研究者は LLM の命令を微調整する方法を模索してきました。これは 2 つの方法で行われます。人間による注釈が付けられたプロンプトとフィードバックを使用して、幅広いタスクでモデルを微調整する方法と、手動または自動で生成された指示で強化された公開ベンチマークとデータセットを使用して微調整を監視する方法です。

これらの方法のうち、Self-Instruct 微調整は、SOTA 命令微調整の教師 LLM によって生成されたデータに続く命令から学習し、LLM を同等にするシンプルで効果的な方法です。人間にとって意図的な調整。命令の微調整が、LLM のゼロサンプルおよび小サンプル汎化機能を向上させる効果的な手段となっていることが事実によって証明されています。

ChatGPT と GPT-4 の最近の成功は、命令の微調整を使用してオープンソース LLM を改善する大きな機会を提供します。 Meta LLaMA は、GPT-3 などの独自の LLM に匹敵するパフォーマンスを備えたオープンソース LLM ファミリです。 LLaMA に指示に従うように教えるために、Self-Instruct は優れたパフォーマンスと低コストによりすぐに採用されました。たとえば、スタンフォードの Alpaca モデルは GPT-3.5 によって生成された 52k のコマンドコンプライアンスサンプルを使用し、Vicuna モデルは ShareGPT からの約 70k のコマンドコンプライアンスサンプルを使用します。

SOTA レベルの LLM 命令微調整を進めるために、Microsoft Research は、自己命令微調整のための教師モデルとして GPT-4 を初めて使用しました。論文「GPT-4による命令チューニング」。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

論文アドレス: https://arxiv.org/pdf/2304.03277.pdf
#プロジェクトアドレス: https://instruction-tuning-with-gpt-4.github.io/
GitHubアドレス: https://github.com/structs-tuning-with-GPT-4/GPT-4-LLM 一方、研究者らは、中国語と英語で作成された52,000の命令遵守データセットと、3つの命令の出力を評価するためにGPT-4によって生成されたフィードバックデータを含む、GPT-4によって生成されたデータを公開しました。モデルの微調整。

一方、GPT-4 によって生成されたデータに基づいて、命令微調整 LLaMA モデルと報酬モデルが開発されました。命令微調整 LLM の品質を評価するために、研究者らは 3 つの指標を使用してテストサンプルを評価しました。3 つの調整基準の手動評価、GPT-4 フィードバックに基づく自動評価、不自然な命令の ROUGE-L (自動要約評価法) です。 1つ）。

実験結果は、GPT-4 によって生成されたデータを使用した LLM 命令の微調整の有効性を検証します。 GPT-4 によって生成された 52k の中国語と英語の命令準拠データは、新しいタスクで以前の SOTA モデルよりも優れたゼロサンプルパフォーマンスを実現します。現在、研究者らは GPT-4 と関連コードを使用して生成されたデータを公開しています。

データセット

この調査では、GPT-4 を使用して次の 4 つのデータセットを生成します。

英語の指示に従ってデータ: Alpaca から収集された 52,000 の指示について、各指示には英語の GPT-4 回答が提供されます。このデータセットは主に、GPT-4 回答と GPT-3 回答の統計を調査および比較するために使用されます。
中国語の命令に従うデータ: この研究では、ChatGPT を使用して 52,000 の命令を中国語に翻訳し、GPT-4 に中国語で回答するように依頼しました。
比較データ: GPT-4 に回答を 1 から 10 のスケールで評価させます。さらに、この研究では GPT-4 に、GPT-4、GPT-3.5、OPT-IML の 3 つのモデルの応答を比較してスコアリングするよう依頼しました。このデータセットは主に報酬モデルをトレーニングするために使用されます。
不自然な命令に関する回答: GPT-4 の回答は、68K の命令入出力の 3 つのコアデータセットでデコードされます。このサブセットは、GPT-4 と命令微調整モデルの間のギャップを定量化するために使用されます。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

図 1 は、GPT-4 と GPT-3.5 の英語の出力応答セットを比較しています。図 1 (a) と (b) は、頻度が 10 を超える動詞と名詞のペアの 2 つの出力セットを示しています。図 1 (c) は、2 つのセット内で最も頻繁に使用される 25 個の単語のペアを比較しています。図 1 (d) は、配列長の頻度分布を調べたところ、GPT-4 は GPT-3.5 よりも長い配列を生成する傾向があることがわかりました。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

命令微調整言語モデル

この研究は LLaMA 7B チェックポイントに基づいており、教師あり微調整を使用してトレーニングします2 つのモデル: ( i) LLaMA-GPT4、GPT-4 によって生成された 52K の英語指示準拠データでトレーニングされました。 (ii) LLaMA-GPT4-CN は、GPT-4 から生成された 52K の中国語命令に従ってトレーニングされています。

報酬モデル

ヒューマンフィードバックによる強化学習 (RLHF) は、LLM の行動を人間の好みに合わせて調整することを目的としています。モデリングはその重要な部分の 1 つであり、問題は多くの場合、特定のキューと応答の間の報酬を予測する回帰タスクとして定式化されます。ただし、この方法には通常、大規模な比較データが必要であり、Alpaca、Vicuna、Dolly などの既存のオープンソースモデルには、比較データの注釈付けにコストがかかるため、RLHF は含まれていません。同時に、最近の研究では、GPT-4 が自身のエラーを特定して修復し、応答の品質を正確に判断できることが示されています。そこで、本研究ではRLHFの研究を促進するために、前述のようにGPT-4を用いた比較データを作成した。

データ品質を評価するために、この調査では、このデータセットの評価用に OPT 1.3B に基づく報酬モデルもトレーニングしました。比較データの分布を図 2 に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

実験

この研究では、次の 3 種類の評価を使用しました。人間評価、GPT-4、不自然な指導評価。この結果は、他の機械生成データと比較して、GPT-4 によって生成されたデータを使用することが、LLM 命令を微調整するための効率的かつ効果的な方法であることを裏付けています。次に、具体的な実験プロセスを見ていきます。

人間による評価

図 3 (a) は、LLaMA-GPT4 と Alpaca の比較結果です。実験によると、「有用性」指標では、GPT-4 が 54.12% のスコアで勝利します。図 3(b) は、LLaMA-GPT4 と GPT-4 の比較結果を示しています。これは、GPT-4 命令によって微調整された LLaMA のパフォーマンスが元の GPT-4 と同様であることを示しています。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

自動評価を使用した SOTA との比較

この研究では GPT-4 を使用して、80 の目に見えない質問に対するさまざまなモデルの応答を自動的に評価します。まず、LLaMA-GPT-4 (7B) と GPT-4 の 2 つのチャットボットから回答を収集し、LLaMA (13B)、Alpaca (13B)、Vicuna (13B)、Bard (Google、2023) などの他のチャットボットを使用して回答を公開します。そしてChatGPT。研究では、各評価について GPT-4 に 2 つのモデル間の応答の質を 1 から 10 のスケールで評価するよう依頼しました。結果を図 4 に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

図 4 (c、d) は、すべてのチャットボットを比較しています。 LLaMA_GPT4 のパフォーマンスが優れています: 7B LLaMA GPT4 のパフォーマンスは 13B Alpaca および LLaMA よりも優れています。ただし、LLaMA_GPT4 は、GPT-4 などの大手商用チャットボットと比較すると、まだギャップがあります。

研究者らは、以下の図 5 にあるすべてのチャットボットのパフォーマンスをさらに調査しました。まず GPT-4 を使用してチャットボットの英語の応答を中国語に翻訳し、次に GPT-4 を使用して英語の質問を中国語に翻訳して回答を取得します。 GPT-4 翻訳と生成された中国語応答との比較を 5 (a) および 5 (b) に示し、中国語で回答するよう求められたすべてのモデル結果を 5 (c) に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

以下の図 6 では、研究者らは LLaMA-GPT4 を GPT-4 および Alpaca の不自然な命令と比較しています。結果は、グラウンドトゥルース応答の長さが増加するにつれて、LLaMA-GPT4 と GPT-4 のパフォーマンスが向上することを示しています。これは、シーンがより創造的であれば、指示にうまく従うことができることを意味します。 LLaMA-GPT4 と GPT-4 はどちらも、シーケンスの長さが短い場合に単純なグラウンドトゥルースの回答を含む応答を生成でき、余分な単語を追加すると応答をよりチャットらしくすることができます。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

技術的および実験的な詳細については、元の論文を参照してください。

以上が初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7467

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Laravelの地理空間：インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件：MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか？データ移行または構造調整は必要ですか？ MySQLはこのような大きなデータ負荷に耐えることができますか？予備分析：キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

リモートシニアバックエンジニア（プラットフォーム）がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者：サークル場所：リモートオフィスジョブタイプ：フルタイム給与：$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

MySQLの主な鍵はヌルにすることができます Apr 08, 2025 pm 03:03 PM

MySQLプライマリキーは、データベース内の各行を一意に識別するキー属性であるため、空にすることはできません。主キーが空になる可能性がある場合、レコードを一意に識別することはできません。これにより、データの混乱が発生します。一次キーとして自己挿入整数列またはUUIDを使用する場合、効率やスペース占有などの要因を考慮し、適切なソリューションを選択する必要があります。

MySQLはダウンロード後にインストールできません Apr 08, 2025 am 11:24 AM

MySQLのインストール障害の主な理由は次のとおりです。1。許可の問題、管理者として実行するか、SUDOコマンドを使用する必要があります。 2。依存関係が欠落しており、関連する開発パッケージをインストールする必要があります。 3.ポート競合では、ポート3306を占めるプログラムを閉じるか、構成ファイルを変更する必要があります。 4.インストールパッケージが破損しているため、整合性をダウンロードして検証する必要があります。 5.環境変数は誤って構成されており、環境変数はオペレーティングシステムに従って正しく構成する必要があります。これらの問題を解決し、各ステップを慎重に確認して、MySQLを正常にインストールします。

酸性特性を理解する：信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性：トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のアカウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

See all articles

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

命令微調整言語モデル

実験

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック