ホームページ テクノロジー周辺機器 AI Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

Apr 26, 2023 pm 02:58 PM
ai データ

「命令」は、ChatGPT モデルの画期的な進歩における重要な要素であり、言語モデルの出力を「人間の好み」とより一致させることができます。

しかし、命令のアノテーションには多くの人手が必要であり、オープンソースの言語モデルであっても、資金が十分でない学術機関や中小企業が独自の ChatGPT をトレーニングすることは困難です。

#最近、マイクロソフトの研究者は、以前に提案された Self-Instruct テクノロジ を使用し、初めて GPT-4 モデルの使用を試みました。言語モデルを自動的に生成するには、必要なトリム命令データ を使用します。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

# 論文リンク: https://arxiv.org/pdf/2304.03277.pdf

#コードリンク: https://github.com/struction-tuning-with-GPT-4/GPT-4-LLM

## Meta オープン ソースに基づく LLaMA モデルの実験結果では、GPT-4 によって生成された 52,000 の英語と中国語の命令追従データが、新しいタスク データにおいて、以前の最先端モデルによって生成された命令よりも優れたパフォーマンスを発揮することが示されています。研究者らはまた、包括的な評価と報酬モデルのトレーニングのために GPT-4 からフィードバックと比較データを収集しました。

トレーニング データ

データ収集

研究者らはスタンフォード大学が公開したアルパカ モデルを再利用しました。 52,000 の命令が使用され、それぞれの命令はモデルが実行すべきタスクを記述し、Alpaca と同じプロンプト戦略に従い、タスクのオプションのコンテキストまたは入力として入力の有無にかかわらず状況を考慮します。大規模言語モデルを使用します。指示に対する回答を出力します。

Alpaca データセットでは、出力は GPT-3.5 (text-davinci-003) を使用して生成されますが、この論文では、研究者らは GPT-4 を使用して、次の 4 つのデータ セットを含むデータを生成することを選択しました: Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

1. 英語の指示に従うデータ: For Alpaca で収集された 52,000 の命令のそれぞれに、英語の GPT-4 回答が提供されます。

今後の作業は、反復プロセスに従い、GPT-4 と自己指導を使用して新しいデータ セットを構築することです。 Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

2. 中国語の命令に従うデータ: ChatGPT を使用して 52,000 の命令を中国語に翻訳し、GPT-4 にこれらの命令に中国語で答えるように依頼すると、これがビルドされますLLaMA に基づく中国語の命令追従モデルであり、命令チューニングの言語を超えた一般化能力を研究します。

3. 比較データ: GPT-4 は、自身の応答に対して 1 から 10 までの評価を提供し、GPT-4、GPT の応答を評価する必要があります。 3 つのモデル -3.5 および OPT-IML は、報酬モデルをトレーニングするためにスコア付けされます。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

4. 不自然な命令に対する答え: GPT-4 の答えは 68,000 です(命令、入力、出力) トリプルのデータセットでデコードされたこのサブセットは、GPT-4 と命令調整モデルの間のスケールの違いを定量化するために使用されます。 ##################統計############

研究者らは、GPT-4 と GPT-3.5 の英語出力応答セットを比較しました。各出力について、ルート動詞と直接目的語名詞が抽出され、それぞれで一意の動詞と名詞のペアの頻度が抽出されました。出力セットに対して計算されます。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

#頻度が 10 を超える動詞と名詞のペア

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

最も頻繁に使用される動詞と名詞のペア 25

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

##出力シーケンス長の頻度分布の比較

GPT-4 は、GPT-4 よりも多くのデータを生成する傾向があることがわかります。 GPT-3.5 長いシーケンスの場合、Alpaca の GPT-3.5 データのロングテール現象は、GPT-4 の出力分布よりも明白です。これは、Alpaca データ セットには反復的なデータ収集プロセスが含まれており、同様の命令インスタンスが存在するためである可能性があります。これは、現在の 1 回限りのデータ生成では利用できません。

プロセスは単純ですが、GPT-4 によって生成された命令に従うデータは、より強力な位置合わせパフォーマンスを示します。

命令チューニング言語モデル

Self-Instructチューニング

LLaMA After 7Bに基づく研究者チェックポイント監視付き微調整により、2 つのモデルがトレーニングされました: LLaMA-GPT4 は、GPT-4 によって生成された 52,000 の英語の指示に従ってデータでトレーニングされました; LLaMA-GPT4-CN は、GPT-4 によって生成された 52,000 の中国語項目でトレーニングされましたデータ。

GPT-4 のデータ品質と、1 つの言語での命令調整された LLM の言語間汎化特性を研究するために、2 つのモデルが使用されました。

報酬モデル

ヒューマン フィードバックからの強化学習 (RLHF) は、LLM の行動を人間の好みに合わせて調整することを目的としています。言語モデルの出力は人間にとってより有益です。

RLHF の重要なコンポーネントは報酬モデリングです。この問題は、プロンプトと応答が与えられた場合の報酬スコアを予測する回帰タスクとして定式化できます。このアプローチには通常、大規模な比較データが必要ですつまり、同じキューに対する 2 つのモデルの応答を比較します。

Alpaca、Vicuna、Dolly などの既存のオープンソース モデルは、比較データのラベル付けにコストがかかるため、RLHF を使用していません。最近の研究では、GPT-4 が識別および識別できることを示しています。自分自身の間違いを修正し、応答の品質を正確に判断します。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

#RLHF に関する研究を促進するために、研究者は GPT-4 を使用して比較データを作成し、データの品質を評価するために、研究者はトレーニングを受けました。 OPT 1.3B に基づく報酬モデルにより、さまざまな応答をスコアリングします。1 つのプロンプトと K 個の応答に対して、GPT-4 は各応答に 1 ~ 10 のスコアを提供します。

実験結果

GPT-4 データに対するこれまでにないタスクに対する自己命令調整モデルのパフォーマンスを評価することは、依然として困難な作業です。

主な目標は、さまざまなタスクの指示を理解し、それに従うモデルの能力を評価することであるため、これを達成するために、研究者は 3 種類の評価を利用し、研究結果によって確認されました。 , 「GPT-4 で生成されたデータを使用することは、他のマシンによって自動的に生成されたデータと比較して、大規模な言語モデルの命令をチューニングする場合に効果的な方法です。

人間による評価

#この命令を調整した後の大規模言語モデルのアライメントの品質を評価するために、研究者は以前に提案されたアライメント基準に従いました。アシスタントは、人間の評価基準と一致している場合、有益、正直、無害 (HHH) と言えます。この評価基準は、AI システムが人間の価値観とどの程度一致しているかを評価するためにも広く使用されています。

有用性: 人間の目標達成に役立つかどうかにかかわらず、質問に正確に答えることができるモデルは役に立ちます。

正直さ: 人間のユーザーの誤解を避けるために、真実の情報を提供するか、必要に応じてその不確実性を表現するかにかかわらず、誤った情報を提供するモデルは不誠実です。

無害性: 人間に害を及ぼさない場合、ヘイトスピーチを生成したり、暴力を促進したりするモデルは無害ではありません。

HHH アライメント基準に基づいて、研究者らはクラウドソーシング プラットフォーム Amazon Mechanical Turk を使用して、モデル生成結果の手動評価を実施しました。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

この記事で提案されている 2 つのモデルは、GPT-4 と GPT-3 によって生成されたデータに基づいて微調整されました。 LLaMA-GPT4 は、51.2% の割合で有用性の点で、GPT-3 で微調整された Alpaca (19.74%) よりもはるかに優れていることがわかります。 GPT-3 の方がわずかに優れています。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

元の GPT-4 と比較すると、この 2 つは 3 つの規格においてかなり一貫していることがわかります。つまり、GPT-4 命令をチューニングした後の LLaMA のパフォーマンスは、元の GPT-4 と同様になります。

GPT-4 自動評価

Vicuna に触発されて、研究者らも評価に GPT-4 を使用することを選択しました。 80 の目に見えない質問に対して、さまざまなチャットボット モデルによって生成された応答の質。回答は LLaMA-GPT-4(7B) および GPT-4 モデルから収集され、他のモデルからの回答は以前の研究から取得され、GPT-4 に質問されました。 2 つのモデル間の応答品質を 1 から 10 のスケールでスコア化し、その結果を他の強力な競合モデル (ChatGPT および GPT-4) と比較します。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

#評価結果は、GPT-4 を使用したフィードバック データと報酬モデルが LLaMA のパフォーマンス向上に有効であることを示しています。 LLaMA は命令チューニングを実行し、text-davinci-003 チューニング (つまり Alpaca) およびチューニングなし (つまり LLaMA) よりも優れたパフォーマンスを示すことがよくあります。7B LLaMA GPT4 のパフォーマンスは 13B Alpaca および LLaMA のパフォーマンスを上回りますが、GPT-4 とは異なります。他の大規模な商用チャットボットとは、まだギャップがあります。

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

中国語のチャットボットのパフォーマンスをさらに研究する際、最初に GPT-4 を使用してチャットボットの質問を英語から翻訳しました中国語に翻訳すると、GPT-4 を使用して答えを取得すると、2 つの興味深い観察結果が得られます:

1. GPT の相対スコア指標が次のとおりであることがわかります。 -4 の評価は、さまざまな敵対者モデル (つまり、ChatGPT または GPT-4) と言語 (つまり、英語または中国語) の両方の点で非常に一貫しています。

2.

GPT-4 の結果のみ、翻訳された返信は中国語で生成された返信よりも優れたパフォーマンスを示しました これはおそらく GPT-4 が訓練されているためです中国語よりも豊富な英語コーパスを備えているため、英語の指示に従う能力が強力です。

不自然な指導の評価

Microsoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。

平均より ROUGE的には- L スコアでは、Alpaca が LLaMA-GPT 4 および GPT-4 よりも優れています。LLaMA-GPT4 および GPT4 は、グラウンド トゥルース応答の長さが増加すると徐々にパフォーマンスが向上し、長さが 4 を超えると最終的にパフォーマンスが向上することがわかります。シーンがより創造的であればあるほど、より適切に指示に従うことができます。

異なるサブセットでは、LLaMA-GPT4 と GPT-4 の動作はほぼ同じです。シーケンス長が短い場合、LLaMA-GPT4 と GPT-4 は両方とも単純な応答を生成できます。基本的な事実に基づいた回答を提供しますが、返信をよりチャットっぽくするために余分な言葉を追加すると、ROUGE-L スコアが低下する可能性があります。

以上がMicrosoft のオープンソースの微調整された命令セットは、家庭用バージョンの GPT-4 の開発に役立ち、中国語と英語のバイリンガル生成をサポートします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

CentOS HDFS構成をチェックする方法 CentOS HDFS構成をチェックする方法 Apr 14, 2025 pm 07:21 PM

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

Centosシャットダウンコマンドライン Centosシャットダウンコマンドライン Apr 14, 2025 pm 09:12 PM

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosのgitlabのバックアップ方法は何ですか Centosのgitlabのバックアップ方法は何ですか Apr 14, 2025 pm 05:33 PM

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

Centosはmysqlをインストールします Centosはmysqlをインストールします Apr 14, 2025 pm 08:09 PM

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

Centosでgitlabログを表示する方法 Centosでgitlabログを表示する方法 Apr 14, 2025 pm 06:18 PM

CENTOSシステムでGitLabログを表示するための完全なガイドこの記事では、メインログ、例外ログ、その他の関連ログなど、CentosシステムでさまざまなGitLabログを表示する方法をガイドします。ログファイルパスは、gitlabバージョンとインストール方法によって異なる場合があることに注意してください。次のパスが存在しない場合は、gitlabインストールディレクトリと構成ファイルを確認してください。 1.メインGitLabログの表示

CentosでPytorchの分散トレーニングを操作する方法 CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

CentosのPytorchのGPUサポートはどのようにサポートされていますか CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

See all articles