目次
実験部分
ホームページ テクノロジー周辺機器 AI 「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

Jun 17, 2023 am 11:39 AM
ai 勉強

ChatGPT API が公開されて以来、多くの研究では、ChatGPT や GPT-4 などの大規模な基本モデル (LFM) の出力をトレーニング データとして使用し、小規模なモデルの機能を向上させることが選択されています。模倣学習によるモデル化。

しかし、表面的な模倣信号、不十分なトレーニング データ、厳格な評価基準の欠如などの問題により、小型モデルの実際のパフォーマンスは過大評価されてきました。

効果の観点から見ると、小規模モデルは推論プロセスよりも LFM の出力スタイルを模倣する傾向があります。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

論文リンク: https://arxiv.org/pdf/2306.02707.pdf

#これらの課題に対処するために、Microsoft は最近、LFM の推論プロセスを模倣することを学習できる 130 億パラメータの Orca モデルを提案する 51 ページの論文をリリースしました。

研究者らは、Orca が GPT-4 から説明トレース、段階的な思考プロセス、複雑な命令などを学習できるように、大規模モデル用の豊富なトレーニング信号を設計しました。 by ChatGPT 教師は指導を支援し、サンプリングと選択を通じて大規模で多様な模倣データをマイニングすることで、漸進的な学習効果をさらに高めることができます。

実験的評価では、Orca は他の SOTA 命令微調整モデルを上回り、BigBench Hard (BBH) パフォーマンスなどの複雑なゼロショット推論ベンチマークで Vicuna-13B の 2 倍のパフォーマンスを達成しました。 AGIEval では 42% のパフォーマンス向上も達成されました。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

さらに、Orca は、BBH ベンチマークや、SAT、LSAT、GRE、などの専門試験および学術試験において、ChatGPT と同等のパフォーマンスを達成しました。 GMAT のパフォーマンスの差はわずか 4% であり、それらはすべて思考連鎖なしのゼロサンプル設定で測定されています。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

#調査結果は、説明が人間によって生成されたものであっても、より高度な AI モデルによって生成されたものであっても、モデルに段階的な説明から学習させることを示しています。これらはすべて、モデルの機能とスキルを向上させるための有望な研究の方向性です。

#説明チューニング

データセット構築 ##トレーニング データの各インスタンスには、システム メッセージ、ユーザー クエリ、LFM 応答という 3 つの部分が含まれています。

システム メッセージ (システム メッセージ)

はプロンプトの先頭に配置され、基本的なコンテキスト、ガイダンス、およびその他の関連詳細を LFM に提供します。 システム メッセージは、応答の長さの変更、AI アシスタントの性格の説明、許容される LFM 動作と許容できない LFM 動作の確立、AI の応答構造の決定に使用できます。モデル。

研究者らは、創造的なコンテンツを生成し、情報クエリの問題を解決できる、さまざまな種類の LFM 応答を設計するために 16 個のシステム情報を手作りしました。プロンプトに基づいて説明とプロンプトを生成し、段階的に答えを推論します。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

ユーザー クエリ

LFM に実行させる実際のタスクを定義します。 多数の多様なユーザー クエリを取得するために、研究者は FLAN-v2 コレクションを使用して 500 万のユーザー クエリ (FLAN-5M) を抽出し、ChatGPT 応答を収集しました。 500万命令から100万命令(FLAN-1M)を抽出し、GPT-4の応答を収集した。

FLAN-v2 セットは、CoT、NiV2、T0、Flan 2021、Dialogue の 5 つのサブセットで構成されており、各サブセットには複数のタスクが含まれており、各タスクはクエリ コレクションです。 。

各サブコレクションは複数の学術データセットに関連しており、各データセットには主にゼロショット クエリと少数ショット クエリに焦点を当てた 1 つ以上のタスクがあります。

この研究では、研究者は Orca をトレーニングするためのゼロショット クエリのみをサンプリングし、Dialogue サブセットからはサンプリングしませんでした。これは、これらのクエリには ChatGPT 応答から役立つコンテキストが欠けていることが多いためです。

ChatGPT をティーチング アシスタントとして機能させる

最初に FLAN-5M データで Orca をトレーニングします(ChatGPT 強化)、続いて FLAN-1M でのトレーニングの第 2 段階 (GPT-4 強化)。

ChatGPT を中級教師アシスタントとして使用する主な理由は 2 つあります:

1. 能力のギャップ

GPT-4 のパラメータ量は明らかにされていませんが、Orca の 130 億個のパラメータは GPT-4 の何倍も小さいことは間違いなく、GPT-4 との性能差は明らかです。 ChatGPT と Orca は小規模であり、中級教師としてより適しており、このアプローチは知識の蒸留において小規模な生徒モデルの模倣学習パフォーマンスを向上させることが証明されています。

このアプローチは、一種の漸進的学習またはコース学習とみなすこともできます。そこでは、学生は最初に簡単な例から学び、次により難しい例に移ります。短い応答よりも模倣するのが難しく、大規模な教師モデルからの推論と段階的な説明スキルの向上が可能になります。

#2. コストと時間

Azure OpenAI からの大規模なデータ収集API 過度のトラフィックを防ぐための 1 分あたりのリクエストのレート制限、サービスの遅延の問題により、1 分あたりの利用可能なトークンの数が制限されること、プロンプトの長さ、トークンの完了にかかる金銭的コストなど、いくつかの制限があります。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

比較すると、ChatGPT API は GPT-4 ターミナルよりも高速かつ安価であるため、ChatGPT からは GPT-4 よりも 5 倍多くのデータが収集されます。 。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

さまざまなシステム メッセージに対応する ChatGPT と GPT-4 の応答長の分布から、GPT-4 の応答が次のようになっていることがわかります。 ChatGPT 1.5x よりも平均して長いため、Orca は教師の説明の複雑さから徐々に学習することができ、アブレーション実験を通じて教師の支援の効果を実証できます。

トレーニング

単語セグメンテーションの段階で、研究者らはLLaMAのバイトペアエンコーディングを使用しました。 (BPE) トークナイザー。複数桁の数値が複数の 1 桁に分割され、バイトにフォールバックして未知の UTF-8 文字を分解する入力サンプルを処理します。

可変長シーケンスを処理するために、LLaMA トークナイザーの語彙にフィラー ワード [[PAD]] が導入され、最終的な語彙には 32001 個のトークンが含まれます

トレーニング プロセスを最適化し、利用可能なコンピューティング リソースを効果的に利用するために、研究者はモデルをトレーニングする前にパッキング テクノロジを使用して複数の入力インスタンスをシーケンスに連結しました。

パッキング プロセス中、連結されたシーケンスの合計の長さは max_len=2048 トークンを超えません。入力サンプルはランダムにシャッフルされ、いくつかのグループに分割されます。各グループの長さ連結されたシーケンスの最大 max_len

トレーニング データ内のブースティング命令の長さの分布を考慮すると、各シーケンスのパッキング ファクターは 2.7

になります。 Orca をトレーニングするために、研究者らは教師モデルによって生成されたトークンの損失のみを計算することを選択しました。これは、システム情報とタスク指示に条件付けされた応答を生成する方法を学習することで、モデルが最も関連性が高く有益なトークンからの学習に重点を置くことができることを意味します。トレーニングプロセスの効率の向上、全体的な効率と有効性。

最後に、Orca は 80 GB のメモリを備えた 20 個の NVIDIA A100 GPU でトレーニングされました。最初に FLAN-5M (ChatGPT 拡張) で 4 エポック間トレーニングされ、160 時間かかりました。次に FLAN-1M (GPT) でトレーニングされました。 -4 拡張) を実行し、4 エポックのトレーニングを継続します

トラフィック制限、端末の負荷と応答の長さの問題により、複数の GPT-3.5-turbo (ChatGPT) および GPT-4 端末データ収集にはそれぞれ 2 週間と 3 週間かかりました。

実験部分

研究者たちは主に Orca の推論能力を検証しました。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

AGIEval 実験でわかるように、Orca のパフォーマンスは Text-da-Vinci-003 と同等であり、ChatGPT のパフォーマンスの 88% を達成しています。しかし、GPT-4 には大幅に遅れています

分析タスクと推論タスクでは、Vicuna のパフォーマンスが大幅に低下し、ChatGPT の品質の 62% しか維持できませんでした。これは、このオープンソース言語モデルの推論能力が非常に低いことを示しています。 。

Orca は Text-da-Vinci-003 と同等のパフォーマンスを発揮しますが、それでも ChatGPT より 5 ポイント低く、数学関連のタスク (SAT、GRE、GMAT) では Orca の方が優れたパフォーマンスを発揮します。 ) ChatGPT との間には大きな隔たりがあります。

Vicuna と比較すると、Orca はより強力なパフォーマンスを示し、すべてのカテゴリで Vicuna を上回り、平均相対的な改善率は 42% です。

GPT-4 は他のすべてのモデルをはるかに上回っていますが、このベンチマークにはまだ改善の余地が大きく、現在すべてのモデルのパフォーマンスは人間のスコアを大幅に下回っています。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

Orca のパフォーマンスは、システム メッセージの種類によって大きく異なります。トレーニング済みモデルの場合、空のシステム メッセージが適切に機能する傾向があります。

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

Orca は、さまざまなタスクの 325 サンプルで ChatGPT (Orca-beats-ChatGPT の例) を上回っています。そのほとんどは LogiQA (29%) からのものです。一方、他の LSAT タスクと SAT-English タスクの割合はそれぞれ 10% 未満です。

Big-Bench Hard Results データセットの推論評価結果は、すべてのタスクで Orca のパフォーマンスが全体的に優れていることを示しています。パフォーマンスは ChatGPT よりわずかに優れていますが、GPT-4 よりも大幅に劣っており、Vicuna のパフォーマンスよりも 113% 高いです

「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力

以上が「真似して学ぶ」というのは単なる決まり文句なのでしょうか?解説微調整+130億パラメータ Orca:ChatGPTに匹敵する推理力の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

See all articles