これらのテクノロジーは、ChatGPT とその潜在的な競合他社によって使用されています。
ChatGPT の出現とその後の広範な議論により、RLHF、SFT、IFT、CoT などのあいまいな頭字語が世間に現れるようになりましたが、これはすべて ChatGPT の成功によるものです。これらのわかりにくい頭字語は何ですか?なぜそれらはそれほど重要なのでしょうか?この記事の著者は、これらのトピックに関するすべての重要な論文をレビューし、それらを分類して要約しました。
ChatGPT は、最初の言語モデル (LM) ベースの対話エージェントではありません。実際、Meta BlenderBot、Google LaMDA、DeepMind の Sparrow など、OpenAI よりも前に多くの組織が言語モデル対話エージェントをリリースしています。そして人類アシスタント。一部の組織は、オープンソースのチャットボットを構築する計画を発表し、ロードマップを公開しています (LAION の Open-Assistant など)。発表されていないだけで、同じことをやっている他の組織も確かにあります。
以下の表は、パブリックにアクセスできるかどうか、トレーニング データ、モデル アーキテクチャ、評価の詳細に基づいて、上記の AI チャットボットを比較しています。 ChatGPT に関連するデータはありません。ここで使用される情報は、ChatGPT の基礎と考えられる OpenAI の微調整モデルである InstructGPT です。
トレーニング データ、モデル、微調整には多くの違いがありますが、これらのチャットボットにはいくつかの共通点もあります - 説明以下は、ユーザーの指示に応答することを意味します。たとえば、ChatGPT にナッジに関する詩を書いてもらいます。
一般に、基本的な言語モデリングには、実現するための目標が不十分です。ユーザーの指示に効率的に従うモデル。モデル作成者は、命令微調整 (IFT) も使用します。これは、さまざまなタスクで基本モデルを微調整でき、感情分析、テキスト分類、要約などの古典的な NLP タスクにも適用できます。
IFT は主に、命令、入力、出力の 3 つの部分で構成されます。入力はオプションであり、上記の ChatGPT の例のように、一部のタスクでは指示のみが必要です。入力と出力はインスタンスを構成します。特定の命令には複数の入力と出力を含めることができます。関連する例は次のとおりです ([Wang et al., '22])。
指示に安全に従う
LM 細かく調整された指示を使用しても、必ずしも有益で安全な応答が生成されるとは限りません。この動作の例としては、無効な応答 (ごまかし)、常に「申し訳ありません、わかりません」などの無効な応答を返すこと、機密トピックに関するユーザー入力に安全でない応答をすることなどが挙げられます。この問題を解決するために、モデル開発者は教師付き微調整 (SFT) を使用して、人間がラベル付けした高品質のデータに基づいて基礎となる言語モデルを微調整し、効果的で安全な応答を実現します。 SFT と IFT は密接に関連しています。命令チューニングは、教師あり微調整のサブセットとして考えることができます。最近の文献では、SFT フェーズは一般に、IFT に続く命令固有のトピックではなく、セキュリティのトピックに使用されます。この分類と説明は、将来的にはより明確なユースケースと方法を提供する予定です。
Google の LaMDA は、一連のルールに基づいてセキュリティ アノテーションを使用して会話データ セットを微調整します。これらのルールは通常、モデルの作成者によって事前に定義および制定され、有害性、差別、誤った情報などの幅広いトピックをカバーします。
モデルの微調整
一方、OpenAI の InstructGPT、DeepMind の Sparrow、Anthropic のConstitutionalAI はすべて、ヒューマン フィードバックからの強化学習 (RLHF) テクノロジーを使用しています。 RLHF では、モデルの応答は人間のフィードバック (より良い回答の選択など) に基づいてランク付けされ、その後、これらの注釈付き応答を使用してモデルがトレーニングされて、スカラー報酬が RL オプティマイザーに返されます。最後に、会話型エージェントが強化学習によってトレーニングされて、シミュレーションが行われます。優先モデル。
思考連鎖 (CoT) は、会話型エージェントから段階的な推論を引き出して出力を生成する、命令デモンストレーションの特殊なケースです。 CoT で微調整されたモデルは、段階的な推論を伴う人間による注釈付きの命令のデータセットを使用します。以下の例に示すように、オレンジ色のマーカーは命令を表し、ピンク色のマーカーは入力と出力を表し、青色のマーカーは CoT 推論を表します。
CoT で微調整されたモデルは、常識、算術、記号推論を含むタスクでより優れたパフォーマンスを発揮します。 CoT を使用した微調整は、無害性を達成するのに非常に効果的であることも示されており (RLHF より優れている場合もあります)、モデルは「申し訳ありませんが、この質問には答えることができません」という応答を生成することを躊躇しません。
1. トレーニング前のデータと比較すると、命令を微調整するために必要なデータはごく一部だけです。
2. 監視付き微調整では手動の注釈を使用して、モデルの出力をより安全で便利なものにします。
3. CoT の微調整により、ステップバイステップの思考タスクにおけるモデルのパフォーマンスが向上し、デリケートなトピックに対する無効な応答や回避が減少します。
対話エージェントの今後の開発についての考え
#最後に、著者は対話エージェントの今後の開発について、彼自身の考えをいくつか述べます。
1. 人間のフィードバックから学ぶ上で RL はどの程度重要ですか? IFT または SFT で高品質のデータをトレーニングすることで、RLHF と同じパフォーマンスを得ることができますか?
2. Sparrow での SFT RLHF の使用は、LaMDA での SFT の使用と比較してどの程度安全ですか?
3. IFT、SFT、CoT、RLHF にはどのレベルの事前トレーニングが必要ですか?トレードオフとは何ですか?使用するのに最適な基本モデルは何ですか?
4. この記事で紹介されているモデルの多くは慎重に設計されており、エンジニアは特に失敗につながるパターンを収集し、問題に基づいて今後のトレーニング (プロンプトと方法) を改善します。対処された。これらの方法の効果を体系的に文書化し、再現するにはどうすればよいでしょうか?
以上がこれらのテクノロジーは、ChatGPT とその潜在的な競合他社によって使用されています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











UvicornはどのようにしてHTTPリクエストを継続的に聞きますか? Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

Pythonでは、文字列を介してオブジェクトを動的に作成し、そのメソッドを呼び出す方法は?これは一般的なプログラミング要件です。特に構成または実行する必要がある場合は...

GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は?最近、私はPythonを使用しています...

ChatGpt時代のテクニカルQ&Aコミュニティ:SegmentFaultの対応戦略StackOverFlow ...

Pythonマルチプロセスパイプエラー「パイプは閉じています」? PythonのMultiprocessing Moduleでパイプメソッドを使用して、親子プロセス通信を使用する場合、遭遇する可能性があります...

リクエストライブラリを使用してWebページのデータをクロールするときに遭遇する問題とソリューション。リクエストライブラリを使用してWebページデータを取得すると、時々遭遇します...

Debian Mail Serverを復元するための詳細な手順この記事では、Debian Mail Serverを復元する方法について説明します。開始する前に、データバックアップの重要性を覚えておくことが重要です。回復手順:バックアップデータ:リカバリ操作を実行する前に、すべての重要な電子メールデータと構成ファイルをバックアップしてください。これにより、回復プロセス中に問題が発生したときにフォールバックバージョンがあることが保証されます。ログファイルを確認してください:メールサーバーログファイル(/var/log/mail.logなど)を確認してください。エラーや例外があります。ログファイルは、多くの場合、問題の原因に関する貴重な手がかりを提供します。サービスの停止:さらにデータの破損を防ぐために、メールサービスを停止します。次のコマンドを使用してください:su

この記事では、Debian SystemsのZookeeperパフォーマンスを最適化する方法について説明します。ハードウェア、オペレーティングシステム、Zookeeperの構成、監視に関するアドバイスを提供します。 1.システムレベルでのストレージメディアのアップグレードの最適化:従来の機械的ハードドライブをSSDソリッドステートドライブに置き換えると、I/Oパフォーマンスが大幅に向上し、アクセス待ち時間が減少します。スワップパーティションの無効化:カーネルパラメーターを調整し、スワップパーティションへの依存を減らし、頻繁なメモリとディスクスワップに起因するパフォーマンスの損失を回避します。ファイル記述子の上限を改善する:Zookeeperの処理効率に影響を与えるリソース制限を回避するために、システムによって同時に許可されるファイル記述子の数を増やします。 2. Zookeeper構成最適化Zoo.CFGファイルの構成
