これらのテクノロジーは、ChatGPT とその潜在的な競合他社によって使用されています。
ChatGPT の出現とその後の広範な議論により、RLHF、SFT、IFT、CoT などのあいまいな頭字語が世間に現れるようになりましたが、これはすべて ChatGPT の成功によるものです。これらのわかりにくい頭字語は何ですか?なぜそれらはそれほど重要なのでしょうか?この記事の著者は、これらのトピックに関するすべての重要な論文をレビューし、それらを分類して要約しました。
ChatGPT は、最初の言語モデル (LM) ベースの対話エージェントではありません。実際、Meta BlenderBot、Google LaMDA、DeepMind の Sparrow など、OpenAI よりも前に多くの組織が言語モデル対話エージェントをリリースしています。そして人類アシスタント。一部の組織は、オープンソースのチャットボットを構築する計画を発表し、ロードマップを公開しています (LAION の Open-Assistant など)。発表されていないだけで、同じことをやっている他の組織も確かにあります。
以下の表は、パブリックにアクセスできるかどうか、トレーニング データ、モデル アーキテクチャ、評価の詳細に基づいて、上記の AI チャットボットを比較しています。 ChatGPT に関連するデータはありません。ここで使用される情報は、ChatGPT の基礎と考えられる OpenAI の微調整モデルである InstructGPT です。
トレーニング データ、モデル、微調整には多くの違いがありますが、これらのチャットボットにはいくつかの共通点もあります - 説明以下は、ユーザーの指示に応答することを意味します。たとえば、ChatGPT にナッジに関する詩を書いてもらいます。
一般に、基本的な言語モデリングには、実現するための目標が不十分です。ユーザーの指示に効率的に従うモデル。モデル作成者は、命令微調整 (IFT) も使用します。これは、さまざまなタスクで基本モデルを微調整でき、感情分析、テキスト分類、要約などの古典的な NLP タスクにも適用できます。
IFT は主に、命令、入力、出力の 3 つの部分で構成されます。入力はオプションであり、上記の ChatGPT の例のように、一部のタスクでは指示のみが必要です。入力と出力はインスタンスを構成します。特定の命令には複数の入力と出力を含めることができます。関連する例は次のとおりです ([Wang et al., '22])。
指示に安全に従う
LM 細かく調整された指示を使用しても、必ずしも有益で安全な応答が生成されるとは限りません。この動作の例としては、無効な応答 (ごまかし)、常に「申し訳ありません、わかりません」などの無効な応答を返すこと、機密トピックに関するユーザー入力に安全でない応答をすることなどが挙げられます。この問題を解決するために、モデル開発者は教師付き微調整 (SFT) を使用して、人間がラベル付けした高品質のデータに基づいて基礎となる言語モデルを微調整し、効果的で安全な応答を実現します。 SFT と IFT は密接に関連しています。命令チューニングは、教師あり微調整のサブセットとして考えることができます。最近の文献では、SFT フェーズは一般に、IFT に続く命令固有のトピックではなく、セキュリティのトピックに使用されます。この分類と説明は、将来的にはより明確なユースケースと方法を提供する予定です。
Google の LaMDA は、一連のルールに基づいてセキュリティ アノテーションを使用して会話データ セットを微調整します。これらのルールは通常、モデルの作成者によって事前に定義および制定され、有害性、差別、誤った情報などの幅広いトピックをカバーします。
モデルの微調整
一方、OpenAI の InstructGPT、DeepMind の Sparrow、Anthropic のConstitutionalAI はすべて、ヒューマン フィードバックからの強化学習 (RLHF) テクノロジーを使用しています。 RLHF では、モデルの応答は人間のフィードバック (より良い回答の選択など) に基づいてランク付けされ、その後、これらの注釈付き応答を使用してモデルがトレーニングされて、スカラー報酬が RL オプティマイザーに返されます。最後に、会話型エージェントが強化学習によってトレーニングされて、シミュレーションが行われます。優先モデル。
思考連鎖 (CoT) は、会話型エージェントから段階的な推論を引き出して出力を生成する、命令デモンストレーションの特殊なケースです。 CoT で微調整されたモデルは、段階的な推論を伴う人間による注釈付きの命令のデータセットを使用します。以下の例に示すように、オレンジ色のマーカーは命令を表し、ピンク色のマーカーは入力と出力を表し、青色のマーカーは CoT 推論を表します。
CoT で微調整されたモデルは、常識、算術、記号推論を含むタスクでより優れたパフォーマンスを発揮します。 CoT を使用した微調整は、無害性を達成するのに非常に効果的であることも示されており (RLHF より優れている場合もあります)、モデルは「申し訳ありませんが、この質問には答えることができません」という応答を生成することを躊躇しません。
1. トレーニング前のデータと比較すると、命令を微調整するために必要なデータはごく一部だけです。
2. 監視付き微調整では手動の注釈を使用して、モデルの出力をより安全で便利なものにします。
3. CoT の微調整により、ステップバイステップの思考タスクにおけるモデルのパフォーマンスが向上し、デリケートなトピックに対する無効な応答や回避が減少します。
対話エージェントの今後の開発についての考え
#最後に、著者は対話エージェントの今後の開発について、彼自身の考えをいくつか述べます。
1. 人間のフィードバックから学ぶ上で RL はどの程度重要ですか? IFT または SFT で高品質のデータをトレーニングすることで、RLHF と同じパフォーマンスを得ることができますか?
2. Sparrow での SFT RLHF の使用は、LaMDA での SFT の使用と比較してどの程度安全ですか?
3. IFT、SFT、CoT、RLHF にはどのレベルの事前トレーニングが必要ですか?トレードオフとは何ですか?使用するのに最適な基本モデルは何ですか?
4. この記事で紹介されているモデルの多くは慎重に設計されており、エンジニアは特に失敗につながるパターンを収集し、問題に基づいて今後のトレーニング (プロンプトと方法) を改善します。対処された。これらの方法の効果を体系的に文書化し、再現するにはどうすればよいでしょうか?
以上がこれらのテクノロジーは、ChatGPT とその潜在的な競合他社によって使用されています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

交換は、今日の暗号通貨市場で重要な役割を果たしています。それらは、投資家が取引するためのプラットフォームであるだけでなく、市場の流動性と価格発見の重要なソースでもあります。世界最大の仮想通貨交換はトップ10にランクされており、これらの交換は取引量がはるかに先を行っているだけでなく、ユーザーエクスペリエンス、セキュリティ、革新的なサービスに独自の利点を持っています。リストの上にある交換は通常、ユーザーベースが大きく、広範な市場の影響力があり、その取引量と資産タイプは、他の取引所で到達するのが難しいことがよくあります。

ETHアップグレード後、初心者は損失を避けるために次の戦略を採用する必要があります。1。宿題をして、ETHの基本的な知識とアップグレードコンテンツを理解する必要があります。 2。ポジションを制御し、水を少量でテストし、投資を多様化します。 3.取引計画を立て、目標を明確にし、停止ポイントを設定します。 4.合理的にプロファイルし、感情的な意思決定を避けます。 5。正式で信頼できる取引プラットフォームを選択します。 6.短期的な変動の影響を避けるために、長期的な保持を検討してください。

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

上位の交換には、次のものが含まれます。1。世界最大の取引量であるバイナンスは600通貨をサポートし、スポット処理料は0.1%です。 2。バランスの取れたプラットフォームであるOKXは、708の取引ペアをサポートし、永続的な契約処理手数料は0.05%です。 3。Gate.io、2700の小通貨をカバーし、スポット処理料は0.1%-0.3%です。 4。Coinbase、米国のコンプライアンスベンチマーク、スポット処理料は0.5%です。 5。Kraken、トップセキュリティ、および定期的な予備監査。

不安定な暗号通貨市場では、投資家は人気のある通貨を超えた代替品を探しています。 Solana(Sol)、Cardano(ADA)、XRP、Dogecoin(DOGE)などのよく知られた暗号通貨も、市場の感情、規制の不確実性、スケーラビリティなどの課題に直面しています。ただし、新しい新興プロジェクトであるRexasFinance(RXS)が出現しています。それは有名人の効果や誇大広告に依存するのではなく、現実世界の資産(RWA)とブロックチェーン技術を組み合わせて投資家に革新的な投資方法を提供することに焦点を当てています。この戦略により、2025年の最も成功したプロジェクトの1つになることを望んでいます。Rexasfi

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin(Doge)は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務(DEFI)(TVL)の総価値が激しく減少しました。 「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78%下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37%減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04%と20減少しました。
