ChatGPT は、幅広いオープン ドメイン タスクに関して、非常に強力な対話、コンテキスト学習、およびコード生成機能を実証します。また、そこで得られる常識的な知識によって、ドメイン固有のタスクに関する高レベルのソリューションの概要を生成することもできます。しかし、より強力な学習、理解、生成機能に加えて、ChatGPT は他にどのような問題を解決する必要があるでしょうか?
Microsoft は最近 TaskMatrix.AI をリリースしましたが、これは人工知能エコシステムの別の方向性となる可能性があり、基本モデルを何百万もの API と接続してタスクを完了します。これは Toolformer と chatGPT の組み合わせであり、別の未来になる可能性もありますLLMの場合。
ChatGPT または GPT-4 は、事前トレーニング中に十分なドメイン固有のデータが不足していたり、正確な実行が必要なタスクを実行したりするため、一部の専門的なタスクで依然として困難に直面していますエラーが頻繁に発生しますニューラルネットワークの計算において。一方で、ドメイン固有のタスクをうまく実行できる既存のモデルやシステム (シンボリック ベースまたはニューラル ネットワーク ベース) が多数あります。ただし、実装や動作メカニズムが異なるため、基本モデルとは互換性がありません。
さらに、AI の使用例は無限にあり、デジタルの世界だけでなく、物理的な世界でも、写真の加工からスマート ホーム デバイスの制御に至るまで、さまざまなタスクを支援します。想像をはるかに超えています。
したがって、基本モデルを活用してタスク解決策の概要を提案し、その概要内のいくつかのサブタスクを既製のモデルや特別な機能を備えたシステム API と自動的に照合してタスクを完了できるメカニズムが必要です。 。 TaskMatrix.AI はそのような仕組みです。
TaskMatrix.AI は、基本モデルを既存のモデルおよび API と組み合わせることで、さまざまなタスクを処理します。 TaskMatrix.AI が実行できるタスクは次のとおりです。
TaskMatrix.AI の全体的なアーキテクチャとその 4 つの主要コンポーネント:
これら 4 つのサブシステムは連携して、TaskMatrix.AI がユーザーの目標を理解し、特定のタスク用の API ベースの実行可能コードを実行できるようにします。 Multimodal Conversation Foundation Model (MCFM) は、ユーザー通信のメイン インターフェイスとして、マルチモーダル コンテキストを理解できます。 API プラットフォームは、統合された API ドキュメント スキーマと数百万の API を保存する場所を提供します。 API セレクターは、MCFM によるユーザーの目標の理解に基づいて、関連する API を推奨します。最後に、API 実行プログラムは、関連する API によって生成されたアクション コードを実行し、結果を返します。さらに、チームはヒューマン フィードバックによる強化学習 (RLHF) テクノロジーを使用して、タスク マトリックス (taskMatrix) を最適化できる報酬モデルをトレーニングしました。この方法は、MCFM および API セレクターが最適な戦略を見つけて、複雑なタスクのパフォーマンスを向上させるのに役立ちます。
MCFM には、基本モデルのパラメーター、API プラットフォーム、ユーザー指示、およびセッション コンテキストの 4 つの入力があります。これらの入力を使用して、モデルはユーザーの指示を完了するための操作コードを生成します。さらに、理想的なマルチモーダル会話フレームワーク モデル (MCFM) には、次の 4 つの主要な機能が必要です。
ChatGPT と GPT-4 は、MCFM に必要なこれらの機能を備えたモデルの 2 つの例です。ただし、マルチモーダル入力をサポートする GPT-4 の方が適しています。
API プラットフォームには、API の保存と API 開発者または所有者の管理という 2 つの主な機能があります。 API プラットフォームには、各 API ドキュメントの 5 つの側面を含む統合 API ドキュメント テンプレートがあります。
API 記述例: ファイルを開く
<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>
API セレクターは、タスクに最適な API プラットフォームを識別し、そこから選択するように設計されています。要件 API。意味的に関連する API を取得することで、API プラットフォームが持つ可能性のある大量の API を減らすことができます。 API セレクターはモジュール戦略を使用して、関連する API をすばやく見つけることができます。
モジュール戦略とは、ドメインに基づいて API を特定のパッケージまたはモジュールに編成する方法を指します。各モジュールは、ビジュアル モデル、数学、特定のソフトウェア、物理機器などの特定の領域に対応します。この戦略を使用することで、API セレクターは、MCFM が理解するミッション要件とソリューションの概要に適合する関連 API を迅速に見つけることができます。このアプローチは、API 選択プロセスを簡素化し、意味的に関連する API を API プラットフォームから簡単に取得できるようにします。
アクション エグゼキュータは、アクション コードを実行するように設計されています。 AI は、アクション エグゼキューターを使用して、単純な HTTP リクエストから、複数の入力パラメーターを必要とする複雑なアルゴリズムや AI モデルに至るまで、さまざまな API を実行します。
アクション実行者には、精度と信頼性を向上させ、生成されたコードの結果が人間によって指定されたタスクを満たしているかどうかを確認するための検証メカニズムも必要です。
TaskMatrix.AI は RLHF を活用して MCFM と API セレクターを強化し、複雑なタスクのパフォーマンスを向上させます。
RLHF は、API フィードバックに基づいてトレーニングされた報酬モデルを使用して、API セレクターを最適化するために特に使用されます:
これにより、特定の API を使用するために最も最適化された方法で API ドキュメントを作成できるようになります。
TaskMatrix. AI はどのようなタスクの解決に役立つでしょうか?
TaskMatrix. AI は、基礎となるモデル、クラウド サービス、ロボティクス、モノのインターネットの継続的な開発と組み合わせることで、生産性と創造性が向上した未来の世界を生み出す可能性を秘めています。
MCFM のマルチモーダル特性に基づいて、TaskMatrix.AI は視覚化タスクを実行し、言語と画像を入力として受け取ることができます。実行できる視覚的なタスクの一部を以下の図に示します。TaskMatrix.AI が VisualChatGPT 上にどのように構築され、VQA タスクをより適切に処理できるかを示しています。
#画像内のオブジェクトを削除または置換できる画像編集は、TaskMatrix.AI を通じて行うこともできます。画像処理技術またはコンピューター アルゴリズムの画像からスケッチ/深度/ヘッド/ラインを使用して、画像をスケッチ、深度、全体的なネストされたエッジ検出または線に変換できます。 Sketch/Depth/Hed/Line-to-Image は上記の逆で、指定されたオプションに基づいて画像を生成します。
下の画像は、3 つの API 呼び出し (画像 Q&A、画像キャプション、画像内のオブジェクトの置換) を使用して、ソリューション アウトライン上で TaskMatrix.AI がどのように定義され、実行されるかの例を示しています。
TaskMatrix.AI のもう 1 つの使用例は、他のモデルの文字制限を取り除くために大規模なマルチモーダル (画像とテキスト) コンテンツを作成することです。
以下の例では、TaskMatrix.AI がユーザーから高レベルの指示を受け取り、適切な応答を生成する様子がわかります。
TaskMatrix.AI は、音声を通じて受け取ったユーザーの指示を理解し、タスクを自動化することで、オフィスの作業負荷を簡単に軽減できます。さらに、大規模なトレーニングなしで複雑なソフトウェアを使用できるため、従業員はより緊急性の高いタスクに集中できます。
以下の例は、PowerPoint スライドの作成時に、TaskMatrix.AI と別の API を使用する誰かとの間の会話を示しています。
TaskMatrix.AI はスマート ホーム オートメーションのように機能し、家のすべてのデバイスと通信し、リンクとして機能できます。それらの間の中央接続点。下の画像は、社内のロボット ソフトウェアとハードウェアを使用して日常のタスクを完了する人間と TaskMatrix.AI との会話を示しています。
さらに、TaskMatrix.AI は他の多くのシナリオでも使用できます。唯一の要件は、メタバースや Web3 へのアクセスなどの API を利用できることです。
TaskMatrix.AI には、対処し対処する必要のある欠点と制限がまだ数多くあります。たとえば、次のとおりです。 #pairs を作成する必要があります。さまざまなタスクとさまざまな入力を処理し、人間のフィードバックから学習し、常識的な推論を使用して最高の品質でタスクを完了できる基礎となるモデル。 TaskMatrix.AI に必要なモダリティの最小限のセットを決定し、それをトレーニングすることは依然として困難です。
以上がTaskMatrix.AIの解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。