最強の組み合わせ:HuggingFace ChatGPT——
HuggingGPT、登場です!
「下の写真にはどんな動物がいますか?そしてそれぞれの種類が何匹いますか?」などの AI タスクを与えるだけです。
どの AI モデルが必要であるかを自動的に分析し、HuggingFace で対応するモデルを直接呼び出して実行して完了するのに役立ちます。
#プロセス全体で、必要なのは自然言語で要件を出力することだけです。
浙江大学とマイクロソフト リサーチ アジアの協力によるこの成果は、リリースされるやいなや人気を博しました。
NVIDIA AI 研究科学者 Jim Fan は次のように直接言いました:
これは私が今週読んだ中で最も興味深い論文です。その考え方は「Everything App」(すべてがアプリであり、情報はAIによって直接読み取られる)に非常に近い。
そして、あるネチズンは「太ももを直接平手打ち」しました:
これは ChatGPT の「パッケージ転送マン」ではないでしょうか?
AI は急速に進化し、私たちに食べられるものを残しています...
## # それで、具体的に何が起こっているのでしょうか? HuggingGPT: AI モデル「Tiao Bao Xia」実際、この組み合わせが単なる「Tiao Bao Xia」である場合、パターンが小さすぎます。 その本当の意味はAGIです。 著者が述べたように、AGI への重要なステップは、さまざまなドメインとモードで複雑な AI タスクを解決できる機能です。 私たちの現在の結果はこれにはまだ程遠いです - 多くのモデルは特定のタスクしかうまく実行できません。 しかし、言語理解、生成、対話、および推論における大規模言語モデル LLM のパフォーマンスを見て、著者は次のように考えました: これらは、既存のすべての AI モデルを管理するための中間コントローラーとして使用できます。 「みんなの力を結集して」複雑なAI課題を解決します。 このシステムでは、言語が普遍的なインターフェースです。 そこで、HuggingGPT が誕生しました。 そのエンジニアリング プロセスは 4 つのステップに分かれています: まず、タスクの計画です。 ChatGPT は、ユーザーのニーズを解析してタスク リストを作成し、実行シーケンスとタスク間のリソースの依存関係を決定します。 次に、モデルの選択です。 ChatGPT は、HuggingFace でホストされている各エキスパート モデルの説明に基づいて、適切なモデルをタスクに割り当てます。 その後、タスクが実行されます。ハイブリッド エンドポイント上で選択されたエキスパート モデル (ローカル推論と HuggingFace 推論を含む) は、タスク シーケンスと依存関係に従って割り当てられたタスクを実行し、実行情報と結果を ChatGPT に渡します。 最後に結果を出力します。 ChatGPTは各モデルの実行過程のログや推論結果をまとめて最終的な出力を行います。 以下に示すように。 次のようなリクエストをするとします: 本を読んでいる女の子の写真を生成してください。彼女の姿勢は example.jpg の男の子と同じです。次に、あなたの声を使って新しい画像を説明します。 HuggingGPT がそれを 6 つのサブタスクに分解し、それぞれ実行するモデルを選択して最終結果を取得する様子がわかります。 具体的な効果は何ですか? 著者は、OpenAI API を通じて公開されている 2 つの亜種である gpt-3.5-turbo と text-davinci-003 を使用して実際の測定を行いました。 下の図に示すように: タスク間にリソースの依存関係がある場合、HuggingGPT はユーザーの抽象的な要求に従って特定のタスクを正しく解析し、イメージ変換を完了します。 オーディオおよびビデオのタスクでは、2 つのモデルをそれぞれ並列および直列で実行することにより、モデル間の連携を組織化する機能も示します。 『宇宙を歩く宇宙飛行士』の吹き替え作品。 #さらに、複数のユーザーからの入力リソースを統合して、次の 3 つの写真にシマウマが何本あるかを数えるなど、単純な推論を実行することもできます。 。一言で要約すると、HuggingGPT はさまざまな形の複雑なタスクで優れたパフォーマンスを発揮します。
現在、HuggingGPT の論文が公開され、プロジェクトは建設中です。コードの一部のみがオープンソース化されており、 1.4k スター。
プロジェクト名がとても興味深いことに気づきましたが、HuggingGPT ではなく、アイアンマンの AI 執事である JARVIS と呼ばれています。
一部の人々は、このアイデアが 3 月にリリースされたばかりの Visual ChatGPT と非常によく似ていることに気づきました。後者の HuggingGPT は、主に呼び出し可能なモデルがさらに拡張され、数量とタイプが含まれます。
#はい、実際、これらはすべて、Microsoft Asia Research Institute という共通の著者を持っています。
具体的には、Visual ChatGPT の筆頭著者は MSRA 上級研究員の Wu Chenfei であり、責任著者は MSRA の主任研究員 Duan Nan です。
HuggingGPT には 2 人の共著者が含まれています:
Shen Yongliang 氏、浙江大学出身で、MSRA でのインターンシップ中にこの研究を完了;
Song Kaitao 氏、MSRA 研究者。
責任著者は、浙江大学コンピューターサイエンス学部教授のZhuang Yueting氏です。
最後に、ネチズンはこの強力な新しいツールの誕生に非常に興奮しました。人間 すべてのAIの総司令官を生み出す。
AGI は LLM ではなく、「仲介」LLM である可能性があると考える人もいます。相互に関連するモデル。
ということで、「セミAGI」の時代が始まったのでしょうか?
論文アドレス: https://www.php.cn/link/1ecdec353419f6d7e30857d00d0312d1
プロジェクトリンク: https://www.php.cn/link/859555c74e9afd45ab771c615c1e49a6
参考リンク: https://www.php.cn/ link/62d2b7ba91f34c0ac08aa11c359a8d2c
以上がHuggingGPT は人気があります: ChatGPT はすべての AI モデルを制御し、人々が AI タスクを完了するのを自動的に支援します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。