チャットからプログラミング、さまざまなプラグインのサポートに至るまで、強力な ChatGPT は長い間、単なる会話アシスタントではなく、AI の世界の「管理」を目指してきました。
3 月 23 日、OpenAI は、ChatGPT が有名な科学工学成果物 Wolfram Alpha などのさまざまなサードパーティ プラグインのサポートを開始したと発表しました。このアーティファクトのおかげで、もともと同じ檻の中のニワトリとウサギだった ChatGPT は、科学と工学のトップの学生になりました。 Twitter 上の多くの人は、ChatGPT プラグインのリリースは 2008 年の iPhone App Store のリリースに少し似ているとコメントしました。これは、AI チャットボットが進化の新たな段階、つまり「メタアプリ」段階に入りつつあることも意味します。 ######################4 4月上旬、浙江大学とマイクロソフト・アジア・リサーチの研究者らは「HuggingGPT」と呼ばれる重要な手法を提案した。上記ルートの大規模なデモンストレーションとみなすことができます。 HuggingGPT を使用すると、ChatGPT がコントローラー (管理層として理解できます) として機能できるようになり、他の多数の AI モデルを管理して、いくつかの複雑な AI タスクを解決できます。具体的には、HuggingGPT は、ユーザーのリクエストを受信したときに ChatGPT をタスク計画に使用し、HuggingFace で利用可能な機能の説明に基づいてモデルを選択し、選択された AI モデルで各サブタスクを実行し、実行結果に基づいて応答を集計します。
このアプローチは、処理できるモダリティが限られているなど、現在の大規模モデルの多くの欠点を補うことができますが、いくつかの側面ではプロのモデルほど優れていません。
HuggingFace モデルも予定されていますが、結局のところ、HuggingGPT は HuggingFace の公式製品ではありません。たった今、HuggingFace がついに行動を起こしました。
HuggingGPT と同様に、新しい API、HuggingFace Transformers Agents をリリースしました。トランスフォーマー エージェントを使用すると、100,000 を超えるハグ フェイス モデルを制御して、さまざまなマルチモーダル タスクを完了できます。
たとえば、以下の例では、トランスフォーマー エージェントに絵に何が描かれているかを声に出して説明してもらいたいとします。あなたの指示 (画像の内容を読み上げます) を理解しようとして、それをプロンプトに変換し、指定されたタスクを完了するために適切なモデルとツールを選択します。
NVIDIA AI 科学者 Jim Fan 氏は次のようにコメントしました: ついにこの日が来ました。これは「Everything APP」に向けた重要な一歩です。
ただし、これは AutoGPT の自動反復と同じではないと言う人もいます。プロンプトを作成し、ツールのこれらの手順を手動で指定するには、Master of All Things APP には時期尚早です。
トランスフォーマー エージェントのアドレス: https://huggingface.co/docs/transformers/transformers_agents
トランスフォーマーエージェントの使い方?
リリースと同時に、HuggingFace は Colab アドレスをリリースしました。誰でも試すことができます:https://huggingface co/docs/transformers/en/transformers_agents
つまり、トランスフォーマー上に自然言語 API を提供します。まず、厳選されたツールのセットを定義し、エージェントを定義します。は自然言語を解釈し、これらのツールを使用するように設計されています。
さらに、Transformers Agent は設計により拡張可能です。 チームは、エージェントに権限を与えることができる一連のツールを特定しました。統合ツールのリストは次のとおりです: これらのツールは次のとおりです。トランスフォーマーに統合されるか、手動で使用できます: ユーザーは、次のようにツールのコードを Hugging Face Space またはモデル リポジトリにプッシュして、エージェントを通じてツールを直接利用することもできます。 #画像の説明を生成します:
<code>from transformers import load_tooltool = load_tool("text-to-speech")audio = tool("This is a text to speech tool")</code>
<code>agent.run("Caption the following image", image=image)</code>
<code>agent.run("Read the following text out loud", text=text)</code>
#出力:
#tts_example音声:
00:0000:01##ファイルの読み取り:
agent.run を実行する前に、大規模言語モデル エージェントをインスタンス化する必要があります。 OpenAI モデルと、BigCode や OpenAssistant などのオープンソース モデルをサポートします。
最初に、エージェント アドオンをインストールして、デフォルトの依存関係をすべてインストールしてください:<code>pip install transformers[agents]</code>
<code>pip install openaifrom transformers import OpenAiAgentagent = OpenAiAgent(model="text-davinci-003", api_key="<your_api_key>")</code>
<code>from huggingface_hub import loginlogin("<YOUR_TOKEN>")</code>
<code>from transformers import HfAgentStarcoderagent = HfAgent("https://api-inference.huggingface.co/models/bigcode/starcoder")StarcoderBaseagent = HfAgent("https://api-inference.huggingface.co/models/bigcode/starcoderbase")OpenAssistantagent = HfAgent(url_endpoint="https://api-inference.huggingface.co/models/OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5")</code>
接下来,我们了解一下 Transformers Agents 提供的两个 API:
单次执行
单次执行是在使用智能体的 run () 方法时:
<code>agent.run("Draw me a picture of rivers and lakes.")</code>
它会自动选择适合要执行的任务的工具并适当地执行,可在同一指令中执行一项或多项任务(不过指令越复杂,智能体失败的可能性就越大)。
<code>agent.run("Draw me a picture of the sea then transform the picture to add an island")</code>
每个 run () 操作都是独立的,因此可以针对不同的任务连续运行多次。如果想在执行过程中保持状态或将非文本对象传递给智能体,用户可以通过指定希望智能体使用的变量来实现。例如,用户可以生成第一张河流和湖泊图像,并通过执行以下操作要求模型更新该图片以添加一个岛屿:
<code>picture = agent.run("Generate a picture of rivers and lakes.")updated_picture = agent.run("Transform the image in picture to add an island to it.", picture=picture)</code>
当模型无法理解用户的请求并混合使用工具时,这会很有帮助。一个例子是:
<code>agent.run("Draw me the picture of a capybara swimming in the sea")</code>
在这里,模型可以用两种方式解释:
如果用户想强制执行第一种情况,可以通过将 prompt 作为参数传递给它来实现:
<code>agent.run("Draw me a picture of the prompt", prompt="a capybara swimming in the sea")</code>
基于聊天的执行
智能体还有一种基于聊天的方法:
<code>agent.chat("Generate a picture of rivers and lakes")</code>
<code>agent.chat ("Transform the picture so that there is a rock in there")</code>
这是一种可以跨指令保持状态时。它更适合实验,但在单个指令上表现更好,而 run () 方法更擅长处理复杂指令。如果用户想传递非文本类型或特定 prompt,该方法也可以接受参数。
以上が100,000 を超える AI モデルをワンクリックで制御、HuggingFace は ChatGPT のようなモデル用の「APP Store」を作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。