100,000 を超える AI モデルをワンクリックで制御、HuggingFace は ChatGPT のようなモデル用の「APP Store」を作成します

WBOY
リリース: 2023-05-16 09:40:06
転載
1243 人が閲覧しました

チャットからプログラミング、さまざまなプラグインのサポートに至るまで、強力な ChatGPT は長い間、単なる会話アシスタントではなく、AI の世界の「管理」を目指してきました。

3 月 23 日、OpenAI は、ChatGPT が有名な科学工学成果物 Wolfram Alpha などのさまざまなサードパーティ プラグインのサポートを開始したと発表しました。このアーティファクトのおかげで、もともと同じ檻の中のニワトリとウサギだった ChatGPT は、科学と工学のトップの学生になりました。 Twitter 上の多くの人は、ChatGPT プラグインのリリースは 2008 年の iPhone App Store のリリースに少し似ているとコメントしました。これは、AI チャットボットが進化の新たな段階、つまり「メタアプリ」段階に入りつつあることも意味します。 ######################4 4月上旬、浙江大学とマイクロソフト・アジア・リサーチの研究者らは「HuggingGPT」と呼ばれる重要な手法を提案した。上記ルー​​トの大規模なデモンストレーションとみなすことができます。 HuggingGPT を使用すると、ChatGPT がコントローラー (管理層として理解できます) として機能できるようになり、他の多数の AI モデルを管理して、いくつかの複雑な AI タスクを解決できます。具体的には、HuggingGPT は、ユーザーのリクエストを受信したときに ChatGPT をタスク計画に使用し、HuggingFace で利用可能な機能の説明に基づいてモデルを選択し、選択された AI モデルで各サブタスクを実行し、実行結果に基づいて応答を集計します。

このアプローチは、処理できるモダリティが限られているなど、現在の大規模モデルの多くの欠点を補うことができますが、いくつかの側面ではプロのモデルほど優れていません。 一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

HuggingFace モデルも予定されていますが、結局のところ、HuggingGPT は HuggingFace の公式製品ではありません。たった今、HuggingFace がついに行動を起こしました。

HuggingGPT と同様に、新しい API、HuggingFace Transformers Agents をリリースしました。トランスフォーマー エージェントを使用すると、100,000 を超えるハグ フェイス モデルを制御して、さまざまなマルチモーダル タスクを完了できます。

たとえば、以下の例では、トランスフォーマー エージェントに絵に何が描かれているかを声に出して説明してもらいたいとします。あなたの指示 (画像の内容を読み上げます) を理解しようとして、それをプロンプトに変換し、指定されたタスクを完了するために適切なモデルとツールを選択します。 一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

NVIDIA AI 科学者 Jim Fan 氏は次のようにコメントしました: ついにこの日が来ました。これは「Everything APP」に向けた重要な一歩です。

一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

ただし、これは AutoGPT の自動反復と同じではないと言う人もいます。プロンプトを作成し、ツールのこれらの手順を手動で指定するには、Master of All Things APP には時期尚早です。

一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

トランスフォーマー エージェントのアドレス: https://huggingface.co/docs/transformers/transformers_agents

トランスフォーマーエージェントの使い方? 一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

リリースと同時に、HuggingFace は Colab アドレスをリリースしました。誰でも試すことができます:

https://huggingface co/docs/transformers/en/transformers_agents

つまり、トランスフォーマー上に自然言語 API を提供します。まず、厳選されたツールのセットを定義し、エージェントを定義します。は自然言語を解釈し、これらのツールを使用するように設計されています。

さらに、Transformers Agent は設計により拡張可能です。

チームは、エージェントに権限を与えることができる一連のツールを特定しました。統合ツールのリストは次のとおりです:

  • ドキュメント Q&A:画像 ドキュメントの形式 (PDF など)、ドキュメントに関する質問に回答 (ドーナツ)
  • テキスト Q&A: 長いテキストと質問が与えられ、テキスト内の質問に回答します (Flan-T5) )
  • 無条件の画像キャプション: 画像にキャプションを追加します (BLIP)
  • 画像 Q&A: 画像が与えられ、この画像に関する質問に答えます問題 (VILT)
  • 画像セグメンテーション: 画像とプロンプトを指定して、プロンプトのセグメンテーション マスク (CLIPSeg) を出力します。
  • 音声テキストテキストへ: 人の話の録音が与えられ、そのスピーチをテキストに書き起こします (ウィスパー)
  • テキストから音声へ: テキストを音声に変換します (SpeechT5)
  • ゼロショット テキスト分類: テキストとタグのリストが与えられた場合、そのテキストがどのタグに最も対応するかを判断します (BART)
  • テキストの概要: 1 つまたは複数のテキストに要約します。数文 長いテキスト (BART)
  • 翻訳: テキストを特定の言語に翻訳します (NLLB)

これらのツールは次のとおりです。トランスフォーマーに統合されるか、手動で使用できます:

<code>from transformers import load_tooltool = load_tool("text-to-speech")audio = tool("This is a text to speech tool")</code>
ログイン後にコピー

ユーザーは、次のようにツールのコードを Hugging Face Space またはモデル リポジトリにプッシュして、エージェントを通じてツールを直接利用することもできます。

  • #テキスト ダウンローダー: Web URL からテキストをダウンロード
  • ##テキストから画像へ: 安定した拡散を使用して、プロンプトに従って画像を生成します
  • 画像変換: 初期画像とプロンプトを指定して、指示 pix2pix 安定拡散を使用して画像を変更します。
  • テキストからビデオへ: プロンプトに従って生成 小さなビデオ、damo-vilab を使用
  • ##具体的なゲームプレイについては、まず HuggingFace の例をいくつか見てみましょう:

#画像の説明を生成します:

<code>agent.run("Caption the following image", image=image)</code>
ログイン後にコピー

一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

テキストを読む:

<code>agent.run("Read the following text out loud", text=text)</code>
ログイン後にコピー
入力: ビーバーが泳いでいる水

#出力:

#tts_example音声:

00:0000:01##ファイルの読み取り:

agent.run を実行する前に、大規模言語モデル エージェントをインスタンス化する必要があります。 OpenAI モデルと、BigCode や OpenAssistant などのオープンソース モデルをサポートします。

一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」

最初に、エージェント アドオンをインストールして、デフォルトの依存関係をすべてインストールしてください:

<code>pip install transformers[agents]</code>
ログイン後にコピー

openAI モデルを使用するには、以下をインストールする必要があります。 「OpenAiAgent」をインスタンス化した後の依存関係 openai:

<code>pip install openaifrom transformers import OpenAiAgentagent = OpenAiAgent(model="text-davinci-003", api_key="<your_api_key>")</code>
ログイン後にコピー
#BigCode または OpenAssistant を使用するには、まずログインして推論 API にアクセスします:

<code>from huggingface_hub import loginlogin("<YOUR_TOKEN>")</code>
ログイン後にコピー
その後、エージェントをインスタンス化します:

<code>from transformers import HfAgentStarcoderagent = HfAgent("https://api-inference.huggingface.co/models/bigcode/starcoder")StarcoderBaseagent = HfAgent("https://api-inference.huggingface.co/models/bigcode/starcoderbase")OpenAssistantagent = HfAgent(url_endpoint="https://api-inference.huggingface.co/models/OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5")</code>
ログイン後にコピー
ユーザーがこのモデル (または別のモデル) に対して独自の推論エンドポイントを持っている場合は、上記の URL を独自の URL エンドポイントに置き換えることができます。

接下来,我们了解一下 Transformers Agents 提供的两个 API:

单次执行

单次执行是在使用智能体的 run () 方法时:

<code>agent.run("Draw me a picture of rivers and lakes.")</code>
ログイン後にコピー

它会自动选择适合要执行的任务的工具并适当地执行,可在同一指令中执行一项或多项任务(不过指令越复杂,智能体失败的可能性就越大)。

<code>agent.run("Draw me a picture of the sea then transform the picture to add an island")</code>
ログイン後にコピー

每个 run () 操作都是独立的,因此可以针对不同的任务连续运行多次。如果想在执行过程中保持状态或将非文本对象传递给智能体,用户可以通过指定希望智能体使用的变量来实现。例如,用户可以生成第一张河流和湖泊图像,并通过执行以下操作要求模型更新该图片以添加一个岛屿:

<code>picture = agent.run("Generate a picture of rivers and lakes.")updated_picture = agent.run("Transform the image in picture to add an island to it.", picture=picture)</code>
ログイン後にコピー

当模型无法理解用户的请求并混合使用工具时,这会很有帮助。一个例子是:

<code>agent.run("Draw me the picture of a capybara swimming in the sea")</code>
ログイン後にコピー

在这里,模型可以用两种方式解释:

  • 让 text-to-image 水豚在海里游泳
  • 或者,生成 text-to-image 水豚,然后使用 image-transformation 工具让它在海里游泳

如果用户想强制执行第一种情况,可以通过将 prompt 作为参数传递给它来实现:

<code>agent.run("Draw me a picture of the prompt", prompt="a capybara swimming in the sea")</code>
ログイン後にコピー

基于聊天的执行 

智能体还有一种基于聊天的方法:

<code>agent.chat("Generate a picture of rivers and lakes")</code>
ログイン後にコピー
<code>agent.chat ("Transform the picture so that there is a rock in there")</code>
ログイン後にコピー

这是一种可以跨指令保持状态时。它更适合实验,但在单个指令上表现更好,而 run () 方法更擅长处理复杂指令。如果用户想传递非文本类型或特定 prompt,该方法也可以接受参数。

以上が100,000 を超える AI モデルをワンクリックで制御、HuggingFace は ChatGPT のようなモデル用の「APP Store」を作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート