Cambridge、Tencent AI Lab などが大規模言語モデル PandaGPT を提案しました: 1 つのモデルが 6 つのモダリティを統合します

WBOY
リリース: 2023-06-05 12:19:51
転載
803 人が閲覧しました

ケンブリッジ、NAIST、テンセント AI ラボの研究者らは最近、PandaGPT と呼ばれる研究結果を発表しました。これは、コマンド追従能力のためのクロスモダリティ技術を実現するために、異なるモダリティを持つ大規模な言語モデルを調整およびバインドする方法です。 PandaGPT は、詳細な画像説明の生成、ビデオからのストーリーの作成、音声に関する質問への回答などの複雑なタスクを実行できます。マルチモーダル入力を同時に受信し、それらのセマンティクスを自然に組み合わせることができます。

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

  • プロジェクトのホームページ: https://panda-gpt.github.io/
  • コード: https://github.com/yxuansu/PandaGPT
  • ##論文: http :/ /arxiv.org/abs/2305.16355
  • オンライン デモ表示: https://huggingface.co/spaces/GMFTBY/PandaGPT

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

##画像&ビデオ、テキスト、オーディオ、ヒートマップ、デプスマップを実現するには、IMU 読み取り、6 つのモードでのコマンド追従機能、PandaGPT は、ImageBind のマルチモーダル エンコーダーと Vicuna ラージ言語モデルを組み合わせています (上の図を参照)。

ImageBind のマルチモーダル エンコーダと Vicuna の大規模言語モデルの特徴空間を調整するために、PandaGPT は、LLaVa と Mini-GPT4 を組み合わせてリリースされた合計 160k のイメージベースの言語命令を使用します。データをトレーニングデータとして使用します。各トレーニング インスタンスは、画像と対応する一連のダイアログ ラウンドで構成されます。

ImageBind 自体のマルチモーダル位置合わせの性質の破壊を回避し、トレーニング コストを削減するために、PandaGPT は次のモジュールのみを更新しました:

ImageBind のエンコード結果に線形射影行列を追加し、ImageBind によって生成された表現を変換して Vicuna の入力シーケンスに挿入します;

  1. Vicuna のアテンション モジュール LoRA 重みに追加情報を追加しました。両者のパラメータの合計は、ビクーニャのパラメータの約 0.4% を占めます。トレーニング関数は、従来の言語モデリングの目的です。トレーニング プロセス中、モデル出力の対応する部分の重みのみが更新され、ユーザー入力部分は計算されないことに注意してください。トレーニング プロセス全体が 8×A100 (40G) GPU で完了するまでに約 7 時間かかります。
  2. 現在のバージョンの PandaGPT は、調整された画像とテキストのデータのみをトレーニングに使用しますが、ImageBind エンコーダーの 6 つのモーダル理解機能 (画像/ビデオ) を継承していることを強調する価値があります。 、テキスト、オーディオ、深度、ヒート マップ、IMU)とそれらの間の位置合わせプロパティにより、すべてのモダリティ間のクロスモーダル機能が可能になります。

実験では、著者は、画像/ビデオベースの質問と回答、画像/ビデオベースのクリエイティブライティング、視覚および聴覚情報ベースのさまざまなモダリティを理解する PandaGPT の能力を実証しました。推論など、いくつかの例を次に示します:

画像:

#########オーディオビデオ: #### #

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

#

他のマルチモーダル言語モデルと比較した場合、PandaGPT の最も優れた機能は、さまざまなモダリティからの情報を理解し、自然に組み合わせる能力です。

#ビデオオーディオ:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态


##画像音声:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态##概要

著者また、PandaGPT の現在多くの問題と将来の開発の方向性についてもまとめました。 PandaGPT は複数のモダリティとその組み合わせを処理する驚くべき能力を備えていますが、PandaGPT のパフォーマンスを大幅に向上させる方法はまだたくさんあります。

PandaGPT は、音声テキスト モダリティに ASR や TTS データを使用するなど、他のモーダル アライメント データを使用することで、画像以外のモダリティの理解をさらに向上させることができます。技術的な理解と指示に従う能力。
  1. テキスト以外のモードは埋め込みベクトルによってのみ表現されるため、言語モデルはテキスト以外のモデルの詳細な情報を理解できません。クロスモーダル アテンション メカニズムなどのきめ細かい特徴抽出に関するさらなる研究が、パフォーマンスの向上に役立つ可能性があります。
  2. PandaGPT では現在、テキスト以外のモーダル情報のみを入力として使用できます。将来的には、このモデルは AIGC 全体を同じモデルに統合する可能性があります。つまり、1 つのモデルで画像とビデオの生成、音声合成、テキスト生成などのタスクを同時に完了できます。
  3. マルチモーダル入力を組み合わせる能力を評価するには、新しいベンチマークが必要です。
  4. PandaGPT には、幻覚、毒性、固定観念など、既存の言語モデルによくある落とし穴がいくつかある可能性があります。
  5. 最後に、著者らは、PandaGPT は研究用のプロトタイプにすぎず、運用環境に直接適用するにはまだ十分ではないことを強調します。

以上がCambridge、Tencent AI Lab などが大規模言語モデル PandaGPT を提案しました: 1 つのモデルが 6 つのモダリティを統合しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート