復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。
最近、OpenAI のビデオ生成モデル Sora が人気となり、生成 AI モデルのマルチモーダル機能が再び注目を集めています。
実世界は本質的にマルチモーダルであり、生物は視覚、言語、聴覚、触覚などのさまざまなチャネルを通じて情報を感知し、交換します。マルチモーダル システム開発の有望な方向性の 1 つは、LLM のマルチモーダル認識機能を強化することです。これには、主にマルチモーダル エンコーダーと言語モデルの統合が含まれます。これにより、エンコーダーがさまざまなモダリティにわたって情報を処理し、LLM のテキスト処理能力を活用して一貫した応答を生成できるようになります。
ただし、この戦略はテキスト生成にのみ適用され、マルチモーダル出力には適用されません。一部の先駆的な研究では、言語モデルにおけるマルチモーダルな理解と生成の達成において大きな進歩を遂げていますが、これらのモデルは画像や音声などの単一の非テキスト モダリティに限定されています。
上記の問題を解決するために、復旦大学の Qiu Xipeng のチームは、マルチモーダル アート プロジェクション (MAP) および上海人工知能研究所の研究者とともに、マルチモーダル言語モデルを提案しました。 AnyGPT と呼ばれるこのモデルは、モダリティの任意の組み合わせでさまざまなモダリティの内容を理解し、推論することができます。具体的には、AnyGPT はテキスト、音声、画像、音楽などの複数のモダリティが絡み合った命令を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。
たとえば、音声プロンプトが与えられると、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。
テキスト画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。
- #論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
- プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/
#メソッドの紹介
AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。
あらゆるモダリティからあらゆるモダリティへの生成タスクを完了するために、本研究は均一に学習できる包括的なフレームワークを提案します。以下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されます。
- マルチモーダル トークナイザー
- バックボーンとしてのマルチモーダルネットワークの言語モデル
- マルチモーダル デトークナイザー
その中で、トークナイザーは連続的な非テキスト モダリティを離散トークンに変換し、その後、それらをマルチモーダル インターリーブ シーケンスに配置します。次に、言語モデルは、次のトークン予測トレーニング ターゲットを使用してトレーニングされます。推論中、マルチモーダル トークンは、関連するデトークナイザーによってデコードされて元の表現に戻されます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。
AnyGPT は、現在の大規模言語モデル (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データレベルの前処理に完全に依存し、新しい言語を追加するのと同じように、新しいモダリティを LLM にシームレスに統合できます。
この研究における主な課題は、マルチモーダル インターリーブ命令追跡データが欠如していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、最初の大規模な「任意対任意」マルチモーダル命令データ セットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティと複雑に絡み合う 108k のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダルの入力と出力のあらゆる組み合わせを処理できるようになります。
これらのデータは通常、正確に表現するために大量のビットを必要とし、結果として長いシーケンスになります。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルでは特に要求が厳しくなります。 . レベルが上がりました。この問題を解決するために、本研究では意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しています。まず、言語モデルは、意味レベルで融合および調整されたコンテンツを生成するという役割を果たします。次に、非自己回帰モデルは、マルチモーダル セマンティック トークンを知覚レベルで忠実度の高いマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスをとります。
実験
実験結果は、AnyGPT がすべてのモダリティで専用モデルと同等のパフォーマンスを達成しながら、任意のモダリティ間の対話タスクを完了できることを示し、離散表現が言語モデル内の複数のモダリティを効果的かつ便利に統合できることを証明しています。
この研究では、すべてのモダリティにわたるマルチモーダルの理解と生成タスクをカバーする、事前トレーニングされたベース AnyGPT の基本機能を評価します。この評価は、事前トレーニング プロセス中に異なるモダリティ間の一貫性をテストすることを目的としています。具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクがテストされます (X は画像、音楽、音声)。
実際のシナリオをシミュレートするために、すべての評価はゼロサンプル モードで実行されます。これは、AnyGPT が評価プロセス中にダウンストリーム トレーニング サンプルの微調整や事前トレーニングを行わないことを意味します。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。
評価結果は、AnyGPT が一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダルの理解および生成タスクにおいて賞賛に値するパフォーマンスを達成することを示しています。
#画像
この研究では、画像記述タスクにおける AnyGPT の画像理解能力を評価しました。表 2 に示します。
#テキストから画像への生成タスクの結果を表 3 に示します。
音声この研究では、LibriSpeech データセットのテストサブセットの単語誤り率を計算しました。 (WER) を使用して、自動音声認識 (ASR) タスクにおける AnyGPT のパフォーマンスを評価し、Wav2vec 2.0 および Whisper Large V2 をベースラインとして使用しました。評価結果を表 5 に示します。 #######################################音楽##########
興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。
以上が復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









暗号通貨の人気により、仮想通貨取引プラットフォームが登場しています。世界の上位10の仮想通貨取引プラットフォームは、トランザクションの量と市場シェアに従って次のようにランク付けされています:Binance、Coinbase、FTX、Kucoin、Crypto.com、Kraken、Huobi、Gate.io、Bitfinex、Gemini。これらのプラットフォームは、幅広い暗号通貨の選択から、さまざまなレベルのトレーダーに適したデリバティブ取引に至るまで、幅広いサービスを提供しています。

ゴマのオープンエクスチェンジを中国語に調整する方法は?このチュートリアルでは、コンピューターとAndroidの携帯電話の詳細な手順、予備的な準備から運用プロセスまで、そして一般的な問題を解決するために、セサミのオープン交換インターフェイスを中国に簡単に切り替え、取引プラットフォームをすばやく開始するのに役立ちます。

安全で信頼できるデジタル通貨プラットフォーム:1。OKX、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10仮想通貨取引プラットフォーム2025:1。OKX、2。BINANCE、3。GATE.IO、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

上位10の暗号通貨取引プラットフォームには、1。Okx、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10仮想通貨取引アプリのランキング:1。OKX、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

推奨される安全な仮想通貨ソフトウェアアプリ:1。Okx、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

C35の計算は、本質的に組み合わせ数学であり、5つの要素のうち3つから選択された組み合わせの数を表します。計算式はC53 = 5です! /(3! * 2!)。これは、ループで直接計算して効率を向上させ、オーバーフローを避けることができます。さらに、組み合わせの性質を理解し、効率的な計算方法をマスターすることは、確率統計、暗号化、アルゴリズム設計などの分野で多くの問題を解決するために重要です。
