復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。-AI-php.cn

ホームページ

テクノロジー周辺機器

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 am 09:19 AM

モデル電車配置

最近、OpenAI のビデオ生成モデル Sora が人気となり、生成 AI モデルのマルチモーダル機能が再び注目を集めています。

実世界は本質的にマルチモーダルであり、生物は視覚、言語、聴覚、触覚などのさまざまなチャネルを通じて情報を感知し、交換します。マルチモーダルシステム開発の有望な方向性の 1 つは、LLM のマルチモーダル認識機能を強化することです。これには、主にマルチモーダルエンコーダーと言語モデルの統合が含まれます。これにより、エンコーダーがさまざまなモダリティにわたって情報を処理し、LLM のテキスト処理能力を活用して一貫した応答を生成できるようになります。

ただし、この戦略はテキスト生成にのみ適用され、マルチモーダル出力には適用されません。一部の先駆的な研究では、言語モデルにおけるマルチモーダルな理解と生成の達成において大きな進歩を遂げていますが、これらのモデルは画像や音声などの単一の非テキストモダリティに限定されています。

上記の問題を解決するために、復旦大学の Qiu Xipeng のチームは、マルチモーダルアートプロジェクション (MAP) および上海人工知能研究所の研究者とともに、マルチモーダル言語モデルを提案しました。 AnyGPT と呼ばれるこのモデルは、モダリティの任意の組み合わせでさまざまなモダリティの内容を理解し、推論することができます。具体的には、AnyGPT はテキスト、音声、画像、音楽などの複数のモダリティが絡み合った命令を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たとえば、音声プロンプトが与えられると、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

テキスト画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

#論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/

#メソッドの紹介

AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。

あらゆるモダリティからあらゆるモダリティへの生成タスクを完了するために、本研究は均一に学習できる包括的なフレームワークを提案します。以下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されます。

マルチモーダルトークナイザー
バックボーンとしてのマルチモーダルネットワークの言語モデル
マルチモーダルデトークナイザー

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

その中で、トークナイザーは連続的な非テキストモダリティを離散トークンに変換し、その後、それらをマルチモーダルインターリーブシーケンスに配置します。次に、言語モデルは、次のトークン予測トレーニングターゲットを使用してトレーニングされます。推論中、マルチモーダルトークンは、関連するデトークナイザーによってデコードされて元の表現に戻されます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。

AnyGPT は、現在の大規模言語モデル (LLM) アーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングできます。代わりに、データレベルの前処理に完全に依存し、新しい言語を追加するのと同じように、新しいモダリティを LLM にシームレスに統合できます。

この研究における主な課題は、マルチモーダルインターリーブ命令追跡データが欠如していることです。マルチモーダルアライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、最初の大規模な「任意対任意」マルチモーダル命令データセットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティと複雑に絡み合う 108k のマルチターンダイアログサンプルで構成されており、モデルがマルチモーダルの入力と出力のあらゆる組み合わせを処理できるようになります。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

これらのデータは通常、正確に表現するために大量のビットを必要とし、結果として長いシーケンスになります。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルでは特に要求が厳しくなります。 . レベルが上がりました。この問題を解決するために、本研究では意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しています。まず、言語モデルは、意味レベルで融合および調整されたコンテンツを生成するという役割を果たします。次に、非自己回帰モデルは、マルチモーダルセマンティックトークンを知覚レベルで忠実度の高いマルチモーダルコンテンツに変換し、パフォーマンスと効率のバランスをとります。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

実験

実験結果は、AnyGPT がすべてのモダリティで専用モデルと同等のパフォーマンスを達成しながら、任意のモダリティ間の対話タスクを完了できることを示し、離散表現が言語モデル内の複数のモダリティを効果的かつ便利に統合できることを証明しています。

この研究では、すべてのモダリティにわたるマルチモーダルの理解と生成タスクをカバーする、事前トレーニングされたベース AnyGPT の基本機能を評価します。この評価は、事前トレーニングプロセス中に異なるモダリティ間の一貫性をテストすることを目的としています。具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクがテストされます (X は画像、音楽、音声)。

実際のシナリオをシミュレートするために、すべての評価はゼロサンプルモードで実行されます。これは、AnyGPT が評価プロセス中にダウンストリームトレーニングサンプルの微調整や事前トレーニングを行わないことを意味します。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。

評価結果は、AnyGPT が一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダルの理解および生成タスクにおいて賞賛に値するパフォーマンスを達成することを示しています。

#画像

この研究では、画像記述タスクにおける AnyGPT の画像理解能力を評価しました。表 2 に示します。

#テキストから画像への生成タスクの結果を表 3 に示します。

音声復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。この研究では、LibriSpeech データセットのテストサブセットの単語誤り率を計算しました。 (WER) を使用して、自動音声認識 (ASR) タスクにおける AnyGPT のパフォーマンスを評価し、Wav2vec 2.0 および Whisper Large V2 をベースラインとして使用しました。評価結果を表 5 に示します。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃音楽＃＃＃＃＃＃＃＃＃＃

##この研究では、CLAP_score スコアを客観的な指標として使用して、生成された音楽とテキストの説明の類似性を測定することにより、MusicCaps ベンチマークでの音楽理解および生成タスクにおける AnyGPT のパフォーマンスを評価しました。評価結果は表 6 に示されています。見せる。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

以上が復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7469

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界のトップ10の仮想通貨取引プラットフォームのトップ10のランキングは何ですか？ Feb 20, 2025 pm 02:15 PM

暗号通貨の人気により、仮想通貨取引プラットフォームが登場しています。世界の上位10の仮想通貨取引プラットフォームは、トランザクションの量と市場シェアに従って次のようにランク付けされています：Binance、Coinbase、FTX、Kucoin、Crypto.com、Kraken、Huobi、Gate.io、Bitfinex、Gemini。これらのプラットフォームは、幅広い暗号通貨の選択から、さまざまなレベルのトレーダーに適したデリバティブ取引に至るまで、幅広いサービスを提供しています。

ゴマのオープンエクスチェンジを中国語に調整する方法 Mar 04, 2025 pm 11:51 PM

ゴマのオープンエクスチェンジを中国語に調整する方法は？このチュートリアルでは、コンピューターとAndroidの携帯電話の詳細な手順、予備的な準備から運用プロセスまで、そして一般的な問題を解決するために、セサミのオープン交換インターフェイスを中国に簡単に切り替え、取引プラットフォームをすばやく開始するのに役立ちます。

安全で信頼できるデジタル通貨プラットフォームは何ですか？ Mar 17, 2025 pm 05:42 PM

安全で信頼できるデジタル通貨プラットフォーム：1。OKX、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10仮想通貨取引プラットフォーム2025暗号通貨取引アプリランキングトップ10 Mar 17, 2025 pm 05:54 PM

トップ10仮想通貨取引プラットフォーム2025：1。OKX、2。BINANCE、3。GATE.IO、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10の暗号通貨取引プラットフォーム、トップ10の推奨される通貨取引プラットフォームアプリ Mar 17, 2025 pm 06:03 PM

上位10の暗号通貨取引プラットフォームには、1。Okx、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10の仮想通貨トレーディングアプリのうち、トップ10の仮想通貨取引アプリのどれが最も信頼できますか？ Mar 19, 2025 pm 05:00 PM

トップ10仮想通貨取引アプリのランキング：1。OKX、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

推奨される安全な仮想通貨ソフトウェアアプリトップ10デジタル通貨取引アプリ2025ランキング Mar 17, 2025 pm 05:48 PM

推奨される安全な仮想通貨ソフトウェアアプリ：1。Okx、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

c-subscript 3 subscript 5 c-subscript 3 subscript 5アルゴリズムチュートリアルを計算する方法 Apr 03, 2025 pm 10:33 PM

C35の計算は、本質的に組み合わせ数学であり、5つの要素のうち3つから選択された組み合わせの数を表します。計算式はC53 = 5です！ /（3！ * 2！）。これは、ループで直接計算して効率を向上させ、オーバーフローを避けることができます。さらに、組み合わせの性質を理解し、効率的な計算方法をマスターすることは、確率統計、暗号化、アルゴリズム設計などの分野で多くの問題を解決するために重要です。

See all articles

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

#メソッドの紹介

実験

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック