Inhaltsverzeichnis
Einführung in die Methode
Experiment
Heim Technologie-Peripheriegeräte KI Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Mar 05, 2024 am 09:19 AM
模型 训练 排列

Vor kurzem ist das Videogenerierungsmodell Sora von OpenAI populär geworden, und die multimodalen Fähigkeiten generativer KI-Modelle haben erneut große Aufmerksamkeit erregt.

Die reale Welt ist von Natur aus multimodal, wobei Organismen Informationen über verschiedene Kanäle wahrnehmen und austauschen, darunter Sehen, Sprache, Ton und Berührung. Eine vielversprechende Richtung für die Entwicklung multimodaler Systeme besteht darin, die multimodalen Wahrnehmungsfähigkeiten von LLM zu verbessern, was hauptsächlich die Integration multimodaler Encoder mit Sprachmodellen beinhaltet, wodurch sie in die Lage versetzt werden, Informationen über verschiedene Modalitäten hinweg zu verarbeiten und die Textverarbeitungsfähigkeiten von LLM zu nutzen, um eine kohärente Antwort zu erzeugen.

Diese Strategie gilt jedoch nur für die Textgenerierung und deckt nicht die multimodale Ausgabe ab. Einige bahnbrechende Forschungen haben erhebliche Fortschritte bei der Erzielung eines multimodalen Verständnisses und der Generierung von Sprachmodellen erzielt, diese Modelle sind jedoch auf eine einzige Nicht-Text-Modalität wie Bild oder Audio beschränkt.

Um die oben genannten Probleme zu lösen, schlug das Qiu Xipeng-Team der Fudan-Universität zusammen mit Forschern von Multimodal Art Projection (MAP) und dem Shanghai Artificial Intelligence Laboratory ein multimodales Sprachmodell namens AnyGPT vor, das in jedem verwendet werden kann Modalkombinationen werden verwendet, um den Inhalt verschiedener Modalitäten zu verstehen und zu begründen. Insbesondere kann AnyGPT Anweisungen verstehen, die mit mehreren Modalitäten wie Text, Sprache, Bildern und Musik verflochten sind, und kann geschickt geeignete multimodale Kombinationen auswählen, um darauf zu reagieren.

Beispielsweise kann AnyGPT bei einer Sprachaufforderung eine umfassende Antwort in Form von Sprache, Bild und Musik generieren:

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Bei einer Aufforderung in Form von Text + Bild kann AnyGPT generieren Musik entsprechend den Prompt-Anforderungen:

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.


  • Papieradresse: https://arxiv.org/pdf/2402.12226.pdf
  • Projekthomepage: https ://junzhan2000 .github.io/ AnyGPT.github.io/

Einführung in die Methode

AnyGPT nutzt diskrete Darstellungen, um verschiedene Modalitäten, einschließlich Sprache, Text, Bilder und Musik, einheitlich zu verarbeiten.

Um die Generierungsaufgabe von jeder Modalität zu jeder Modalität zu erfüllen, schlägt diese Forschung einen umfassenden Rahmen vor, der einheitlich trainiert werden kann. Wie in Abbildung 1 unten dargestellt, besteht das Framework aus drei Hauptkomponenten, darunter:

  • Multimodaler Tokenizer
  • Multimodales Sprachmodell als Backbone-Netzwerk
  • Multimodaler De-Tokenizer

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Unter anderem wandelt der Tokenizer kontinuierliche Nicht-Text-Modalitäten in diskrete Token um und ordnet sie anschließend in einer multimodalen verschachtelten Sequenz an. Das Sprachmodell wird dann mithilfe des nächsten Trainingsziels für die Token-Vorhersage trainiert. Während der Inferenz werden multimodale Token durch zugehörige De-Tokenizer wieder in ihre ursprüngliche Darstellung dekodiert. Um die Qualität der Generierung zu verbessern, können multimodale Verbesserungsmodule eingesetzt werden, um die generierten Ergebnisse nachzubearbeiten, einschließlich Anwendungen wie Sprachklonen oder Bild-Superauflösung.

AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder dem Trainingsparadigma des Large Language Model (LLM) erforderlich sind. Stattdessen basiert es vollständig auf der Vorverarbeitung auf Datenebene, sodass neue Modalitäten nahtlos in LLM integriert werden können, ähnlich wie beim Hinzufügen einer neuen Sprache.

Eine zentrale Herausforderung dieser Forschung ist das Fehlen multimodaler verschachtelter Befehlsverfolgungsdaten. Um das Vortraining für die multimodale Ausrichtung abzuschließen, verwendete das Forschungsteam ein generatives Modell, um den ersten groß angelegten multimodalen „Any-to-Any“-Befehlsdatensatz zu synthetisieren – AnyInstruct-108k. Es besteht aus 108.000 Multi-Turn-Dialogbeispielen, die eng mit verschiedenen Modalitäten verknüpft sind, sodass das Modell jede Kombination multimodaler Eingaben und Ausgaben verarbeiten kann.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Diese Daten erfordern normalerweise eine große Anzahl von Bits zur genauen Darstellung, was zu langen Sequenzen führt, die für Sprachmodelle besondere Anforderungen stellen, da die Rechenkomplexität exponentiell mit der Sequenzlänge zunimmt. Um dieses Problem zu lösen, verwendet diese Studie ein zweistufiges High-Fidelity-Generierungsframework, einschließlich semantischer Informationsmodellierung und wahrnehmungsbezogener Informationsmodellierung. Zunächst hat das Sprachmodell die Aufgabe, Inhalte zu generieren, die auf semantischer Ebene zusammengeführt und ausgerichtet werden. Anschließend wandelt das nicht-autoregressive Modell multimodale semantische Token auf der Wahrnehmungsebene in multimodale Inhalte mit hoher Wiedergabetreue um und stellt so ein Gleichgewicht zwischen Leistung und Effizienz her.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Experiment

Experimentelle Ergebnisse zeigen, dass AnyGPT in der Lage ist, Dialogaufgaben in jedem Modus zu erledigen und dabei in allen Modi eine mit dedizierten Modellen vergleichbare Leistung zu erzielen, was Diskret beweist Darstellungen können mehrere Modalitäten in Sprachmodellen effektiv und bequem vereinheitlichen.

Diese Studie bewertet die grundlegenden Fähigkeiten der vorab trainierten AnyGPT-Basis und deckt multimodale Verständnis- und Generierungsaufgaben über alle Modalitäten hinweg ab. Die Bewertung zielt darauf ab, die Konsistenz zwischen verschiedenen Modalitäten während des Vortrainingsprozesses zu testen. Insbesondere werden die Text-zu-X- und X-zu-Text-Aufgaben jeder Modalität getestet, wobei X Bilder, Musik und Stimme sind.

Um reale Szenarien zu simulieren, werden alle Auswertungen im Nullstichprobenmodus durchgeführt. Dies bedeutet, dass AnyGPT während des Evaluierungsprozesses keine Feinabstimmung oder Vorabschulung nachgelagerter Trainingsbeispiele durchführt. Diese anspruchsvolle Bewertungseinstellung erfordert, dass das Modell auf eine unbekannte Testverteilung verallgemeinert wird.

Die Evaluierungsergebnisse zeigen, dass AnyGPT als allgemeines multimodales Sprachmodell bei verschiedenen multimodalen Verständnis- und Generierungsaufgaben eine lobenswerte Leistung erzielt.

Image

In dieser Studie wurde die Bildverständnisfähigkeit von AnyGPT bei Bildbeschreibungsaufgaben bewertet. Die Ergebnisse sind in Tabelle 2 aufgeführt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Ergebnisse der Aufgabe zur Text-zu-Bild-Generierung sind in Tabelle 3 aufgeführt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.Speech

Diese Studie bewertet die Leistung von AnyGPT bei Aufgaben der automatischen Spracherkennung (ASR), indem die Wortfehlerrate (WER) für die Testteilmenge des LibriSpeech-Datensatzes unter Verwendung von Wav2vec 2.0 und Whisper berechnet wird Große V2 als Basislinien, und die Bewertungsergebnisse sind in Tabelle 5 dargestellt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Musik

Die Studie bewertete die Leistung von AnyGPT beim Musikverständnis und bei Musikgenerierungsaufgaben auf dem MusicCaps-Benchmark, wobei der CLAP_score-Score als objektive Metrik zur Messung der generierten Musik verwendet wurde und Die Ähnlichkeit zwischen Textbeschreibungen, die Bewertungsergebnisse sind in Tabelle 6 dargestellt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.

Das obige ist der detaillierte Inhalt vonDie Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Was sind die zehn besten Handelsplattformen für virtuelle Währung? Was sind die zehn besten Handelsplattformen für virtuelle Währung? Feb 20, 2025 pm 02:15 PM

Mit der Popularität von Kryptowährungen sind virtuelle Währungshandelsplattformen entstanden. Die zehn besten Handelsplattformen der virtuellen Währung der Welt werden nach dem Transaktionsvolumen und dem Marktanteil wie folgt eingestuft: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Diese Plattformen bieten eine breite Palette von Dienstleistungen, die von einer Vielzahl von Kryptowährungsauswahl bis hin zu Derivatenhandel reichen und für Händler unterschiedlicher Ebene geeignet sind.

So passen Sie den Sesam offenen Austausch in Chinesisch an So passen Sie den Sesam offenen Austausch in Chinesisch an Mar 04, 2025 pm 11:51 PM

Wie kann ich den Sesam offenen Austausch an Chinesisch anpassen? Dieses Tutorial behandelt detaillierte Schritte zu Computern und Android -Mobiltelefonen, von der vorläufigen Vorbereitung bis hin zu operativen Prozessen und dann bis zur Lösung gemeinsamer Probleme, um die Sesam -Open Exchange -Schnittstelle auf Chinesisch zu wechseln und schnell mit der Handelsplattform zu beginnen.

Muss ich Flexbox in der Mitte des Bootstrap -Bildes verwenden? Muss ich Flexbox in der Mitte des Bootstrap -Bildes verwenden? Apr 07, 2025 am 09:06 AM

Es gibt viele Möglichkeiten, Bootstrap -Bilder zu zentrieren, und Sie müssen keine Flexbox verwenden. Wenn Sie nur horizontal zentrieren müssen, reicht die Text-Center-Klasse aus. Wenn Sie vertikal oder mehrere Elemente zentrieren müssen, ist Flexbox oder Grid besser geeignet. Flexbox ist weniger kompatibel und kann die Komplexität erhöhen, während das Netz leistungsfähiger ist und höhere Lernkosten hat. Bei der Auswahl einer Methode sollten Sie die Vor- und Nachteile abwägen und die am besten geeignete Methode entsprechend Ihren Anforderungen und Vorlieben auswählen.

Berechnung des C-Subscript 3-Index 5 C-Subscript 3-Index 5-Algorithmus-Tutorial Berechnung des C-Subscript 3-Index 5 C-Subscript 3-Index 5-Algorithmus-Tutorial Apr 03, 2025 pm 10:33 PM

Die Berechnung von C35 ist im Wesentlichen kombinatorische Mathematik, die die Anzahl der aus 3 von 5 Elementen ausgewählten Kombinationen darstellt. Die Berechnungsformel lautet C53 = 5! / (3! * 2!), Was direkt durch Schleifen berechnet werden kann, um die Effizienz zu verbessern und Überlauf zu vermeiden. Darüber hinaus ist das Verständnis der Art von Kombinationen und Beherrschen effizienter Berechnungsmethoden von entscheidender Bedeutung, um viele Probleme in den Bereichen Wahrscheinlichkeitsstatistik, Kryptographie, Algorithmus -Design usw. zu lösen.

Top 10 Top -Currency -Handelsplattformen 2025 Cryptocurrency Trading Apps, die die Top Ten ringen Top 10 Top -Currency -Handelsplattformen 2025 Cryptocurrency Trading Apps, die die Top Ten ringen Mar 17, 2025 pm 05:54 PM

Top Ten Ten Virtual Currency Trading Platforms 2025: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

Top 10 Cryptocurrency -Handelsplattformen, Top Ten empfohlene Apps für Währungshandelsplattformen Top 10 Cryptocurrency -Handelsplattformen, Top Ten empfohlene Apps für Währungshandelsplattformen Mar 17, 2025 pm 06:03 PM

Zu den zehn Top -Kryptowährungsplattformen gehören: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

Was sind die sicheren und zuverlässigen digitalen Währungsplattformen? Was sind die sicheren und zuverlässigen digitalen Währungsplattformen? Mar 17, 2025 pm 05:42 PM

Eine sichere und zuverlässige Plattform für digitale Währung: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

Unterschiedliche Funktionsnutzungsabstand Funktion C -Verwendung Tutorial Unterschiedliche Funktionsnutzungsabstand Funktion C -Verwendung Tutorial Apr 03, 2025 pm 10:27 PM

STD :: Einzigartige Entfernung benachbarte doppelte Elemente im Container und bewegt sie bis zum Ende, wodurch ein Iterator auf das erste doppelte Element zeigt. STD :: Distanz berechnet den Abstand zwischen zwei Iteratoren, dh die Anzahl der Elemente, auf die sie hinweisen. Diese beiden Funktionen sind nützlich, um den Code zu optimieren und die Effizienz zu verbessern, aber es gibt auch einige Fallstricke, auf die geachtet werden muss, wie z. STD :: Distanz ist im Umgang mit nicht randomischen Zugriffs-Iteratoren weniger effizient. Indem Sie diese Funktionen und Best Practices beherrschen, können Sie die Leistung dieser beiden Funktionen voll ausnutzen.

See all articles