Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.-KI-php.cn

Inhaltsverzeichnis

Experiment

Heim

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 am 09:19 AM

模型训练排列

Vor kurzem ist das Videogenerierungsmodell Sora von OpenAI populär geworden, und die multimodalen Fähigkeiten generativer KI-Modelle haben erneut große Aufmerksamkeit erregt.

Die reale Welt ist von Natur aus multimodal, wobei Organismen Informationen über verschiedene Kanäle wahrnehmen und austauschen, darunter Sehen, Sprache, Ton und Berührung. Eine vielversprechende Richtung für die Entwicklung multimodaler Systeme besteht darin, die multimodalen Wahrnehmungsfähigkeiten von LLM zu verbessern, was hauptsächlich die Integration multimodaler Encoder mit Sprachmodellen beinhaltet, wodurch sie in die Lage versetzt werden, Informationen über verschiedene Modalitäten hinweg zu verarbeiten und die Textverarbeitungsfähigkeiten von LLM zu nutzen, um eine kohärente Antwort zu erzeugen.

Diese Strategie gilt jedoch nur für die Textgenerierung und deckt nicht die multimodale Ausgabe ab. Einige bahnbrechende Forschungen haben erhebliche Fortschritte bei der Erzielung eines multimodalen Verständnisses und der Generierung von Sprachmodellen erzielt, diese Modelle sind jedoch auf eine einzige Nicht-Text-Modalität wie Bild oder Audio beschränkt.

Um die oben genannten Probleme zu lösen, schlug das Qiu Xipeng-Team der Fudan-Universität zusammen mit Forschern von Multimodal Art Projection (MAP) und dem Shanghai Artificial Intelligence Laboratory ein multimodales Sprachmodell namens AnyGPT vor, das in jedem verwendet werden kann Modalkombinationen werden verwendet, um den Inhalt verschiedener Modalitäten zu verstehen und zu begründen. Insbesondere kann AnyGPT Anweisungen verstehen, die mit mehreren Modalitäten wie Text, Sprache, Bildern und Musik verflochten sind, und kann geschickt geeignete multimodale Kombinationen auswählen, um darauf zu reagieren.

Beispielsweise kann AnyGPT bei einer Sprachaufforderung eine umfassende Antwort in Form von Sprache, Bild und Musik generieren:

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Bei einer Aufforderung in Form von Text + Bild kann AnyGPT generieren Musik entsprechend den Prompt-Anforderungen:

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Papieradresse: https://arxiv.org/pdf/2402.12226.pdf
Projekthomepage: https ://junzhan2000 .github.io/ AnyGPT.github.io/

Einführung in die Methode

AnyGPT nutzt diskrete Darstellungen, um verschiedene Modalitäten, einschließlich Sprache, Text, Bilder und Musik, einheitlich zu verarbeiten.

Um die Generierungsaufgabe von jeder Modalität zu jeder Modalität zu erfüllen, schlägt diese Forschung einen umfassenden Rahmen vor, der einheitlich trainiert werden kann. Wie in Abbildung 1 unten dargestellt, besteht das Framework aus drei Hauptkomponenten, darunter:

Multimodaler Tokenizer
Multimodales Sprachmodell als Backbone-Netzwerk
Multimodaler De-Tokenizer

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Unter anderem wandelt der Tokenizer kontinuierliche Nicht-Text-Modalitäten in diskrete Token um und ordnet sie anschließend in einer multimodalen verschachtelten Sequenz an. Das Sprachmodell wird dann mithilfe des nächsten Trainingsziels für die Token-Vorhersage trainiert. Während der Inferenz werden multimodale Token durch zugehörige De-Tokenizer wieder in ihre ursprüngliche Darstellung dekodiert. Um die Qualität der Generierung zu verbessern, können multimodale Verbesserungsmodule eingesetzt werden, um die generierten Ergebnisse nachzubearbeiten, einschließlich Anwendungen wie Sprachklonen oder Bild-Superauflösung.

AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder dem Trainingsparadigma des Large Language Model (LLM) erforderlich sind. Stattdessen basiert es vollständig auf der Vorverarbeitung auf Datenebene, sodass neue Modalitäten nahtlos in LLM integriert werden können, ähnlich wie beim Hinzufügen einer neuen Sprache.

Eine zentrale Herausforderung dieser Forschung ist das Fehlen multimodaler verschachtelter Befehlsverfolgungsdaten. Um das Vortraining für die multimodale Ausrichtung abzuschließen, verwendete das Forschungsteam ein generatives Modell, um den ersten groß angelegten multimodalen „Any-to-Any“-Befehlsdatensatz zu synthetisieren – AnyInstruct-108k. Es besteht aus 108.000 Multi-Turn-Dialogbeispielen, die eng mit verschiedenen Modalitäten verknüpft sind, sodass das Modell jede Kombination multimodaler Eingaben und Ausgaben verarbeiten kann.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Diese Daten erfordern normalerweise eine große Anzahl von Bits zur genauen Darstellung, was zu langen Sequenzen führt, die für Sprachmodelle besondere Anforderungen stellen, da die Rechenkomplexität exponentiell mit der Sequenzlänge zunimmt. Um dieses Problem zu lösen, verwendet diese Studie ein zweistufiges High-Fidelity-Generierungsframework, einschließlich semantischer Informationsmodellierung und wahrnehmungsbezogener Informationsmodellierung. Zunächst hat das Sprachmodell die Aufgabe, Inhalte zu generieren, die auf semantischer Ebene zusammengeführt und ausgerichtet werden. Anschließend wandelt das nicht-autoregressive Modell multimodale semantische Token auf der Wahrnehmungsebene in multimodale Inhalte mit hoher Wiedergabetreue um und stellt so ein Gleichgewicht zwischen Leistung und Effizienz her.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Experiment

Experimentelle Ergebnisse zeigen, dass AnyGPT in der Lage ist, Dialogaufgaben in jedem Modus zu erledigen und dabei in allen Modi eine mit dedizierten Modellen vergleichbare Leistung zu erzielen, was Diskret beweist Darstellungen können mehrere Modalitäten in Sprachmodellen effektiv und bequem vereinheitlichen.

Diese Studie bewertet die grundlegenden Fähigkeiten der vorab trainierten AnyGPT-Basis und deckt multimodale Verständnis- und Generierungsaufgaben über alle Modalitäten hinweg ab. Die Bewertung zielt darauf ab, die Konsistenz zwischen verschiedenen Modalitäten während des Vortrainingsprozesses zu testen. Insbesondere werden die Text-zu-X- und X-zu-Text-Aufgaben jeder Modalität getestet, wobei X Bilder, Musik und Stimme sind.

Um reale Szenarien zu simulieren, werden alle Auswertungen im Nullstichprobenmodus durchgeführt. Dies bedeutet, dass AnyGPT während des Evaluierungsprozesses keine Feinabstimmung oder Vorabschulung nachgelagerter Trainingsbeispiele durchführt. Diese anspruchsvolle Bewertungseinstellung erfordert, dass das Modell auf eine unbekannte Testverteilung verallgemeinert wird.

Die Evaluierungsergebnisse zeigen, dass AnyGPT als allgemeines multimodales Sprachmodell bei verschiedenen multimodalen Verständnis- und Generierungsaufgaben eine lobenswerte Leistung erzielt.

Image

In dieser Studie wurde die Bildverständnisfähigkeit von AnyGPT bei Bildbeschreibungsaufgaben bewertet. Die Ergebnisse sind in Tabelle 2 aufgeführt.

Die Ergebnisse der Aufgabe zur Text-zu-Bild-Generierung sind in Tabelle 3 aufgeführt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache. Speech

Diese Studie bewertet die Leistung von AnyGPT bei Aufgaben der automatischen Spracherkennung (ASR), indem die Wortfehlerrate (WER) für die Testteilmenge des LibriSpeech-Datensatzes unter Verwendung von Wav2vec 2.0 und Whisper berechnet wird Große V2 als Basislinien, und die Bewertungsergebnisse sind in Tabelle 5 dargestellt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Musik

Die Studie bewertete die Leistung von AnyGPT beim Musikverständnis und bei Musikgenerierungsaufgaben auf dem MusicCaps-Benchmark, wobei der CLAP_score-Score als objektive Metrik zur Messung der generierten Musik verwendet wurde und Die Ähnlichkeit zwischen Textbeschreibungen, die Bewertungsergebnisse sind in Tabelle 6 dargestellt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.

Das obige ist der detaillierte Inhalt vonDie Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man Wölfe zähme

4 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

2 Wochen vor By DDD

Kraftstufen für jeden Feind & Monster in R.E.P.O.

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1657

CakePHP-Tutorial

1415

Laravel-Tutorial

1309

PHP-Tutorial

1257

C#-Tutorial

1230

Related knowledge

Muss ich Flexbox in der Mitte des Bootstrap -Bildes verwenden? Apr 07, 2025 am 09:06 AM

Es gibt viele Möglichkeiten, Bootstrap -Bilder zu zentrieren, und Sie müssen keine Flexbox verwenden. Wenn Sie nur horizontal zentrieren müssen, reicht die Text-Center-Klasse aus. Wenn Sie vertikal oder mehrere Elemente zentrieren müssen, ist Flexbox oder Grid besser geeignet. Flexbox ist weniger kompatibel und kann die Komplexität erhöhen, während das Netz leistungsfähiger ist und höhere Lernkosten hat. Bei der Auswahl einer Methode sollten Sie die Vor- und Nachteile abwägen und die am besten geeignete Methode entsprechend Ihren Anforderungen und Vorlieben auswählen.

Top 10 Cryptocurrency -Handelsplattformen, Top Ten empfohlene Apps für Währungshandelsplattformen Mar 17, 2025 pm 06:03 PM

Zu den zehn Top -Kryptowährungsplattformen gehören: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

Top 10 Top -Currency -Handelsplattformen 2025 Cryptocurrency Trading Apps, die die Top Ten ringen Mar 17, 2025 pm 05:54 PM

Top Ten Ten Virtual Currency Trading Platforms 2025: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

Wie kann man adaptives Layout der Y-Achse-Position in Webanmerkungen implementieren? Apr 04, 2025 pm 11:30 PM

Der ad-axis-Position adaptive Algorithmus für Webanmerkungen In diesem Artikel wird untersucht, wie Annotationsfunktionen ähnlich wie Word-Dokumente implementiert werden, insbesondere wie man mit dem Intervall zwischen Anmerkungen umgeht ...

Berechnung des C-Subscript 3-Index 5 C-Subscript 3-Index 5-Algorithmus-Tutorial Apr 03, 2025 pm 10:33 PM

Die Berechnung von C35 ist im Wesentlichen kombinatorische Mathematik, die die Anzahl der aus 3 von 5 Elementen ausgewählten Kombinationen darstellt. Die Berechnungsformel lautet C53 = 5! / (3! * 2!), Was direkt durch Schleifen berechnet werden kann, um die Effizienz zu verbessern und Überlauf zu vermeiden. Darüber hinaus ist das Verständnis der Art von Kombinationen und Beherrschen effizienter Berechnungsmethoden von entscheidender Bedeutung, um viele Probleme in den Bereichen Wahrscheinlichkeitsstatistik, Kryptographie, Algorithmus -Design usw. zu lösen.

Was sind die sicheren und zuverlässigen digitalen Währungsplattformen? Mar 17, 2025 pm 05:42 PM

Eine sichere und zuverlässige Plattform für digitale Währung: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

Wie kann man das Problem des zu kleinen Abstands von Spannweiten -Tags nach einer Linienpause elegant lösen? Apr 05, 2025 pm 06:00 PM

Wie man den Abstand von Span -Tags nach einer neuen Zeile im Webseitenlayout elegant umgeht.

Empfohlene sichere Apps mit sicheren Virtual Currency Software Top 10 Top 10 Digital Currency Trading Apps Ranking 2025 Mar 17, 2025 pm 05:48 PM

Empfohlene Safe Virtual Currency Software Apps: 1. OKX, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. Sicherheit, Liquidität, Handhabungsgebühren, Währungsauswahl, Benutzeroberfläche und Kundensupport sollten bei der Auswahl einer Plattform berücksichtigt werden.

See all articles