


Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.
Vor kurzem ist das Videogenerierungsmodell Sora von OpenAI populär geworden, und die multimodalen Fähigkeiten generativer KI-Modelle haben erneut große Aufmerksamkeit erregt.
Die reale Welt ist von Natur aus multimodal, wobei Organismen Informationen über verschiedene Kanäle wahrnehmen und austauschen, darunter Sehen, Sprache, Ton und Berührung. Eine vielversprechende Richtung für die Entwicklung multimodaler Systeme besteht darin, die multimodalen Wahrnehmungsfähigkeiten von LLM zu verbessern, was hauptsächlich die Integration multimodaler Encoder mit Sprachmodellen beinhaltet, wodurch sie in die Lage versetzt werden, Informationen über verschiedene Modalitäten hinweg zu verarbeiten und die Textverarbeitungsfähigkeiten von LLM zu nutzen, um eine kohärente Antwort zu erzeugen.
Diese Strategie gilt jedoch nur für die Textgenerierung und deckt nicht die multimodale Ausgabe ab. Einige bahnbrechende Forschungen haben erhebliche Fortschritte bei der Erzielung eines multimodalen Verständnisses und der Generierung von Sprachmodellen erzielt, diese Modelle sind jedoch auf eine einzige Nicht-Text-Modalität wie Bild oder Audio beschränkt.
Um die oben genannten Probleme zu lösen, schlug das Qiu Xipeng-Team der Fudan-Universität zusammen mit Forschern von Multimodal Art Projection (MAP) und dem Shanghai Artificial Intelligence Laboratory ein multimodales Sprachmodell namens AnyGPT vor, das in jedem verwendet werden kann Modalkombinationen werden verwendet, um den Inhalt verschiedener Modalitäten zu verstehen und zu begründen. Insbesondere kann AnyGPT Anweisungen verstehen, die mit mehreren Modalitäten wie Text, Sprache, Bildern und Musik verflochten sind, und kann geschickt geeignete multimodale Kombinationen auswählen, um darauf zu reagieren.
Beispielsweise kann AnyGPT bei einer Sprachaufforderung eine umfassende Antwort in Form von Sprache, Bild und Musik generieren:
Bei einer Aufforderung in Form von Text + Bild kann AnyGPT generieren Musik entsprechend den Prompt-Anforderungen:
- Papieradresse: https://arxiv.org/pdf/2402.12226.pdf
- Projekthomepage: https ://junzhan2000 .github.io/ AnyGPT.github.io/
Einführung in die Methode
AnyGPT nutzt diskrete Darstellungen, um verschiedene Modalitäten, einschließlich Sprache, Text, Bilder und Musik, einheitlich zu verarbeiten.
Um die Generierungsaufgabe von jeder Modalität zu jeder Modalität zu erfüllen, schlägt diese Forschung einen umfassenden Rahmen vor, der einheitlich trainiert werden kann. Wie in Abbildung 1 unten dargestellt, besteht das Framework aus drei Hauptkomponenten, darunter:
- Multimodaler Tokenizer
- Multimodales Sprachmodell als Backbone-Netzwerk
- Multimodaler De-Tokenizer
Unter anderem wandelt der Tokenizer kontinuierliche Nicht-Text-Modalitäten in diskrete Token um und ordnet sie anschließend in einer multimodalen verschachtelten Sequenz an. Das Sprachmodell wird dann mithilfe des nächsten Trainingsziels für die Token-Vorhersage trainiert. Während der Inferenz werden multimodale Token durch zugehörige De-Tokenizer wieder in ihre ursprüngliche Darstellung dekodiert. Um die Qualität der Generierung zu verbessern, können multimodale Verbesserungsmodule eingesetzt werden, um die generierten Ergebnisse nachzubearbeiten, einschließlich Anwendungen wie Sprachklonen oder Bild-Superauflösung.
AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder dem Trainingsparadigma des Large Language Model (LLM) erforderlich sind. Stattdessen basiert es vollständig auf der Vorverarbeitung auf Datenebene, sodass neue Modalitäten nahtlos in LLM integriert werden können, ähnlich wie beim Hinzufügen einer neuen Sprache.
Eine zentrale Herausforderung dieser Forschung ist das Fehlen multimodaler verschachtelter Befehlsverfolgungsdaten. Um das Vortraining für die multimodale Ausrichtung abzuschließen, verwendete das Forschungsteam ein generatives Modell, um den ersten groß angelegten multimodalen „Any-to-Any“-Befehlsdatensatz zu synthetisieren – AnyInstruct-108k. Es besteht aus 108.000 Multi-Turn-Dialogbeispielen, die eng mit verschiedenen Modalitäten verknüpft sind, sodass das Modell jede Kombination multimodaler Eingaben und Ausgaben verarbeiten kann.
Diese Daten erfordern normalerweise eine große Anzahl von Bits zur genauen Darstellung, was zu langen Sequenzen führt, die für Sprachmodelle besondere Anforderungen stellen, da die Rechenkomplexität exponentiell mit der Sequenzlänge zunimmt. Um dieses Problem zu lösen, verwendet diese Studie ein zweistufiges High-Fidelity-Generierungsframework, einschließlich semantischer Informationsmodellierung und wahrnehmungsbezogener Informationsmodellierung. Zunächst hat das Sprachmodell die Aufgabe, Inhalte zu generieren, die auf semantischer Ebene zusammengeführt und ausgerichtet werden. Anschließend wandelt das nicht-autoregressive Modell multimodale semantische Token auf der Wahrnehmungsebene in multimodale Inhalte mit hoher Wiedergabetreue um und stellt so ein Gleichgewicht zwischen Leistung und Effizienz her.
Experiment
Experimentelle Ergebnisse zeigen, dass AnyGPT in der Lage ist, Dialogaufgaben in jedem Modus zu erledigen und dabei in allen Modi eine mit dedizierten Modellen vergleichbare Leistung zu erzielen, was Diskret beweist Darstellungen können mehrere Modalitäten in Sprachmodellen effektiv und bequem vereinheitlichen.
Diese Studie bewertet die grundlegenden Fähigkeiten der vorab trainierten AnyGPT-Basis und deckt multimodale Verständnis- und Generierungsaufgaben über alle Modalitäten hinweg ab. Die Bewertung zielt darauf ab, die Konsistenz zwischen verschiedenen Modalitäten während des Vortrainingsprozesses zu testen. Insbesondere werden die Text-zu-X- und X-zu-Text-Aufgaben jeder Modalität getestet, wobei X Bilder, Musik und Stimme sind.
Um reale Szenarien zu simulieren, werden alle Auswertungen im Nullstichprobenmodus durchgeführt. Dies bedeutet, dass AnyGPT während des Evaluierungsprozesses keine Feinabstimmung oder Vorabschulung nachgelagerter Trainingsbeispiele durchführt. Diese anspruchsvolle Bewertungseinstellung erfordert, dass das Modell auf eine unbekannte Testverteilung verallgemeinert wird.
Die Evaluierungsergebnisse zeigen, dass AnyGPT als allgemeines multimodales Sprachmodell bei verschiedenen multimodalen Verständnis- und Generierungsaufgaben eine lobenswerte Leistung erzielt.
Image
In dieser Studie wurde die Bildverständnisfähigkeit von AnyGPT bei Bildbeschreibungsaufgaben bewertet. Die Ergebnisse sind in Tabelle 2 aufgeführt.
Die Ergebnisse der Aufgabe zur Text-zu-Bild-Generierung sind in Tabelle 3 aufgeführt.
Speech
Diese Studie bewertet die Leistung von AnyGPT bei Aufgaben der automatischen Spracherkennung (ASR), indem die Wortfehlerrate (WER) für die Testteilmenge des LibriSpeech-Datensatzes unter Verwendung von Wav2vec 2.0 und Whisper berechnet wird Große V2 als Basislinien, und die Bewertungsergebnisse sind in Tabelle 5 dargestellt.
Musik
Die Studie bewertete die Leistung von AnyGPT beim Musikverständnis und bei Musikgenerierungsaufgaben auf dem MusicCaps-Benchmark, wobei der CLAP_score-Score als objektive Metrik zur Messung der generierten Musik verwendet wurde und Die Ähnlichkeit zwischen Textbeschreibungen, die Bewertungsergebnisse sind in Tabelle 6 dargestellt.
Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.
Das obige ist der detaillierte Inhalt vonDie Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

So überprüfen Sie die Datennutzung auf einem Apple-Mobiltelefon 1. Die spezifischen Schritte zum Überprüfen der Datennutzung auf einem Apple-Mobiltelefon sind wie folgt: Öffnen Sie die Einstellungen des Telefons. Klicken Sie auf die Schaltfläche Mobilfunk. Scrollen Sie auf der Mobilfunknetzseite nach unten, um die spezifische Datennutzung jeder Anwendung anzuzeigen. Klicken Sie auf „Übernehmen“, um auch zulässige Netzwerke festzulegen. 2. Schalten Sie das Telefon ein, suchen Sie die Einstellungsoption auf dem Telefondesktop und klicken Sie zum Aufrufen. Suchen Sie in der Einstellungsoberfläche in der Taskleiste unten nach „Mobilfunknetz“ und klicken Sie zum Aufrufen. Suchen Sie in der Mobilfunknetzschnittstelle auf der Seite die Option „Nutzung“ und klicken Sie zur Eingabe. 3. Eine andere Möglichkeit besteht darin, den Datenverkehr selbst über das Mobiltelefon zu überprüfen. Das Mobiltelefon kann jedoch nur die Gesamtnutzung sehen und den verbleibenden Datenverkehr nicht anzeigen: Schalten Sie das iPhone ein, suchen Sie die Option „Einstellungen“ und öffnen Sie sie. Wählen Sie „Biene“

1. Einleitung In den letzten Jahren haben sich YOLOs aufgrund ihres effektiven Gleichgewichts zwischen Rechenkosten und Erkennungsleistung zum vorherrschenden Paradigma im Bereich der Echtzeit-Objekterkennung entwickelt. Forscher haben das Architekturdesign, die Optimierungsziele, Datenerweiterungsstrategien usw. von YOLO untersucht und erhebliche Fortschritte erzielt. Gleichzeitig behindert die Verwendung von Non-Maximum Suppression (NMS) bei der Nachbearbeitung die End-to-End-Bereitstellung von YOLO und wirkt sich negativ auf die Inferenzlatenz aus. In YOLOs fehlt dem Design verschiedener Komponenten eine umfassende und gründliche Prüfung, was zu erheblicher Rechenredundanz führt und die Fähigkeiten des Modells einschränkt. Es bietet eine suboptimale Effizienz und ein relativ großes Potenzial zur Leistungsverbesserung. Ziel dieser Arbeit ist es, die Leistungseffizienzgrenze von YOLO sowohl in der Nachbearbeitung als auch in der Modellarchitektur weiter zu verbessern. zu diesem Zweck

Um große Sprachmodelle (LLMs) an menschlichen Werten und Absichten auszurichten, ist es wichtig, menschliches Feedback zu lernen, um sicherzustellen, dass sie nützlich, ehrlich und harmlos sind. Im Hinblick auf die Ausrichtung von LLM ist Reinforcement Learning basierend auf menschlichem Feedback (RLHF) eine wirksame Methode. Obwohl die Ergebnisse der RLHF-Methode ausgezeichnet sind, gibt es einige Herausforderungen bei der Optimierung. Dazu gehört das Training eines Belohnungsmodells und die anschließende Optimierung eines Richtlinienmodells, um diese Belohnung zu maximieren. Kürzlich haben einige Forscher einfachere Offline-Algorithmen untersucht, darunter die direkte Präferenzoptimierung (Direct Preference Optimization, DPO). DPO lernt das Richtlinienmodell direkt auf der Grundlage von Präferenzdaten, indem es die Belohnungsfunktion in RLHF parametrisiert, wodurch die Notwendigkeit eines expliziten Belohnungsmodells entfällt. Diese Methode ist einfach und stabil

An der Spitze der Softwaretechnologie kündigte die Gruppe von UIUC Zhang Lingming zusammen mit Forschern der BigCode-Organisation kürzlich das StarCoder2-15B-Instruct-Großcodemodell an. Diese innovative Errungenschaft erzielte einen bedeutenden Durchbruch bei Codegenerierungsaufgaben, übertraf erfolgreich CodeLlama-70B-Instruct und erreichte die Spitze der Codegenerierungsleistungsliste. Die Einzigartigkeit von StarCoder2-15B-Instruct liegt in seiner reinen Selbstausrichtungsstrategie. Der gesamte Trainingsprozess ist offen, transparent und völlig autonom und kontrollierbar. Das Modell generiert über StarCoder2-15B Tausende von Anweisungen als Reaktion auf die Feinabstimmung des StarCoder-15B-Basismodells, ohne auf teure manuelle Annotationen angewiesen zu sein.

Die Benchmark-Zielerkennungssysteme der YOLO-Serie haben erneut ein großes Upgrade erhalten. Seit der Veröffentlichung von YOLOv9 im Februar dieses Jahres wurde der Staffelstab der YOLO-Reihe (YouOnlyLookOnce) in die Hände von Forschern der Tsinghua-Universität übergeben. Letztes Wochenende erregte die Nachricht vom Start von YOLOv10 die Aufmerksamkeit der KI-Community. Es gilt als bahnbrechendes Framework im Bereich Computer Vision und ist für seine End-to-End-Objekterkennungsfunktionen in Echtzeit bekannt. Es führt das Erbe der YOLO-Serie fort und bietet eine leistungsstarke Lösung, die Effizienz und Genauigkeit vereint. Papieradresse: https://arxiv.org/pdf/2405.14458 Projektadresse: https://github.com/THU-MIG/yo

Stanford Li Feifei stellte das neue Konzept „räumliche Intelligenz“ zum ersten Mal vor, nachdem er sein eigenes Unternehmen gegründet hatte. Dies ist nicht nur ihre unternehmerische Ausrichtung, sondern auch der „Nordstern“, der sie leitet. Sie betrachtet es als „das entscheidende Puzzleteil zur Lösung des Problems der künstlichen Intelligenz“. Visualisierung führt zu Einsicht; Sehen führt zu Verständnis; Verständnis führt zu Handeln. Basierend auf Li Feifeis 15-minütigem TED-Vortrag wird alles umfassend offengelegt, angefangen beim Ursprung der Lebensevolution vor Hunderten von Millionen Jahren, darüber, wie Menschen sich nicht mit dem zufrieden geben, was die Natur ihnen gegeben hat, und künstliche Intelligenz entwickeln, bis hin zur Art und Weise, wie man baut räumliche Intelligenz im nächsten Schritt. Vor neun Jahren stellte Li Feifei auf derselben Bühne der Welt das neugeborene ImageNet vor – einer der Ausgangspunkte für diese Runde der Deep-Learning-Explosion. Sie selbst ermutigte auch die Internetnutzer: Wenn Sie sich beide Videos ansehen, werden Sie die Computer Vision der letzten 10 Jahre verstehen können.
