Kürzlich haben das Kunlun Technology 2050 Global Research Institute, die National University of Singapore und das Team der Nanyang Technological University of Singapore unter der Leitung von Professor Yan Shuicheng gemeinsam und Open Source das universelle Visual auf Pixelebene Vitron veröffentlicht multimodales großes Sprachmodell .
Dies ist ein hochbelastbares, universell einsetzbares, visuelles, multimodales Großmodell, das eine Reihe visueller Aufgaben vom visuellen Verständnis bis zur visuellen Generierung, von niedriger bis hoher Ebene, unterstützt und das Bildproblem löst, das das Große geplagt hat /Das Problem der Videomodellaufteilung bietet ein allgemeines visuelles multimodales Großmodell auf Pixelebene, das das Verständnis, die Generierung, Segmentierung, Bearbeitung und andere Aufgaben von statischen Bildern und dynamischen Videos umfassend vereint Inhalt, der den Grundstein für die nächste Generation allgemeiner visueller Großmodelle legt. Die ultimative Form legt den Grundstein und markiert einen weiteren großen Schritt in Richtung allgemeiner „künstlicher Intelligenz“ (AGI) für große Modelle. Vitron erreicht als einheitliches visuelles multimodales großes Sprachmodell auf Pixelebene umfassende Unterstützung für visuelle Aufgaben von niedrigem bis hohem Niveau
,ist in der Lage, komplexe visuelle Aufgaben zu bewältigen, und Verstehen und generieren Sie Bild- und Videoinhalte und bieten Sie so ein leistungsstarkes visuelles Verständnis und Funktionen zur Aufgabenausführung. Gleichzeitig unterstützt Vitron den kontinuierlichen Betrieb mit Benutzern, ermöglicht eine flexible Mensch-Computer-Interaktion und demonstriert das große Potenzial für ein einheitlicheres visuelles multimodales Universalmodell. Vitron-bezogene Papiere, Codes und Demos
wurden alle veröffentlichtSeine einzigartigen Vorteile und sein Potenzial in Bezug auf Vollständigkeit, technologische Innovation, Mensch-Computer-Interaktion und Anwendungspotenzial fördern nicht nur Es fördert nicht nur die Entwicklung multimodaler Großmodelle, sondern bietet auch eine neue Richtung für die zukünftige visuelle Großmodellforschung. Kunlun Wanwei
2050global Research Institute hat sich dem Aufbau von Outstanding Scientific Research Institution für die zukünftige Welt verpflichtet und mit der wissenschaftlichen Gemeinschaft zusammenarbeitet “, die unbekannte Welt erkunden, eine bessere Zukunft schaffen. Zuvor hat Kunlun Wanwei 2050Global Research Institute das Forschungs- und Entwicklungs-Toolkit für digitale AgentenAgentStudio veröffentlicht und als Open-Source-Lösung bereitgestellt. Das Forschungsinstitut wird auch in Zukunft die technische Intelligenz fördern Durchbrüche, die zum „ökologischen Bauwesen mit künstlicher Intelligenz“ in China beitragen. Die aktuelle Entwicklung visueller großer Sprachmodelle (LLMs) hat erfreuliche Fortschritte gemacht. Die Community glaubt zunehmend, dass der Aufbau allgemeinerer und leistungsfähigerer multimodaler Großmodelle (MLLMs) der einzige Weg zur Erreichung allgemeiner künstlicher Intelligenz (AGI) sein wird. Allerdings gibt es bei der Umstellung auf ein multimodales allgemeines Modell (Generalist) noch einige zentrale Herausforderungen. Beispielsweise erreicht ein großer Teil der Arbeit kein feinkörniges visuelles Verständnis auf Pixelebene oder es fehlt eine einheitliche Unterstützung für Bilder und Videos. Oder die Unterstützung verschiedener Sehaufgaben reicht nicht aus und es handelt sich bei weitem nicht um ein universelles Großmodell. Um diese Lücke zu schließen, haben das Kunlun Worldwide 2050 Global Research Institute, die National University of Singapore und das Team der Nanyang Technological University of Singapore kürzlich gemeinsam das Open-Source-Vitron-Universal-Vitron-Vitron-Visual-Multimodal-Großsprachenmodell auf Pixelebene veröffentlicht . Vitron unterstützt eine Reihe visueller Aufgaben vom visuellen Verständnis bis zur visuellen Generierung, von niedriger bis hoher Ebene, einschließlich umfassendem Verständnis, Generierung, Segmentierung und Bearbeitung statischer Bilder und dynamischer Videoinhalte. Vitron hat die funktionelle Unterstützung für vier wichtige Sehaufgaben umfassend beschrieben. und seine wichtigsten Vorteile. Vitron unterstützt außerdem den kontinuierlichen Betrieb mit Benutzern, um eine flexible Mensch-Computer-Interaktion zu erreichen. Dieses Projekt demonstriert das große Potenzial eines einheitlicheren multimodalen allgemeinen Vision-Modells und legt den Grundstein für die ultimative Form der nächsten Generation großer allgemeiner Vision-Modelle. Vitron-bezogene Dokumente, Codes und Demos sind jetzt alle öffentlich. Titel des Papiers: Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, EditingProjekthomepage und Demo: https://vitron-llm.github.io/Link zum Papier: https:/ /is.gd/aGu0VVOffener Quellcode: https://github.com/SkyworkAI/Vitron
01Das ultimative einheitliche multimodale große Sprachmodell
In den letzten Jahren haben große Sprachmodelle (LLMs) eine beispiellose Leistungsfähigkeit bewiesen und sich nach und nach als der technische Weg zur AGI erwiesen. Multimodale große Sprachmodelle (MLLMs) entwickeln sich in vielen Communities schnell und werden durch die Einführung von Modulen, die eine visuelle Wahrnehmung ermöglichen, zu MLLMs erweitert, die leistungsstark und hervorragend im Bildverständnis sind . , wie BLIP-2, LLaVA, MiniGPT-4 usw. Gleichzeitig wurden auch MLLMs mit Schwerpunkt auf Videoverständnis eingeführt, wie z. B. VideoChat, Video-LLaMA, Video-LLaVA usw.
Anschließend versuchten Forscher hauptsächlich, die Fähigkeiten von MLLMs aus zwei Dimensionen weiter auszubauen. Einerseits versuchen Forscher, das Verständnis von MLLMs für das Sehen zu vertiefen, indem sie vom groben Verständnis auf Instanzebene zum feinkörnigen Verständnis von Bildern auf Pixelebene übergehen und so Funktionen zur visuellen Regionspositionierung (Regional Grounding) wie GLaMM und PixelLM erreichen , NExT-Chat und MiniGPT-v2 usw. Andererseits versuchen Forscher, die visuellen Funktionen zu erweitern, die MLLMs unterstützen können. Einige Forschungsarbeiten haben damit begonnen, zu untersuchen, wie MLLMs nicht nur visuelle Eingabesignale verstehen, sondern auch die Generierung visueller Ausgabeinhalte unterstützen. Beispielsweise können MLLMs wie GILL und Emu flexibel Bildinhalte generieren, und GPT4Video und NExT-GPT realisieren die Videogenerierung.
Gegenwärtig ist sich die Community der künstlichen Intelligenz allmählich einig, dass sich der zukünftige Trend visueller MLLMs unweigerlich in Richtung hochgradig einheitlicher und stärkerer Fähigkeiten entwickeln wird. Trotz der zahlreichen von der Community entwickelten MLLMs besteht jedoch immer noch eine deutliche Lücke.
Die obige Tabelle fasst lediglich die Fähigkeiten des vorhandenen visuellen MLLM zusammen (nur einige Modelle sind repräsentativ enthalten und die Abdeckung ist unvollständig). Um diese Lücken zu schließen, schlägt das Team Vitron vor, ein allgemeines visuelles MLLM auf Pixelebene.
02. Vitron-Systemarchitektur : drei Schlüsselmodule
Das Gesamtgerüst von Vitron ist in der folgenden Abbildung dargestellt. Vitron übernimmt eine ähnliche Architektur wie bestehende verwandte MLLMs, einschließlich dreier Schlüsselteile: 1) Front-End-Modul für visuelle und Sprachkodierung, 2) zentrales LLM-Verständnis- und Textgenerierungsmodul und 3) Back-End-Benutzerantwort und Modulaufrufe für die visuelle Steuerung Modul.
0... Das Modelltraining umfasst hauptsächlich drei verschiedene Phasen.
1) Benutzerantwortausgabe, die direkt auf die des Benutzers antwortet Eingabe.
2) Modulname, der die auszuführende Funktion oder Aufgabe angibt.
3) Rufen Sie den Befehl auf, um die Metaanweisung des Aufgabenmoduls auszulösen.
4) Region (optionale Ausgabe), die feinkörnige visuelle Funktionen angibt, die für bestimmte Aufgaben erforderlich sind, beispielsweise bei der Videoverfolgung oder visuellen Bearbeitung, wo Backend-Module diese Informationen benötigen. Für Regionen werden basierend auf dem Verständnis auf Pixelebene von LLM durch Koordinaten beschriebene Begrenzungsrahmen ausgegeben.
04 Auswertungsexperimente
Die Forscher führten umfangreiche experimentelle Auswertungen an 22 gängigen Benchmark-Datensätzen und 12 Bild-/Video-Vision-Aufgaben auf Basis von Vitron durch. Vitron zeigt starke Fähigkeiten in vier großen visuellen Aufgabengruppen (Segmentierung, Verstehen, Generierung und Bearbeitung von Inhalten) und verfügt gleichzeitig über flexible Fähigkeiten zur Mensch-Computer-Interaktion. Das Folgende zeigt repräsentativ einige qualitative Vergleichsergebnisse:
Ergebnisse der bildbezogenen Bildsegmentierung
Ergebnisse des bildbezogenen Ausdrucksverständnisses .
Ergebnisse zur Video-QA-Bearbeitung
Das Vitron-System verwendet immer noch einen halbgelenkten, halbagenten Ansatz, um externe Tools aufzurufen. Obwohl diese aufrufbasierte Methode die Erweiterung und den Austausch potenzieller Module erleichtert, bedeutet dies auch, dass die Back-End-Module dieser Pipeline-Struktur nicht am gemeinsamen Lernen der Front-End- und LLM-Kernmodule teilnehmen. Diese Einschränkung ist nicht förderlich für das Gesamtlernen des Systems, was bedeutet, dass die Leistungsobergrenze verschiedener Sehaufgaben durch die Back-End-Module begrenzt wird. Zukünftige Arbeiten sollten verschiedene Vision-Aufgabenmodule in eine einheitliche Einheit integrieren. Es bleibt eine Herausforderung, ein einheitliches Verständnis und eine einheitliche Ausgabe von Bildern und Videos zu erreichen und gleichzeitig Generierungs- und Bearbeitungsfunktionen durch ein einziges generatives Paradigma zu unterstützen. Derzeit besteht ein vielversprechender Ansatz darin, modularitätsbeständige Tokenisierung zu kombinieren, um die Vereinheitlichung des Systems für verschiedene Ein- und Ausgänge und verschiedene Aufgaben zu verbessern.
Im Gegensatz zu früheren Modellen, die sich auf eine einzelne Sehaufgabe konzentrierten (z. B. Stable Diffusion und SEEM), zielt Vitron darauf ab, eine tiefe Interaktion zwischen LLM und Benutzern zu ermöglichen, ähnlich wie OpenAI in der DALL-E-Industrieserie , Midjourney usw. Das Erreichen einer optimalen Benutzerinteraktivität ist eines der Kernziele dieser Arbeit. Vitron nutzt bestehende sprachbasierte LLMs in Kombination mit entsprechenden Anpassungen der Anweisungen, um ein gewisses Maß an Interaktivität zu erreichen. Beispielsweise kann das System flexibel auf alle erwarteten Nachrichteneingaben des Benutzers reagieren und entsprechende visuelle Betriebsergebnisse erzeugen, ohne dass die Benutzereingaben genau mit den Bedingungen des Back-End-Moduls übereinstimmen müssen. Allerdings lässt diese Arbeit hinsichtlich der Verbesserung der Interaktivität noch viel Raum für Verbesserungen. In Anlehnung an das Closed-Source-Midjourney-System sollte das System den Benutzern unabhängig davon, welche Entscheidung LLM bei jedem Schritt trifft, aktiv Feedback geben, um sicherzustellen, dass seine Aktionen und Entscheidungen mit den Absichten der Benutzer übereinstimmen.
Modale Fähigkeiten
Derzeit integriert Vitron ein 7B Vicuna-Modell, dessen Fähigkeit, Sprache, Bilder und Videos zu verstehen, möglicherweise bestimmte Einschränkungen aufweist. Zukünftige Forschungsrichtungen könnten in der Entwicklung eines umfassenden End-to-End-Systems bestehen, beispielsweise in der Erweiterung des Maßstabs des Modells, um ein gründlicheres und umfassenderes Verständnis der Vision zu erreichen. Darüber hinaus sollten Anstrengungen unternommen werden, um LLM in die Lage zu versetzen, das Verständnis von Bild- und Videomodalitäten vollständig zu vereinheitlichen.
Das obige ist der detaillierte Inhalt vonUnter der Leitung von Yan Shuicheng veröffentlichte das Kunlun Wanwei 2050 Global Research Institute gemeinsam mit NUS und NTU Vitron und etablierte damit die ultimative Form allgemeiner visueller multimodaler Großmodelle.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!