Aktuelle multimodale und Multitasking-Basismodelle wie **4M** oder **UnifiedIO** zeigen vielversprechende Ergebnisse. Allerdings ist ihre Fähigkeit, unterschiedliche Eingaben zu akzeptieren und unterschiedliche Aufgaben auszuführen, durch die (normalerweise geringe) Anzahl an Modalitäten und Aufgaben, für die sie geschult werden, begrenzt.
Auf dieser Grundlage haben Forscher der Ecole Polytechnique Fédérale de Lausanne (EPFL) und Apple gemeinsam ein **fortgeschrittenes** Any-to-Any-Modal-Einzelmodell entwickelt, das in Dutzenden von Schulungen **weitgehend** vielfältig ist verschiedene Modalitäten und führen gemeinsame Schulungen an großen multimodalen Datensätzen und Textkorpora durch.
Ein wichtiger Schritt im Trainingsprozess besteht darin, eine diskrete **Tokenisierung** für verschiedene Modalitäten durchzuführen, unabhängig davon, ob es sich um strukturierte Daten wie bildähnliche neuronale Netzwerk-**Feature-Maps**, Vektoren, Instanzsegmentierung oder menschliche Posen handelt Daten, die als Text dargestellt werden können.
Papieradresse: https://arxiv.org/pdf/2406.09406
Papierhomepage https://4m.epfl.ch/
Papiertitel: 4M-21: An Any -to-Any-Vision-Modell für Dutzende Aufgaben und Modalitäten
Diese Studie zeigt, dass das Training eines einzelnen Modells auch mindestens **dreimal** so viele Aufgaben/**Modalitäten** erledigen kann wie bestehende Modelle, und das ist auch der Fall nicht. Leistung geht verloren. Darüber hinaus werden durch diese Forschung auch feinkörnigere und besser kontrollierbare Multimode-Datengenerierungsfunktionen erreicht.
Diese Forschung baut auf dem multimodalen Masken-Vortrainingsschema auf und verbessert die Modellfähigkeiten durch Training auf Dutzenden sehr unterschiedlicher Modalitäten. Durch die Kodierung mit modalitätsspezifischen diskreten Tokenisierern ermöglicht die Studie das Training eines einzigen einheitlichen Modells für verschiedene Modalitäten.
Einfach ausgedrückt erweitert diese Forschung die Fähigkeiten vorhandener Modelle in mehreren Schlüsseldimensionen:
Modalitäten: von 7 Modalitäten des besten existierenden Arbiträr-zu-Arbiträr-Modells auf 21 verschiedene Modalitäten, was eine modalübergreifende Abfrage und kontrollierbare Generierung ermöglicht und leistungsstarke, sofort einsatzbereite Leistung. Dies ist das erste Mal, dass ein einzelnes Vision-Modell Dutzende verschiedener Aufgaben auf beliebige Weise lösen kann, ohne die Leistung zu beeinträchtigen und ohne herkömmliches Multitasking-Lernen.
Vielfalt: Fügen Sie Unterstützung für strukturiertere Daten hinzu, z. B. menschliche Posen, SAM-Instanzen, Metadaten und mehr.
Tokenisierung: Untersuchen Sie die diskrete Tokenisierung verschiedener Modalitäten mithilfe modalitätsspezifischer Methoden, wie z. B. globale Bildeinbettungen, menschliche Posen und semantische Instanzen.
Erweiterung: Erweitern Sie die Modellgröße auf 3B-Parameter und den Datensatz auf 0,5B-Proben.
Kollaboratives Training: kollaboratives Training in Vision und Sprache gleichzeitig.
Einführung in die Methode
Diese Studie verwendet das 4M-Vortrainingsschema (die Studie stammte ebenfalls von EPFL und Apple und wurde letztes Jahr veröffentlicht), das sich als allgemeine Methode erwiesen hat, die effektiv auf Multi erweitert werden kann -Modalität.
In diesem Artikel bleiben insbesondere die Architektur- und multimodalen Maskentrainingsziele unverändert, indem die Größe des Modells und der Datensätze erweitert, die Art und Anzahl der am Training des Modells beteiligten Modalitäten erhöht und mehrere Datensätze gemeinsam trainiert werden können Verbessern Sie die Leistung und Anpassungsfähigkeit des Modells.
Modalitäten sind in die folgenden Kategorien unterteilt: RGB, Geometrie, Semantik, Kante, Feature-Map, Metadaten und Text, wie in der Abbildung unten dargestellt.
Tokenisierung
Die Tokenisierung umfasst hauptsächlich die Umwandlung verschiedener Modalitäten und Aufgaben in Sequenzen oder diskrete Token und dadurch die Vereinheitlichung ihrer Darstellungsräume. Forscher verwenden verschiedene Tokenisierungsmethoden, um Modi mit unterschiedlichen Eigenschaften zu diskretisieren, wie in Abbildung 3 dargestellt. Zusammenfassend werden in diesem Artikel drei Tokenizer verwendet, darunter ViT-Tokenizer, MLP-Tokenizer und Text-Tokenizer.
In Bezug auf die Architekturauswahl übernimmt dieser Artikel die auf Transformer basierende 4M-Encoder-Decoder-Architektur und fügt zusätzliche modale Einbettungen zur Anpassung an neue Modalitäten hinzu.
Experimentelle Ergebnisse
Als nächstes demonstriert das Papier die multimodalen Fähigkeiten von 4M-21.
Multimodale Generierung
Basierend auf einem iterativen Decodierungstoken kann 4M-21 zur Vorhersage jeder Trainingsmodalität verwendet werden. Wie in Abbildung 2 dargestellt, kann dieser Artikel alle Modalitäten auf konsistente Weise aus einer bestimmten Eingabemodalität generieren.
Da diese Studie außerdem bedingt und bedingungslos jede Trainingsmodalität aus jeder Teilmenge anderer Modalitäten generieren kann, unterstützt sie mehrere Methoden zur Durchführung einer feinkörnigen und multimodalen Generierung, wie in Abbildung 4 dargestellt. Führen Sie beispielsweise eine multimodale Bearbeitung durch . Darüber hinaus zeigt 4M-21 ein verbessertes Textverständnis, sowohl bei T5-XXL-Einbettungen als auch bei regulären Untertiteln, was eine geometrische und semantische Klangerzeugung ermöglicht (Abbildung 4, oben rechts).
Multimodaler Abruf
Wie in Abbildung 5 gezeigt, schaltet 4M-21 Abruffunktionen frei, die mit den ursprünglichen DINOv2- und ImageBind-Modellen nicht möglich sind, wie etwa das Abrufen von RGB-Bildern oder anderen Modalitäten durch die Verwendung anderer Modalitäten als Abfragen . Darüber hinaus kann 4M-21 mehrere Modalitäten kombinieren, um globale Einbettungen vorherzusagen, was eine bessere Kontrolle des Abrufs ermöglicht, wie rechts gezeigt.
Sofort einsatzbereit
Der 4M-21 ist in der Lage, eine Reihe gängiger Sehaufgaben sofort auszuführen, wie in Abbildung 6 dargestellt.
Tabelle 1 bewertet die DIODE-Oberflächennormalen- und -Tiefenschätzung, die COCO-Semantik und Instanzsegmentierung, die 3DPW-3D-menschliche Posenschätzung usw.
Transferexperiment
Darüber hinaus wurden in diesem Artikel auch Modelle in drei verschiedenen Größen trainiert: B, L und XL. Ihr Encoder wird dann an nachgelagerte Aufgaben übertragen und anhand der Einstellungen für Einzelmodalität (RGB) und Multimodalität (RGB + Tiefe) ausgewertet. Bei allen Transferexperimenten wird der Decoder verworfen und stattdessen ein aufgabenspezifischer Kopf trainiert. Die Ergebnisse sind in Tabelle 2 dargestellt:
Abschließend führt dieser Artikel eine multimodale Übertragung auf NYUv2, eine semantische Hypersim-Segmentierung und eine 3D-Objekterkennung auf ARKitScenes durch. Wie in Tabelle 3 gezeigt, nutzt 4M-21 die optionale Tiefeneingabe voll aus und verbessert die Grundlinie erheblich.
Das obige ist der detaillierte Inhalt vonZu vollständig! Apple bringt das neue visuelle Modell 4M-21 auf den Markt, das 21 Modi unterstützt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!