iVideoGPT erfüllt die Anforderungen an eine hohe Interaktivität von Weltmodellen.
Generative Modelle haben in den letzten Jahren erhebliche Fortschritte gemacht, wobei die Videogenerierung zu einer neuen Grenze wird. Eine wichtige Anwendung dieser generativen Videomodelle besteht darin, auf unbeaufsichtigte Weise anhand verschiedener Daten im Internetmaßstab zu lernen, um prädiktive Weltmodelle zu erstellen. Von diesen Weltmodellen wird erwartet, dass sie vernünftiges Wissen über die Funktionsweise der Welt sammeln und Vorhersagen über mögliche zukünftige Ergebnisse auf der Grundlage des Verhaltens von Agenten ermöglichen. Durch die Nutzung dieser Weltmodelle können sich Agenten, die Reinforcement Learning nutzen, innerhalb des Weltmodells vorstellen, argumentieren und planen und so mit ein wenig Experimentieren in der realen Welt sicherer und effektiver neue Fähigkeiten erwerben. Trotz des grundlegenden Zusammenhangs zwischen generativen Modellen und Weltmodellen besteht immer noch eine erhebliche Lücke zwischen der Entwicklung generativer Modelle für die Videogenerierung und Weltmodellen für das Agentenlernen. Eine der größten Herausforderungen besteht darin, die beste Balance zwischen Interaktivität und Skalierbarkeit zu erreichen. Im Bereich des modellbasierten Verstärkungslernens verwenden Weltmodelle hauptsächlich rekurrente Netzwerkarchitekturen. Dieses Design erleichtert das interaktive Verhaltenslernen, indem es die Weitergabe von Beobachtungen oder latenten Zuständen basierend auf Aktionen bei jedem Schritt ermöglicht. Diese Modelle konzentrieren sich jedoch meist auf Spiel- oder Simulationsumgebungen, verfügen über einfache Daten und sind nur begrenzt in der Lage, umfangreiche und komplexe In-the-Wild-Daten zu modellieren. Im Gegensatz dazu können Videogenerierungsmodelle im Internetmaßstab realistische lange Videos synthetisieren, die mit Textbeschreibungen oder zukünftigen Aktionssequenzen gesteuert werden können. Während solche Modelle eine langfristige Planung auf hoher Ebene ermöglichen, bietet ihre Interaktivität auf Trajektorienebene den Agenten nicht genügend Granularität, um präzise Verhaltensweisen als grundlegende Fähigkeit effektiv zu erlernen. Forscher der Tsinghua-Universität, des Huawei Noah's Ark Laboratory und der Tianjin-Universität schlugen iVideoGPT (Interactive VideoGPT) vor, ein skalierbares autoregressives Transformer-Framework, das multimodale Signale (visuelle Beobachtung, Aktionen und Belohnungen) in einem integriert Eine Reihe von Tokens, die es dem Agenten ermöglichen, interaktive Erlebnisse durchzuführen, indem er den nächsten Token vorhersagt. iVideoGPT nutzt eine neuartige Komprimierungs-Tokenisierungstechnologie, um hochdimensionale visuelle Beobachtungen effektiv zu diskretieren. Mithilfe seiner skalierbaren Architektur konnten Forscher iVideoGPT vorab auf Millionen von Bewegungsabläufen von Menschen und Robotern trainieren und so eine vielseitige Grundlage schaffen, die als interaktives Weltmodell für eine Vielzahl nachgelagerter Aufgaben verwendet werden kann. Diese Forschung fördert die Entwicklung interaktiver universeller Weltmodelle.
- Papieradresse: https://arxiv.org/pdf/2405.15223
- Papiertitel: iVideoGPT: Interactive VideoGPTs are Scalable World Models
In diesem Teil stellt das Forschungsteam eine skalierbare Weltmodellarchitektur vor – iVideoGPT, die äußerst flexibel ist und multimodale Informationen integrieren kann, einschließlich visueller Beobachtungen, Aktionen, Belohnungen und anderer potenzieller Eingaben. Der Kern von iVideoGPT umfasst einen Komprimierungs-Tokenizer zur Diskretisierung von Videobildern und einen autoregressiven Transformator zur Vorhersage nachfolgender Token. Durch das Vortraining mit verschiedenen Videodaten kann sich das Modell umfangreiches Weltwissen aneignen und es dann effizient auf nachgelagerte Aufgaben übertragen. Komprimierte Tokenisierung. Transformer eignet sich besonders gut für die Verarbeitung von Sequenzen diskreter Token. VQGAN ist ein häufig verwendeter visueller Tokenizer, der Rohpixel in diskrete Token umwandelt. Die Forscher schlugen vor, ein neues bedingtes VQGAN zu verwenden, das aus einem Dual-Encoder und Decoder {(E_c, D_c), (E_p, D_p)} besteht, um das Video zu tokenisieren. Wie in Abbildung 3a dargestellt, enthält der anfängliche Kontextrahmen umfangreiche Kontextinformationen, die durch N Token tokenisiert und unabhängig rekonstruiert werden:
Im Gegensatz dazu müssen aufgrund der zeitlichen Redundanz zwischen Kontextframes und zukünftigen Frames nur notwendige Änderungsinformationen, wie z. B. die Position und Pose sich bewegender Objekte, codiert werden. Der obige Prozess wird durch die Verwendung von bedingten Encodern und Decodern erreicht:
Die Forscher implementierten den bedingten Mechanismus, indem sie die gegenseitige Aufmerksamkeit zwischen Feature-Maps mit mehreren Maßstäben nutzten. Insgesamt wird der Tokenizer mit folgenden Zielen trainiert:
Die in dieser Studie vorgeschlagene Tokenisierung hat hauptsächlich zwei Vorteile:
- Erstens reduziert sie die Länge der Sequenz tokenisierter Videos erheblich, die linear mit wächst die Anzahl der Frames, aber die Wachstumsrate n ist viel kleiner;
- Zweitens kann der Transformator, der nachfolgende Token vorhersagt, die zeitliche Konsistenz des Kontexts leichter aufrechterhalten und die notwendigen dynamischen Informationen für die Modellierung fokussieren.
Interaktive Vorhersagen für Transformer. Nach der Tokenisierung wird das Video in eine Reihe von Tokens zusammengefasst:
Länge ist . Spezielle Slot-Tokens [S] werden eingefügt, um Rahmengrenzen abzugrenzen und die Fusion zusätzlicher niedrigdimensionaler Modalitäten wie Aktionen zu erleichtern. Wie in Abbildung 3b dargestellt, wird ein GPT-ähnlicher autoregressiver Transformator für die interaktive Videovorhersage verwendet, indem er Bild für Bild nächste Token generiert. In dieser Arbeit verwendete das Team die Modellgröße von GPT-2, passte jedoch die LLaMA-Architektur an, um die Vorteile neuerer Innovationen in LLM-Architekturen zu nutzen, wie etwa die Rotationspositionseinbettung. Große Sprachmodelle können durch die Vorhersage des nächsten Wortes selbstüberwacht umfangreiche Erkenntnisse aus Internettexten gewinnen. In ähnlicher Weise verwendet das aktionsfreie Video-Pre-Training-Paradigma des Weltmodells die Videovorhersage als Pre-Training-Ziel, um eine Überwachung im Internetmaßstab für das in LLM fehlende Wissen über die physische Welt bereitzustellen. Die Forscher haben iVideoGPT auf dieses allgemeine Ziel vorab trainiert und dabei Kreuzentropieverlust angewendet, um nachfolgende Video-Tokens vorherzusagen:
Daten vor dem Training. Obwohl im Internet eine große Anzahl an Videos verfügbar ist, haben die Forscher iVideoGPT aufgrund rechnerischer Einschränkungen speziell für den Bereich der Robotermanipulation vorab trainiert. Sie verwendeten eine Mischung aus 35 Datensätzen aus dem Open X-Embodiment (OXE)-Datensatz und dem Something-Something v2 (SSv2)-Datensatz, was insgesamt 1,5 Millionen Flugbahnen ergab. Aktionsbedingungen und Belohnungsvorhersage. Die Architektur des Teams ist darauf ausgelegt, flexibel zusätzliche Modalitäten zu integrieren, um ein interaktives Weltmodell zu erlernen, wie in Abbildung 3b dargestellt. Aktionen werden über lineare Projektion integriert und zu Slot-Token-Einbettungen hinzugefügt. Für die Belohnungsvorhersage haben sie, anstatt einen separaten Belohnungsprädiktor zu lernen, einen linearen Kopf zum verborgenen Zustand des letzten Tokens jeder Beobachtung hinzugefügt. Diese Multitasking-Lernmethode kann die Aufmerksamkeit des Modells auf aufgabenbezogene Informationen steigern und dadurch die Vorhersagegenauigkeit von Steuerungsaufgaben verbessern. Zusätzlich zum Kreuzentropieverlust von Gleichung (3) verwendeten sie auch den mittleren quadratischen Fehlerverlust für die Belohnungsvorhersage. Tokenizer-Anpassung. Das Forschungsteam entschied sich für die Aktualisierung des gesamten Modells, einschließlich des Tokenizers, um es an nachgelagerte Aufgaben anzupassen, und stellte fest, dass diese Strategie effektiver ist als Parameter-effiziente Feinabstimmungsmethoden. Es gibt nur sehr wenig Literatur, die sich mit der Verwendung des VQGAN-Tokenizers für domänenspezifische Daten befasst. Da die Tokenisierung in dieser Arbeit dynamische Informationen von kontextuellen Bedingungen entkoppelt, wird davon ausgegangen, dass dieses Modell zwar in nachgelagerten Aufgaben auf unsichtbare Objekte stoßen kann, beispielsweise auf verschiedene Arten von Robotern, der Transformator jedoch aus verschiedenen Szenarien grundlegende physikalische Kenntnisse erlernt – beispielsweise Bewegung und Interaktion - wird geteilt. Diese Hypothese wird durch Experimente gestützt, bei denen iVideoGPT von gemischten vorab trainierten Daten auf den nicht sichtbaren BAIR-Datensatz migriert wurde, wo der vorab trainierte Transformator natürliche Bewegungen mit Zero-Shot-Generalisierung vorhersagen kann, nur für unsichtbare Feinabstimmungen Tokenizer des Robotergreifers, den Sie gesehen haben (siehe Abbildung 7). Diese Funktion ist besonders wichtig für die Skalierung von GPT-ähnlichen Transformatoren auf große Größen, da sie eine einfache Ausrichtung über Domänen hinweg ermöglicht und gleichzeitig den Transformator intakt hält. Wie in Tabelle 1 gezeigt, weist iVideoGPT im Vergleich zu SOTA-Methoden eine wettbewerbsfähige Leistung auf und erreicht gleichzeitig Interaktivität und Skalierbarkeit in seiner Architektur. Während vorläufige Experimente mit der niedrigen Auflösung von 64×64 durchgeführt wurden, kann iVideoGPT problemlos auf 256×256 von RoboNet erweitert werden. Siehe Abbildung 9 für qualitative Ergebnisse. Abbildung 4 zeigt die Erfolgsquote von iVideoGPT im Vergleich zum Basismodell. iVideoGPT übertrifft alle Baselines bei beiden RoboDesk-Aufgaben deutlich und erreicht eine durchschnittliche Leistung, die mit dem stärksten SVG-Modell vergleichbar ist. Abbildung 6 zeigt, dass der modellbasierte Algorithmus nicht nur die Stichprobeneffizienz gegenüber dem modellfreien Algorithmus verbessert, sondern auch die Leistung von DreamerV3 erreicht oder übertrifft. Die nächste Studie analysiert die Zero-Shot-Videovorhersagefähigkeit von groß angelegtem vorab trainiertem iVideoGPT anhand des unsichtbaren BAIR-Datensatzes. Interessanterweise beobachten wir in der zweiten Zeile von Abbildung 7, dass iVideoGPT die natürliche Bewegung eines Robotergreifers ohne Feinabstimmung vorhersagt – wenn auch anders als im Datensatz vor dem Training. Dies zeigt, dass das Modell zwar die Zero-Shot-Generalisierung auf völlig unsichtbare Roboter aufgrund unzureichender Diversität in den Pre-Training-Daten beschränkt, den Szenenkontext jedoch effektiv von der Bewegungsdynamik trennt. Im Gegensatz dazu überträgt der nicht fein abgestimmte Transformer mithilfe des angepassten Tokenizers erfolgreich das vorab trainierte Wissen und sagt die Bewegung des neuartigen Roboters in der dritten Reihe voraus, wodurch eine ähnliche Wahrnehmung wie beim vollständig fein abgestimmten Transformer in der vierten Reihe entsteht. Die qualitativen und quantitativen Ergebnisse sind in Abbildung 8a dargestellt. Weitere Ergebnisse finden Sie im Originalpapier. Das obige ist der detaillierte Inhalt vonDie Tsinghua-Universität, Huawei und andere schlugen iVideoGPT vor: Spezialisierung auf interaktive Weltmodelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!