Multitasking-Roboterlernen ist für den Umgang mit vielfältigen und komplexen Szenarien von großer Bedeutung. Aktuelle Methoden sind jedoch durch Leistungsprobleme und Schwierigkeiten beim Sammeln von Trainingsdatensätzen begrenzt.
Dieses Papier schlägt GeRM (Generic Robot Model) vor, bei dem Forscher Offline-Verstärkungslernen nutzen, um Datennutzungsstrategien zu optimieren, aus Demonstrationen und suboptimalen Daten zu lernen und so die Grenzen menschlicher Demonstrationen zu überwinden.
Autoren: Song Wenxuan, Zhao Han, Ding Pengxiang, Cui Can, Lu Shangke, Fan Yaning, Wang Donglin
Autor: West Lake University, Zhejiang University
Papieradresse: https: //arxiv.org/abs/2403.13358
Projektadresse: https://songwxuan.github.io/GeRM/
Dann wird ein Transformer-basiertes Vision-Language-Action-Modell zur multimodalen Verarbeitung verwendet Eingabe- und Ausgabeaktionen.
Durch die Einführung einer Experten-Hybridstruktur erreicht GeRM eine schnellere Inferenzgeschwindigkeit und eine höhere Gesamtkapazität des Modells. Dadurch wird das Problem des begrenzten Volumens der Verstärkungslernparameter gelöst, die Modellleistung beim Lernen mit mehreren Aufgaben verbessert und gleichzeitig die Kostenberechnung gesteuert.
Durch eine Reihe von Experimenten wurde nachgewiesen, dass GeRM bei allen Aufgaben andere Methoden übertrifft und gleichzeitig seine Effizienz in den Trainings- und Inferenzprozessen bestätigt.
Darüber hinaus stellten die Forscher auch den QUARD-Auto-Datensatz zur Verfügung, um das Training zu unterstützen. Der Aufbau dieses Datensatzes folgt dem im Artikel vorgeschlagenen neuen Paradigma der Datenautomatisierung und den Fortschritt des Multitasking-Lernens fördern.
Hauptbeiträge:
1 Zum ersten Mal ein hybrides Expertenmodell für vierbeiniges Verstärkungslernen vorgeschlagen, das auf Daten gemischter Qualität trainiert wird und das Potenzial hat, optimale Strategien zu erlernen.
2. Im Vergleich zu bestehenden Methoden zeigt GeRM eine höhere Erfolgsquote, wenn nur die Hälfte seiner eigenen Parameter aktiviert wird, und zeigt eine bessere Datennutzung während des Trainingsprozesses.
3. Schlug ein Paradigma für die vollautomatische Sammlung von Roboterdatensätzen vor und sammelte einen großen Open-Source-Datensatz.
Die GeRM-Netzwerkstruktur ist in Abbildung 1 dargestellt. Die visuell-linguistische Eingabe einschließlich Demonstrationsdaten und Fehlerdaten wird in den Decoder der 8-schichtigen Hybrid-Expertenstruktur eingegeben, nachdem sie den Encoder bzw. den Tokenizer durchlaufen hat. und generiert Aktionstoken, die schließlich in diskrete Roboteraktionsdaten umgewandelt und über die zugrunde liegende Strategie für den Roboter bereitgestellt werden.
Abbildung 1 GeRM-Netzwerkstrukturdiagramm
GeRM Decoder ist ein Transformer Decoder-Architekturmodell, bei dem das Feedforward-Netzwerk (FFN) aus einem Satz von 8 verschiedenen Expertennetzwerken ausgewählt wird.
Auf jeder Ebene wählt das Gated Network für jeden Token zwei Experten aus, die den Token verarbeiten und ihre Ergebnisse gewichtet kombinieren.
Verschiedene Experten beherrschen unterschiedliche Aufgaben/unterschiedliche Handlungsdimensionen, um Probleme in unterschiedlichen Szenarien zu lösen und erlernen so ein gemeinsames Modell über mehrere Aufgaben hinweg. Diese Architektur erweitert die Anzahl der Netzwerkparameter, während der Rechenaufwand im Wesentlichen unverändert bleibt.
Abbildung 2 Decoder-Strukturdiagramm
Wir schlagen ein automatisches Paradigma zum Sammeln multimodaler Daten von Robotern vor. Auf diese Weise haben wir QUARD-Auto erstellt, einen umfangreichen Robotikdatensatz, der eine Kombination aus Demonstrations- und suboptimalen Daten enthält. Es umfasst 5 Aufgaben und 99 Unteraufgaben mit insgesamt 257.000 Flugbahnen. Wir werden Open Source nutzen, um die Entwicklung der Robotik-Community zu fördern.
Tabelle 1 Einführung in den Datensatz
Abbildung 3 Datenvolumenstatistik
Wir führten eine umfassende und robuste Reihe von Experimenten durch, die alle 99 Teilaufgaben abdeckten, von denen jede sorgfältig an 400 Flugbahnen getestet wurde.
Wie in Tabelle 1 dargestellt, weist GeRM unter allen Aufgaben die höchste Erfolgsquote auf. Im Vergleich zu RT-1 und anderen GeRM-Varianten lernt es effektiv aus Daten unterschiedlicher Qualität, übertrifft andere Methoden und weist bei mehreren Aufgaben überlegene Fähigkeiten auf. Gleichzeitig gleicht das MoE-Modul Rechenkosten und Leistung aus, indem es einige Parameter während der Inferenz aktiviert.
Tabelle 2 Multitask-Vergleichsexperiment
GeRM zeigt eine lobenswerte Trainingseffizienz. Im Vergleich zu anderen Methoden erreicht GeRM mit nur wenigen Chargen einen extrem geringen Verlust und eine hohe Erfolgsquote, was die Fähigkeit von GeRM zur Optimierung von Datennutzungsstrategien unterstreicht.
Abbildung 4 Erfolgsraten-/Verluständerungskurve
GeRM hat neue Fähigkeiten in der dynamischen adaptiven Pfadplanung gezeigt. Wie im Video gezeigt, hat der vierbeinige Roboter in der Ausgangsposition ein eingeschränktes Sichtfeld und es ist schwierig, die Bewegungsrichtung zu bestimmen. Um dem Hindernis auszuweichen, wählt es zufällig eine Linkskurve.
Anschließend führt der Roboter bei fehlerhafter visueller Eingabe eine drastische Neuausrichtung durch, um sich auf das richtige Ziel außerhalb des ursprünglichen Sichtfelds auszurichten. Anschließend setzt es seinen Weg zu seinem Ziel fort und erfüllt schließlich seine Mission.
Es ist erwähnenswert, dass solche Trajektorien nicht in die Verteilung unseres Trainingsdatensatzes fallen. Dies zeigt die neuen Fähigkeiten von GeRM zur dynamischen adaptiven Pfadplanung im Kontext einer Szene, d. h. seine Fähigkeit, Entscheidungen auf der Grundlage visueller Wahrnehmung zu treffen, zukünftige Pfade zu planen und die nächsten Schritte nach Bedarf zu ändern.
Abbildung 5 Emergente Fähigkeit
Das obige ist der detaillierte Inhalt vonMeistern Sie 99 Untermissionen mit MoE! Die Zhejiang-Universität und andere schlugen eine neue allgemeine Roboterstrategie GeRM vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!