Warum bleibt die Robotik weit hinter der Verarbeitung natürlicher Sprache (NLP), dem Sehen und anderen Bereichen der künstlichen Intelligenz zurück? Neben anderen Schwierigkeiten ist die Datenknappheit der Hauptgrund. Um dieses Problem zu lösen, haben Google DeepMind und andere Institutionen den offenen X-Embodiment-Datensatz gestartet und erfolgreich ein leistungsfähigeres RT-X-Modell trainiert Auch die Forschung an verkörperten intelligenten Robotern, die große Modelle als Gehirne nutzen, um den Betrieb zu unterstützen, schreitet rasch voran.
Damals sagte ein Google-Manager, der RT-2 sei ein großer Fortschritt in der Art und Weise, wie Roboter gebaut und programmiert werden. „Aufgrund dieser Änderung mussten wir unseren gesamten Forschungsplan überdenken.“
Wie wird das erreicht?
Wir wissen, dass Roboter normalerweise sehr auf eine bestimmte Aufgabe spezialisiert sind, aber über schlechte allgemeine Fähigkeiten verfügen. Normalerweise müssen Sie für jede Aufgabe, jeden Roboter und jede Umgebung ein Modell trainieren. Das Ändern einer Variablen erfordert oft einen Neuanfang. Aber was wäre, wenn wir Wissen aus verschiedenen Bereichen der Robotik kombinieren könnten, um eine Möglichkeit zu schaffen, universelle Roboter zu trainieren?
Das macht DeepMind schon seit einiger Zeit. Sie führten Daten von 22 verschiedenen Robotertypen zusammen, um den Open X-Embodiment-Datensatz zu erstellen, und trainierten dann einen leistungsfähigeren RT-X (RT-1-X bzw. RT-2-X).
Sie testeten das RT-1-X-Modell in fünf verschiedenen Forschungslabors und die Ergebnisse zeigten, dass die neue Methode bei fünf verschiedenen häufig verwendeten Robotern im Vergleich zu Methoden, die für jeden Roboter unabhängig entwickelt wurden, eine um 50 % höhere Rate erzielte. . Sie zeigen auch, dass RT-2-X, das auf dem oben genannten Datensatz trainiert wurde, die Leistung bei realen Roboterfähigkeiten um den Faktor 2 verbessert und dass RT-2-X durch das Erlernen neuer Daten viele neue Fähigkeiten erlernt. Diese Arbeit zeigt, dass ein einzelnes Modell, das auf Daten mehrerer Robotertypen trainiert wurde, bei mehreren Robotern eine deutlich bessere Leistung erbringt als ein Modell, das auf Daten eines einzelnen Robotertyps trainiert wurde.
Es ist erwähnenswert, dass diese Forschung nicht von DeepMind unabhängig durchgeführt wurde, sondern das Ergebnis ihrer Zusammenarbeit mit 33 akademischen Labors war. Sie engagieren sich für eine offene und verantwortungsvolle Weiterentwicklung dieser Technologie. Derzeit stehen der breiten Forschungsgemeinschaft der Open X-Embodiment-Datensatz und der RT-1-X-Modellprüfpunkt zur Verfügung. Jim Fan, leitender Wissenschaftler für künstliche Intelligenz bei Nvidia, sagte, heute könnte der ImageNet-Moment für Roboter sein.
Google-Forscher Karol Hausman äußerte ebenfalls den gleichen Seufzer: Der ImageNet-Moment der Roboter ist endlich da.
Open X-Embodiment Dataset, ImageNet Moment for RoboticsAuf ihnen trainierte Datensätze und Modelle haben eine Schlüsselrolle bei der Weiterentwicklung der KI gespielt. So wie ImageNet die Computer-Vision-Forschung vorangetrieben hat, hat Open X-Embodiment auch die Robotik vorangetrieben. Der Aufbau vielfältiger Datensätze war schon immer der Schlüssel zum Training universeller Modelle. Diese trainierten Modelle können viele verschiedene Arten von Robotern steuern, unterschiedliche Anweisungen befolgen, grundlegende Überlegungen zu komplexen Aufgaben ausführen und allgemeine Aufgabenänderungen effizient durchführen. Allerdings wäre die Erhebung eines solchen Datensatzes für ein einzelnes Labor zu ressourcenintensiv. Zu diesem Zweck arbeitete DeepMind mit akademischen Forschungslaboren an 33 Institutionen zusammen, um den Open X-Embodiment-Datensatz zu erstellen. Sie sammelten Daten von 22 Roboterinstanzen in mehr als 1 Million Clips, die die Leistung der Roboter in mehr als 500 Fertigkeiten und 150.000 Aufgaben demonstrierten. Dieser Datensatz ist der umfassendste Robotik-Datensatz seiner Art. Beispiele aus dem Open X-Embodiment-Datensatz, einschließlich mehr als 500 Fertigkeiten und 150.000 Aufgaben. RT-X basiert auf zwei Robotertransformatoren (RT)-Modellen. Konkret trainierten sie RT-1-X mit RT-1, einem 35M-Parameternetzwerk, das auf der Transformer-Architektur aufbaut und für die Robotersteuerung konzipiert ist, wie in Abbildung 3 dargestellt.
Zusätzlich trainierten sie RT-2-X auf RT-2, einer Familie groß angelegter visueller Sprachaktionsmodelle (VLA), auf Internet-skalierten Seh- und Sprachdaten sowie Robotersteuerungsdaten.
Um RT-1-X zu bewerten, verglich DeepMind es mit Modellen, die für bestimmte Aufgaben entwickelt wurden, beispielsweise das Öffnen von Türen. Die Ergebnisse zeigen, dass RT-1-X, das mit dem Open X-Embodiment-Datensatz trainiert wurde, das Originalmodell im Durchschnitt um 50 % übertrifft. Die durchschnittliche Erfolgsquote von RT-1-X ist 50 % höher als die der ursprünglichen Methode.
关于 Die Wirkungsdarstellung von RT-1-X aus verschiedenen Kooperationsagenturen
RT-2-X: Neue Fähigkeiten der barrierefreien Erschließung Um die Wissensmigration von RT-X zu untersuchen Fähigkeiten führte DeepMind weitere Experimente durch. Diese Experimente umfassten Objekte und Fähigkeiten, die im RT-2-Datensatz nicht vorhanden waren, aber im Datensatz eines anderen Roboters. Die Ergebnisse zeigten, dass der RT-2-X beim Erlernen neuer Fähigkeiten dreimal erfolgreicher war als sein bisher bestes Modell, der RT-2. Dies verdeutlicht auch, dass RT-2-X durch gemeinsames Training mit Daten anderer Plattformen zusätzliche Fähigkeiten verleihen kann, die im Originaldatensatz nicht vorhanden sind, und so neuartige Aufgaben ausführen kann. Das Bild oben zeigt RT-2-Xs Verständnis der räumlichen Beziehung zwischen Objekten.
Eine Reihe von Ergebnissen zeigt, dass RT-2-X Fähigkeiten erreicht, die mit RT-2 bisher nicht erreichbar waren, einschließlich eines besseren Verständnisses des Weltraums. Wenn wir beispielsweise den Roboter auffordern, „den Apfel in die Nähe des Tuchs zu bewegen“ oder den Roboter auffordern, „den Apfel auf das Tuch zu bewegen“, um die Zielanforderungen zu erreichen, nimmt der Roboter völlig unterschiedliche Flugbahnen ein. Ändern Sie einfach die Präposition von „nahe“ auf „ein“, um die vom Roboter ausgeführten Aktionen anzupassen.
RT-2-X zeigt, dass die Einbeziehung von Daten anderer Roboter in das RT-2-X-Training das Aufgabenspektrum des Roboters verbessern kann, allerdings nur, wenn eine ausreichend leistungsfähige Architektur verwendet wird.
Die Robotikforschung befindet sich in einem aufregenden Anfangsstadium. Diese neue Studie von DeepMind zeigt, dass es durch die Skalierung des Lernens mit vielfältigeren Daten und besseren Modellen möglich sein könnte, nützlichere unterstützende Roboter zu entwickeln. Die Zusammenarbeit und der Austausch von Ressourcen mit Laboren auf der ganzen Welt sind von entscheidender Bedeutung, um die Robotikforschung auf offene und verantwortungsvolle Weise voranzutreiben. DeepMind hofft, durch die Öffnung von Datenquellen und die Bereitstellung sicherer, aber begrenzter Modelle Hindernisse abzubauen und die Forschung zu beschleunigen. Die Zukunft der Robotik hängt davon ab, dass Roboter voneinander lernen und, was am wichtigsten ist, dass Forscher voneinander lernen können.
Diese Arbeit beweist, dass das Modell in verschiedenen Umgebungen verallgemeinert werden kann und seine Leistung erheblich verbessert wird, sei es auf Robotern von Google DeepMind oder Robotern an verschiedenen Universitäten auf der ganzen Welt. Zukünftige Forschungen könnten untersuchen, wie diese Fortschritte mit den Selbstverbesserungseigenschaften von RoboCat kombiniert werden können, sodass sich das Modell basierend auf seinen eigenen Erfahrungen kontinuierlich verbessern kann. Eine weitere zukünftige Richtung besteht darin, weiter zu untersuchen, wie sich das Mischen verschiedener Datensätze auf die Generalisierung übergreifender Agenten auswirkt und wie diese Generalisierung erreicht wird. Wenn Sie mehr über RT-X erfahren möchten, können Sie auf dieses von DeepMind veröffentlichte Papier verweisen: Papierlink: https://robotics-transformer-x.github.io / paper.pdf
Projektlink: https://robotics-transformer-x.github.io/Referenzlink: https://www.deepmind.com/blog/scaling - Up-Learning-über-viele-verschiedene-Robotertypen hinwegDas obige ist der detaillierte Inhalt vonDer Deep-Learning-Riese DeepMind hat beim ImageNet-Datensatz bahnbrechende Fortschritte erzielt und damit einen neuen Meilenstein in der Robotikforschung gesetzt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!