Fast zeitgleich mit Stanfords „Shrimp Fried and Dishwashing“-Roboter veröffentlichte Google DeepMind auch seine neuesten Ergebnisse der verkörperten Intelligenz.
... - schnell Gleichzeitig hat die Qualität nicht abgenommen und die Genauigkeit ist um 10,6 % gestiegen.Dann gibt es ein neues Framework
spezialisiert auf Generalisierungsfähigkeiten, das Bewegungsbahnaufforderungen für den Roboter erstellen kann, sodass dieser 41 noch nie dagewesene Aufgaben bewältigen und eine Erfolgsquote von 63 % erreichen kann.
Unterschätzen Sie diese Vielfalt nicht,
Im Vergleich zu den vorherigen 29 % ist die Verbesserung ziemlich groß. Das letzte ist ein
Roboterdatenerfassungssystem, das 20 Roboter gleichzeitig verwalten kann. Bisher wurden 77.000 experimentelle Daten aus ihren Aktivitäten gesammelt. Sie werden Google dabei helfen, die nachfolgende Trainingsarbeit besser abzuschließen.
Was sind also diese drei Ergebnisse konkret? Schauen wir sie uns einzeln an.
Der erste Schritt in der täglichen Anwendung von Robotern: Sie können Aufgaben, die Sie noch nie zuvor gesehen haben, direkt ausführen.Google wies darauf hin, dass zwei grundlegende Herausforderungen gelöst werden müssen, um einen Roboter zu realisieren, der wirklich in die reale Welt eindringen kann. 1. Neue Fähigkeit zur Aufgabenförderung
2. Verbesserung der EntscheidungsgeschwindigkeitDie ersten beiden Ergebnisse dieser dreiteiligen Serie sind hauptsächlich Verbesserungen in diesen beiden Bereichen und basieren beide auf Googles grundlegendem Robotermodell Robotics Transformer
( Abgekürzt als RT).
RT-Trajectory
, die Robotern bei der Verallgemeinerung hilft.
Für Menschen sind Aufgaben wie das Reinigen des Tisches leicht zu verstehen, aber Roboter verstehen es nicht sehr gut.
Aber glücklicherweise können wir ihm diese Anweisung auf vielfältige Weise vermitteln, sodass er tatsächlich körperliche Maßnahmen ergreifen kann. Im Allgemeinen besteht die traditionelle Methode darin, die Aufgabe einer bestimmten Aktion zuzuordnen und sie dann vom Roboterarm ausführen zu lassen. Beispielsweise kann das Abwischen des Tisches in „Klammer schließen, nach links bewegen, nach rechts bewegen“ zerlegt werden.
Offensichtlich ist die Generalisierungsfähigkeit dieser Methode sehr schlecht. Hier bringt Googles neu vorgeschlagene RT-Trajectory dem Roboter bei, Aufgaben zu erledigen, indem sie ihn mit visuellen Hinweisen versorgt.
Konkret werden von RT-Trajectory gesteuerte Roboter während des Trainings 2D-Trajektorien-verbesserte Daten hinzufügen. Diese Flugbahnen werden als RGB-Bilder dargestellt, einschließlich Routen und Schlüsselpunkten, und liefern einfache, aber sehr nützliche Hinweise, während der Roboter lernt, Aufgaben auszuführen. Mit diesem Modell wurde die Erfolgsquote von Robotern, die noch nie dagewesene Aufgaben ausführen, direkt um das 1-fache erhöht(im Vergleich zu Googles Basisrobotermodell RT-2, von 29 % => 63 %)
. Was noch erwähnenswert ist, ist, dass RT-Trajectory Flugbahnen auf verschiedene Arten erstellen kann, unter anderem:durch das Ansehen menschlicher Demonstrationen, das Akzeptieren handgezeichneter Skizzen und die Generierung durch VLM (Visual Language Model)
.Der zweite Schritt der täglichen Robotisierung: Die Entscheidungsgeschwindigkeit muss schnell seinNachdem die Generalisierungsfähigkeit verbessert wurde, konzentrieren wir uns auf die Entscheidungsgeschwindigkeit.
Das RT-Modell von Google verwendet die Transformer-Architektur. Obwohl der Transformer leistungsstark ist, ist er stark auf das Aufmerksamkeitsmodul mit quadratischer Komplexität angewiesen.
Sobald also die Eingaben in das RT-Modell verdoppelt werden (z. B. die Ausstattung des Roboters mit einem Sensor mit höherer Auflösung)
Um die Geschwindigkeit von Robotern zu verbessern, hat Google
auf dem Basismodell Robotics Transformer entwickelt.
SARA-RT verwendet eine neue Methode zur Modellfeinabstimmung, um das ursprüngliche RT-Modell effizienter zu machen.
Diese Methode wird von Google als „Up-Training“ bezeichnet. Ihre Hauptfunktion besteht darin, die ursprüngliche quadratische Komplexität in lineare Komplexität umzuwandeln und dabei die Verarbeitungsqualität beizubehalten.
Wenn SARA-RT auf das RT-2-Modell mit Milliarden von Parametern angewendet wird, kann letzteres bei einer Vielzahl von Aufgaben schnellere Betriebsgeschwindigkeiten und höhere Genauigkeit erreichen.
Erwähnenswert ist auch, dass SARA-RT eine universelle Methode zur Beschleunigung von Transformer ohne teures Vortraining bietet, sodass es gut gefördert werden kann.
Um Robotern dabei zu helfen, die von Menschen zugewiesenen Aufgaben besser zu verstehen, begann Google auch mit Daten und baute direkt ein Erfassungssystem auf: AutoRT.
Dieses System kombiniert große Modelle (einschließlich LLM und VLM) mit Robotersteuerungsmodellen (RT) , um den Roboter kontinuierlich anzuweisen, verschiedene Aufgaben in der realen Welt auszuführen und so Daten zu generieren und zu sammeln.
Der spezifische Prozess ist wie folgt:
Lassen Sie den Roboter „frei“ mit der Umgebung in Kontakt treten und sich dem Ziel nähern.
Dann verwenden Sie die Kamera und das VLM-Modell, um die Szene vor Ihnen zu beschreiben, einschließlich der spezifischen Elemente.
Dann verwendet LLM diese Informationen, um verschiedene Aufgaben zu generieren.
Bitte beachten Sie, dass der Roboter nach der Generierung nicht sofort ausgeführt wird. Stattdessen wird LLM verwendet, um zu filternwelche Aufgaben unabhängig erledigt werden können, welche eine menschliche Fernsteuerung erfordern und welche nicht erledigt werden können alle.
Was nicht möglich ist, ist „die Tüte mit Kartoffelchips zu öffnen“, da dafür zwei Roboterarme (standardmäßig nur 1) erforderlich sind.
Nach Abschluss dieser Screening-Aufgabe kann der Roboter sie dann tatsächlich ausführen.
Schließlich schließt das AutoRT-System die Datenerfassung ab und führt eine Diversitätsbewertung durch.
Berichten zufolge kann AutoRT bis zu 20 Roboter gleichzeitig koordinieren. In 7 Monaten wurden insgesamt 77.000 Testdaten, darunter 6.650 einzigartige Aufgaben, gesammelt.
Schließlich legt Google bei diesem System auch Wert auf Sicherheit.
Schließlich gelten die Erfassungsaufgaben von AutoRT für die reale Welt und „Sicherheitsleitplanken“ sind unverzichtbar.
Konkret ist der vom LLM bereitgestellte Basic Safety Code, der Roboter auf Aufgaben überprüft, teilweise von Isaac Asimovs Drei Gesetzen der Robotik inspiriert – in erster Linie „Ein Roboter darf einem Menschen keinen Schaden zufügen.“
Die zweite Anforderung lautet dass der Roboter keine Aufgaben ausführen darf, an denen Menschen, Tiere, scharfe Gegenstände oder Elektrogeräte beteiligt sind
Aber das reicht nicht aus
Daher ist AutoRT auch in der regulären Robotik mit mehreren Ebenen praktischer Sicherheitsmaßnahmen ausgestattet. Beispielsweise stoppt der Roboter automatisch, wenn die Kraft auf seine Gelenke überschreitet einen bestimmten Schwellenwert, alle Aktionen können durch physische Schalter gestoppt werden, die im menschlichen Sichtfeld bleiben, und mehr
Möchten Sie mehr über diese neuesten Ergebnisse von Google erfahren
Gute Neuigkeiten, außer für RT-Trajectory, das nur Artikel veröffentlicht, wird der Rest zusammen mit dem Code und den Artikeln veröffentlicht. Sie können gerne nach weiteren ~
One More Thing
erwähnen (Alle Ergebnisse dieses Artikels basieren auch darauf) Die Erstellung dieses Modells dauerte 7 Monate und wurde Ende Juli dieses Jahres veröffentlicht.
Es bettet das visuelle Text-Multimodal ein Modell VLM kann nicht nur „menschliche Wörter“ verstehen, sondern auch über „menschliche Wörter“ nachdenken und einige Aufgaben ausführen, die nicht in einem Schritt erledigt werden können, wie zum Beispiel das genaue Aufsammeln „ausgestorbener Tiere“ aus drei Plastikspielzeugen: Löwen, Wale und Dinosaurier. ", sehr erstaunlich.Jetzt, in etwas mehr als 5 Monaten, hat es schnelle Verbesserungen in der Verallgemeinerungsfähigkeit und der Entscheidungsgeschwindigkeit erlebt. Wir können nicht anders, als zu seufzen: Ich kann es mir nicht vorstellen dass ein Roboter wirklich in die Welt stürmt. Wie schnell wird er für Tausende von Haushalten sein?
Das obige ist der detaillierte Inhalt vonDer DeepMind-Roboter von Google hat drei Ergebnisse in Folge veröffentlicht! Beide Funktionen wurden vollständig verbessert und das Datenerfassungssystem kann 20 Roboter gleichzeitig verwalten.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!