Lassen Sie den Roboter Ihr „Hier sind Sie' spüren. Das Tsinghua-Team nutzt Millionen von Szenarien, um eine universelle Mensch-Maschine-Übergabe zu schaffen-KI-php.cn

Forscher des Interdisziplinären Informationsinstituts der Tsinghua-Universität schlugen ein Framework namens „GenH2R“ vor, das es Robotern ermöglichen soll, eine universelle, auf Visionen basierende Strategie zur Übergabe von Mensch und Maschine zu erlernen. Diese Strategie ermöglicht es dem Roboter, verschiedene Objekte mit unterschiedlichen Formen und komplexen Bewegungsbahnen zuverlässiger zu fangen, was neue Möglichkeiten für die Mensch-Computer-Interaktion eröffnet. Diese Forschung stellt einen wichtigen Durchbruch für die Entwicklung des Bereichs der künstlichen Intelligenz dar und bringt größere Flexibilität und Anpassungsfähigkeit bei der Anwendung von Robotern in realen Szenarien.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Mit dem Aufkommen der Ära der verkörperten Intelligenz (verkörperte KI) erwarten wir, dass intelligente Körper aktiv mit der Umwelt interagieren. Dabei ist es von entscheidender Bedeutung, Roboter in die menschliche Lebenswelt zu integrieren und mit Menschen zu interagieren (Human Robot Interaction). Wir müssen darüber nachdenken, wie wir menschliches Verhalten und Absichten verstehen, ihre Bedürfnisse auf eine Weise erfüllen können, die den menschlichen Erwartungen am besten entspricht, und den Menschen in den Mittelpunkt der verkörperten Intelligenz stellen (Human-Centered Embodied AI). Eine der Schlüsselkompetenzen ist die verallgemeinerbare Mensch-zu-Roboter-Übergabe, die es Robotern ermöglicht, besser mit Menschen zusammenzuarbeiten, um eine Vielzahl alltäglicher Aufgaben wie Kochen, Heimorganisation und Möbelmontage zu erledigen.

Die explosionsartige Entwicklung großer Modelle zeigt, dass umfangreiche, qualitativ hochwertige Daten + groß angelegtes Lernen ein möglicher Weg zur allgemeinen Intelligenz sind. Können also allgemeine Fähigkeiten zur Mensch-Maschine-Übergabe durch umfangreiche Roboterdaten und umfangreiches Lernen erworben werden? Scale-Strategie-Nachahmung? Es ist jedoch gefährlich und teuer, groß angelegtes interaktives Lernen zwischen Robotern und Menschen in der realen Welt zu ermöglichen, und die Maschine wird wahrscheinlich Menschen schaden:

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Trainieren Sie in einer Simulationsumgebung und nutzen Sie menschliche Simulationen und Dynamik Erfassen der Bewegungsplanung, um automatisch eine große Menge unterschiedlicher Roboter-Lerndaten bereitzustellen und diese Daten dann auf reale Roboter anzuwenden. Diese lernbasierte Methode wird als „Sim-to-Real-Transfer“ bezeichnet und kann die Beziehung zwischen Robotern und echten Robotern erheblich verbessern Roboter. Kollaborative Interaktionsfähigkeiten zwischen Menschen mit höherer Zuverlässigkeit.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Daher wurde das „GenH2R“-Framework vorgeschlagen, das von drei Perspektiven ausgeht: Simulation, Demonstration und Nachahmung, um Robotern erstmals ein durchgängiges Lernen zu ermöglichen jede Greifmethode, jede Übergabetrajektorie und jede Objektgeometrie: 1) Bietet Millionen von Ebenen verschiedener komplexer Simulationsübergabeszenarien, die in der „GenH2R-Sim“-Umgebung einfach zu generieren sind, 2) Führt eine Reihe automatisierter Expertendemonstrationsgenerierung ein Prozess basierend auf Vision-Aktion-Zusammenarbeit, 3) Verwendung der Imitation Learning-Methode basierend auf 4D-Informationen und Vorhersageunterstützung (Punktwolke + Zeit).

Im Vergleich zur SOTA-Methode (CVPR2023 Highlight) ist die durchschnittliche Erfolgsrate der GenH2R-Methode bei verschiedenen Testsätzen um 14 % erhöht, die Zeit wird um 13 % verkürzt und sie ist in realen Maschinenexperimenten robuster.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Papieradresse: https://arxiv.org/abs/2401.00929
Papierhomepage: https://GenH2R.github.io.
Papier Video: https: //youtu.be/BbphK5QlS1Y

Einführung in die Methode

Um Spielern zu helfen, die das Level noch nicht abgeschlossen haben, lernen wir die spezifischen Rätsellösungsmethoden von „Simulation Environment (GenH2R-Sim)“ kennen )".

Um hochwertige, umfangreiche Datensätze menschlicher Handobjekte zu generieren, modelliert die GenH2R-Sim-Umgebung die Szene im Hinblick auf Greifhaltungen und Bewegungsbahnen.

In Bezug auf Greifposen führte GenH2R-Sim umfangreiche 3D-Objektmodelle von ShapeNet ein, wählte 3266 für die Übergabe geeignete Alltagsobjekte aus und generierte mithilfe der geschickten Greifgenerierungsmethode (DexGraspNet) insgesamt 100 Eine Szene mit Dutzenden Tausende Hände greifen nach einem Gegenstand. In Bezug auf Bewegungstrajektorien verwendet GenH2R-Sim mehrere Kontrollpunkte, um mehrere glatte Bézier-Kurven zu erzeugen, und führt die Drehung menschlicher Hände und Objekte ein, um verschiedene komplexe Bewegungstrajektorien von handgelieferten Objekten zu simulieren.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

In den 1 Million Szenen von GenH2R-Sim übertrifft es nicht nur die neuesten Arbeiten in Bezug auf Bewegungsbahnen (1.000 vs. 1 Million) und Anzahl der Objekte (20 vs. 3266) bei weitem, sondern führt auch Methoden ein, die diesem nahe kommen Interaktive Informationen (z. B. wenn der Roboterarm nah genug am Objekt ist, stoppt der Mensch die Bewegung und wartet, bis die Übergabe abgeschlossen ist) und nicht die einfache Wiedergabe der Flugbahn. Obwohl die durch Simulation generierten Daten nicht vollständig realistisch sein können, zeigen experimentelle Ergebnisse, dass Simulationsdaten in großem Maßstab lernförderlicher sind als reale Daten in kleinem Maßstab.

B. Groß angelegte Generierung von Expertenbeispielen, die die Destillation erleichtern

Basierend auf groß angelegten Daten zur Bewegungsbahn von menschlichen Händen und Objekten generiert GenH2R automatisch eine große Anzahl von Expertenbeispielen. Die von GenH2R gesuchten „Experten“ sind verbesserte Bewegungsplaner (z. B. OMG Planner). Bei diesen Methoden handelt es sich um eine nicht lernende, steuerungsbasierte Optimierung, die nicht auf visuelle Punktwolken angewiesen ist und häufig bestimmte Szenenzustände (z. B. die Zielerfassungsposition) erfordert des Objekts). Um sicherzustellen, dass das nachfolgende visuelle Richtliniennetzwerk lernförderliche Informationen destillieren kann, muss sichergestellt werden, dass die von den „Experten“ bereitgestellten Beispiele eine Korrelation zwischen Vision und Aktion aufweisen. Wenn der endgültige Landepunkt während der Planung bekannt ist, kann der Roboterarm die Sicht ignorieren und direkt zur endgültigen Position planen, um zu „warten und zu warten“. Dies kann dazu führen, dass die Kamera des Roboters das Objekt nicht sehen kann Nachgeschaltetes visuelles Strategienetzwerk; Wenn der Roboterarm basierend auf der Position des Objekts häufig neu geplant wird, kann dies dazu führen, dass sich der Roboterarm diskontinuierlich bewegt und seltsame Formen annimmt, was ein angemessenes Greifen unmöglich macht.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Um destillationsfreundliche Expertenbeispiele zu generieren, führt GenH2R Landmark Planning ein. Die Bewegungsbahn der menschlichen Hand wird entsprechend der Glätte und Entfernung der Flugbahn in mehrere Segmente unterteilt, wobei Landmark als Segmentierungsmarke dient. In jedem Segment ist die Flugbahn der menschlichen Hand gleichmäßig und die Expertenmethode plant in Richtung der Landmark-Punkte. Dieser Ansatz gewährleistet sowohl die visuelle Aktionskorrelation als auch die Aktionskontinuität.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

C. Vorhersagegestütztes 4D-Nachahmungs-Lernnetzwerk

GenH2R nutzt die Nachahmungs-Lernmethode, um ein 4D-Richtliniennetzwerk zur Beobachtung der Zeitreihen-Punktwolkeninformationen aufzubauen Führen Sie geometrische und kinematische Zerlegungen durch. Für jede Frame-Punktwolke wird die Posentransformation zwischen der Punktwolke des vorherigen Frames und dem iterativen Algorithmus für den nächstgelegenen Punkt berechnet, um die Flussinformationen jedes Punkts abzuschätzen, sodass die Punktwolke jedes Frames alle Bewegungseigenschaften aufweist. Dann wird PointNet++ verwendet, um jeden Frame der Punktwolke zu kodieren und schließlich nicht nur die endgültige erforderliche 6D-egozentrische Aktion zu dekodieren, sondern auch eine Vorhersage der zukünftigen Pose des Objekts auszugeben, wodurch die Fähigkeit des Richtliniennetzwerks verbessert wird, zukünftige Hand- und Objektbewegungen vorherzusagen .

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Im Gegensatz zu komplexeren 4D-Backbones (z. B. Transformer-basiert) verfügt diese Netzwerkarchitektur über eine sehr hohe Inferenzgeschwindigkeit und eignet sich besser für Mensch-Computer-Interaktionsszenarien wie die Übergabe von Objekten, die eine geringe Latenz erfordern Gleichzeitig kann es auch Timing-Informationen effektiv nutzen und so ein Gleichgewicht zwischen Einfachheit und Effektivität erreichen.

Experiment

Ein Simulationsumgebungsexperiment

GenH2R- und SOTA-Methoden wurden mit der Methode unter Verwendung kleiner realer Daten verglichen. GenH2R-Sim Die Methode zur Verwendung großer Durch groß angelegte Simulationsdaten für das Training können erhebliche Vorteile erzielt werden (die Erfolgsquote bei verschiedenen Testsätzen wird um durchschnittlich 14 % erhöht und die Zeit wird um 13 % verkürzt).

Im realen Datentestsatz s0 kann die GenH2R-Methode komplexere Objekte erfolgreich übergeben und die Haltung im Voraus anpassen, um häufige Haltungsanpassungen zu vermeiden, wenn sich der Greifer in der Nähe des Objekts befindet:

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Im Simulationsdatentestsatz t0 (eingeführt von GenH2R-sim) kann die Methode von GenH2R die zukünftige Lage des Objekts vorhersagen, um eine vernünftigere Annäherungsbahn zu erreichen:

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Im realen Datentestsatz t1 ( GenH2R-sim wurde von HOI4D eingeführt (ungefähr siebenmal größer als der s0-Testsatz früherer Arbeiten). Die Methode von GenH2R kann auf unsichtbare reale Objekte mit unterschiedlichen Geometrien verallgemeinert werden.

B. Reales Maschinenexperiment

GenH2R setzt die erlernten Strategien auch auf den Roboterarm in der realen Welt ein, um den „Simul-to-Real“-Sprung zu vollenden.

Für komplexere Bewegungsbahnen (z. B. Rotation) zeigt die Strategie von GenH2R eine stärkere Anpassungsfähigkeit; für komplexere Geometrien kann die Methode von GenH2R eine stärkere Verallgemeinerung zeigen:

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

GenH2R hat reale Maschinentests und Benutzerforschung abgeschlossen verschiedene Übergabeobjekte, die eine starke Robustheit beweisen.

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

Weitere Experimente und Methoden finden Sie auf der Paper-Homepage.

Teamvorstellung

Dieser Artikel stammt vom 3DVICI Lab der Tsinghua University, dem Shanghai Artificial Intelligence Laboratory und dem Shanghai Qizhi Research Institute. Die Autoren des Artikels sind die Studenten der Tsinghua University, Wang Zifan (Co-Autor), Chen Junyu (Co -Autor), Chen Ziqing und Xie Pengwei, die Dozenten sind Yi Li und Chen Rui.

Das 3D Vision Computing and Machine Intelligence Laboratory (3DVICI Lab) der Tsinghua University ist ein Labor für künstliche Intelligenz im Institut für interdisziplinäre Information der Tsinghua University. Es wurde von Professor Yi Li gegründet und geleitet. Das 3DVICI Lab befasst sich mit den aktuellsten Themen des allgemeinen dreidimensionalen Sehens und der intelligenten Roboterinteraktion in der künstlichen Intelligenz. Seine Forschungsrichtungen umfassen verkörperte Wahrnehmung, Interaktionsplanung und -generierung, Mensch-Maschine-Kollaboration usw. und stehen in engem Zusammenhang mit der Anwendung Bereiche wie Roboter, virtuelle Realität und autonomes Fahren. Das Forschungsziel des Teams besteht darin, intelligenten Agenten zu ermöglichen, die dreidimensionale Welt zu verstehen und mit ihr zu interagieren. Die Ergebnisse wurden in wichtigen Top-Computerkonferenzen und Fachzeitschriften veröffentlicht.

Das obige ist der detaillierte Inhalt vonLassen Sie den Roboter Ihr „Hier sind Sie' spüren. Das Tsinghua-Team nutzt Millionen von Szenarien, um eine universelle Mensch-Maschine-Übergabe zu schaffen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!