Kürzlich verwendeten Forscher von UCSD-, IAIFI- und MIT-Institutionen eine neue neuronale volumetrische Speicherarchitektur (NVM), um einem Roboterhund beizubringen, die dreidimensionale Welt wahrzunehmen.
Mit dieser Technologie kann der Roboterhund über ein einziges neuronales Netzwerk Treppen steigen, Lücken überqueren, Hindernisse überwinden usw. – völlig autonom, ohne dass eine Fernbedienung erforderlich ist.
Ich frage mich, ob Ihnen das weiße Kästchen auf dem Rücken des Hundes aufgefallen ist?
Er ist mit Apples M1-Chip ausgestattet, der für die visuellen Verarbeitungsaufgaben des Roboterhundes verantwortlich ist. Darüber hinaus entfernte das Team es von einem Mac.
Es ist nicht schwer zu erkennen, dass dieser Roboterhund vom MIT (im Grunde genommen) mühelos einen Astabschnitt vor sich erklimmen kann.
Wie wir alle wissen, ist es für Roboterhunde und Roboter mit anderen Beinen sehr schwierig, unebene Straßen zu überqueren.
Je komplexer die Straßenverhältnisse sind, desto mehr Hindernisse gibt es, die nicht sichtbar sind.
Um das Problem der „teilweise beobachtbaren Umgebung“ zu lösen, verbindet die aktuelle Visual-Motion-Technologie von SOTA Bildkanäle durch Frame-Stacking.
Diese einfache Verarbeitungsmethode bleibt jedoch weit hinter der aktuellen Computer-Vision-Technologie zurück, die den optischen Fluss und bestimmte 3D-Geometrien explizit modellieren kann.
Davon inspiriert schlug das Team eine neuronale Volumenspeicherarchitektur (NVM) vor, die die SE(3)-Äquivalenz der dreidimensionalen Welt vollständig berücksichtigen kann.
Projektadresse: https://rcchayang.github.io/NVM/
Anders als frühere Methoden ist NVM ein volumetrisches Format. Es aggregiert Merkmalsvolumina aus mehreren Kameraansichten im egozentrischen Rahmen des Roboters und ermöglicht so dem Roboter, seine Umgebung besser zu verstehen.
Die Testergebnisse zeigen, dass nach dem Einsatz des neuronalen volumetrischen Gedächtnisses (NVM) zum Trainieren der Beinbewegungen die Leistung des Roboters auf komplexem Gelände deutlich besser ist als bei der bisherigen Technologie.
Darüber hinaus zeigen die Ergebnisse der Ablationsexperimente, dass der im neuronalen volumetrischen Gedächtnis gespeicherte Inhalt genügend geometrische Informationen erfasst, um die 3D-Szene zu rekonstruieren.
Um dies in verschiedenen realen Szenarien außerhalb von Simulationen zu überprüfen, führte das Team Experimente sowohl in Innen- als auch in Außenszenarien durch.
Wenn der Roboterhund feststellt, dass plötzlich ein Hindernis vor ihm auftaucht, weicht er diesem sofort aus.
Das Gehen auf dem felsigen Untergrund scheint kein Problem zu sein, obwohl es immer noch anstrengender ist als auf flachem Untergrund.
Hindernisse, die im Vergleich zu einem selbst relativ groß sind, können dennoch mit harter Arbeit überwunden werden.
Unter Verwendung der bisherigen Erkennungskontrolltechnologie machten die Hinterbeine des Welpen offensichtlich Fehler bei der Einschätzung der Entfernung. Er trat in einen Graben und überschlug sich, was jedoch fehlschlug.
Nachdem der Welpe das vom MIT vorgeschlagene NVM übernommen hatte, überquerte er den Graben, stabiles Glück und Erfolg!
Mit der bisherigen Erkennungskontrolltechnologie verfehlte der Welpe mit seinem ersten Tritt das Ziel, der Kopf des Hundes packte den Boden und scheiterte.
Nachdem der Welpe das vom MIT vorgeschlagene NVM übernommen hatte, lief der Welpe reibungslos durch die Matrix.
Volumengedächtnis von Beinbewegungen
Die Verwendung einer egozentrischen Kameraperspektive ist im Wesentlichen ein Problem im Umgang mit einer „teilweise beobachtbaren Umgebung“ (teilweise beobachtet).
Um das Steuerungsproblem konkret zu machen, muss der Roboter Informationen aus vorherigen Frames sammeln und verdecktes Gelände korrekt ableiten.
Während der Bewegung erfährt die direkt am Roboterchassis montierte Kamera drastische und plötzliche Positionsänderungen.
Auf diese Weise wird es bei der Charakterisierung einer Bildserie sehr wichtig, dass ein einzelner Rahmen an der richtigen Position platziert werden kann.
Zu diesem Zweck kann das vom Team vorgeschlagene Konzept des Neural Volume Memory (NVM) eine Reihe eingegebener visueller Informationen in Szenenmerkmale für die 3D-Darstellung umwandeln und dann ausgeben.
Während das „Ziel des Verhaltensklonens“ ausreicht, um eine gute Strategie zu entwickeln, sorgt die Äquivarianz von Übersetzung und Rotation automatisch für ein unabhängiges, selbstüberwachtes Lernen Ziele.
Selbstüberwachtes Lernen: Das Forschungsteam trainierte einen unabhängigen Decoder. Lassen Sie visuelle Beobachtungen in verschiedenen Frames vorhersagen, indem Sie eine visuelle Beobachtung durchführen und den Übergang zwischen zwei Frames schätzen.
Wie im Bild oben gezeigt, kann davon ausgegangen werden, dass die umgebende 3D-Szene zwischen den Bildern unverändert bleibt. Da die Kamera nach vorne blickt, können wir die Feature-Lautstärke aus vorherigen Bildern normalisieren und zur Vorhersage nachfolgender Bilder verwenden.
Das erste Bild zeigt die Bewegung des Roboters in der Umgebung, das zweite Bild ist das eingegebene visuelle Beobachtungsergebnis und das dritte Bild ist die Vision, die unter Verwendung des 3D-Feature-Volumens und des geschätzten Bildes Observe synthetisiert wurde die Wirkung.
Für die visuelle Beobachtung der Eingabe wendete das Forschungsteam zahlreiche Datenverbesserungen an den Bildern an, um die Robustheit des Modells zu verbessern.
#? #Ruihan Yan
#🎜🎜 # #🎜🎜 # Ruihan Yan ist Doktorand im zweiten Jahr an der University of California, San Diego. Zuvor erwarb er 2019 einen Bachelor-Abschluss in Software Engineering an der Nankai University. Seine Forschungsinteressen sind Reinforcement Learning, maschinelles Lernen, Robotik usw. Konkret möchte er intelligente Agenten bauen, die Informationen aus verschiedenen Quellen nutzen, um Entscheidungen zu treffen. #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜#Ge yang#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜Ge Yangs Forschung umfasst zwei Gruppen verwandter Fragen. Die erste Gruppe besteht darin, das Lernen zu verbessern, indem wir die Art und Weise überdenken, wie wir Wissen in neuronalen Netzen darstellen und wie Wissen über Verteilungen hinweg übertragen wird. Die zweite Gruppe befasst sich mit Verstärkungslernen durch die Linse theoretischer Werkzeuge wie neuronaler Tangentenkerne, nichteuklidischer Geometrie und Hamilton-Dynamik.
Xiaolong Wang
#🎜🎜 # #🎜🎜 #
Xiaolong Wang ist Assistenzprofessorin in der ECE-Abteilung der University of California, San Diego. Er ist Mitglied des Robotikteams am TILOS National Science Foundation Institute for Artificial Intelligence.
Er promovierte in Robotik an der Carnegie Mellon University und forschte als Postdoktorand an der University of California, Berkeley.
Das obige ist der detaillierte Inhalt vonUCSD, MIT und andere chinesische Teams bringen Roboterhunden bei, die 3D-Welt wahrzunehmen! Mit dem M1-Chip können Sie Treppen steigen und Hindernisse überwinden.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!