Inhaltsverzeichnis
Übersicht der Methoden
In den Demos fügten sie zusätzlich zu den Demos auch automatisch gesammelte Fehlerereignis-Snippets hinzu, um einen Datensatz zu erstellen. Dieser Datensatz enthält 38.000 positive Beispiele aus der Demo und 20.000 automatisch gesammelte negative Beispiele
Heim Technologie-Peripheriegeräte KI Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Sep 22, 2023 am 09:53 AM
ai 模型

Wenn wir bei der Entwicklung von Roboterlernmethoden große und unterschiedliche Datensätze integrieren und leistungsstarke Ausdrucksmodelle (wie Transformer) verwenden können, können wir damit rechnen, Strategien zu entwickeln, die über Generalisierungsfähigkeiten verfügen und breit anwendbar sind. Roboter können lernen, mit einer Vielzahl umzugehen unterschiedlicher Aufgaben sehr gut. Diese Strategien ermöglichen es Robotern beispielsweise, Anweisungen in natürlicher Sprache zu befolgen, mehrstufige Verhaltensweisen auszuführen, sich an verschiedene Umgebungen und Ziele anzupassen und sogar auf verschiedene Roboterformen anzuwenden.

Die leistungsstarken Modelle, die kürzlich im Bereich des Roboterlernens aufgetaucht sind, werden jedoch alle mit überwachten Lernmethoden trainiert. Daher wird die Leistung der resultierenden Strategie durch das Ausmaß begrenzt, in dem menschliche Demonstratoren qualitativ hochwertige Demonstrationsdaten liefern können. Für diese Einschränkung gibt es zwei Gründe.

  • Erstens wollen wir, dass Robotersysteme leistungsfähiger sind als menschliche Teleoperatoren und das volle Potenzial der Hardware ausschöpfen, um Aufgaben schnell, reibungslos und zuverlässig zu erledigen.
  • Zweitens hoffen wir, dass das Robotersystem besser darin ist, Erfahrungen automatisch zu sammeln, anstatt sich ausschließlich auf qualitativ hochwertige Demonstrationen zu verlassen.

Grundsätzlich kann Reinforcement Learning diese beiden Fähigkeiten gleichzeitig vermitteln.

In letzter Zeit gab es einige vielversprechende Entwicklungen, die zeigen, dass groß angelegtes Lernen zur Verstärkung von Robotern in einer Vielzahl von Anwendungsszenarien erfolgreich sein kann, z. B. beim Greifen und Stapeln von Robotern, beim Erlernen verschiedener Aufgaben mit vom Menschen festgelegten Belohnungen und beim Lernen mehrerer -Aufgabenrichtlinien, zielbasierte Lernrichtlinien und Roboternavigation. Untersuchungen zeigen jedoch, dass es schwieriger ist, leistungsstarke Modelle wie Transformer effizient zu instanziieren, wenn Reinforcement Learning zum Trainieren leistungsstarker Modelle wie Transformer verwendet wird. Weltdaten Kombination von groß angelegtem Roboterlernen mit einer modernen politischen Architektur basierend auf leistungsstarkem Transformer

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Papier: https://q-transformer.github.io/assets/q-transformer.pdf
  • Projekt: https://q-transformer.github.io/
  • Obwohl im Prinzip die direkte Verwendung von Transformer zum Ersetzen bestehender Architekturen wie ResNets oder kleinerer Faltungen (neuronale Netze) konzeptionell einfach ist , aber es ist sehr schwierig, ein Schema zu entwerfen, das diese Architektur effektiv nutzen kann. Große Modelle können nur dann effektiv sein, wenn sie große, vielfältige Datensätze nutzen können – kleine Modelle mit engem Umfang benötigen diese Fähigkeit nicht und profitieren auch nicht davon

Obwohl frühere Forschungen Simulationsdaten verwendet haben, um solche Datensätze zu erstellen , aber die repräsentativsten Daten stammen aus der realen Welt.

Daher gab DeepMind an, dass der Schwerpunkt dieser Forschung darin liegt, Transformer durch Offline-Lernen zur Verstärkung zu nutzen und zuvor gesammelte große Datensätze zu integrieren besteht darin, die effizienteste mögliche Strategie für einen bestimmten Datensatz abzuleiten. Natürlich kann dieser Datensatz auch um zusätzliche automatisch erfasste Daten erweitert werden, der Trainingsprozess ist jedoch vom Datenerfassungsprozess getrennt, was einen zusätzlichen Workflow für groß angelegte Roboteranwendungen bietet.

Implementiert mithilfe des Transformer-Modells beim Reinforcement Learning Ein weiteres großes Problem besteht darin, ein verstärkendes Lernsystem zu entwerfen, mit dem ein solches Modell effektiv trainiert werden kann. Effektive Offline-Lernmethoden zur Verstärkung führen häufig eine Q-Funktionsschätzung über Zeitdifferenzaktualisierungen durch. Da Transformer eine diskrete Token-Sequenz modelliert, kann das Problem der Q-Funktionsschätzung in ein Modellierungsproblem für diskrete Token-Sequenzen umgewandelt werden, und für jedes Token in der Sequenz kann eine geeignete Verlustfunktion entworfen werden.

Die von DeepMind angewandte Methode ist ein Diskretisierungsschema nach Dimensionen. Dies dient dazu, die exponentielle Explosion der Aktionsbasis zu vermeiden. Insbesondere wird jede Dimension des Aktionsraums beim verstärkenden Lernen als unabhängiger Zeitschritt behandelt. Unterschiedliche Bins in der Diskretisierung entsprechen unterschiedlichen Aktionen. Dieses dimensionale Diskretisierungsschema ermöglicht es uns, eine einfache Q-Learning-Methode mit diskreten Aktionen und einem konservativen Regularisierer zu verwenden, um Verteilungstransformationssituationen zu bewältigen.

DeepMind schlägt einen speziellen Regularisierer vor, der darauf abzielt, den Wert ungenutzter Aktionen zu minimieren. Studien haben gezeigt, dass diese Methode effektiv einen schmalen Bereich Demo-ähnlicher Daten lernen kann, aber auch einen größeren Datenbereich mit Explorationsrauschen lernen kann

Schließlich verwenden sie auch einen Hybrid-Update-Mechanismus, der Monte-Carlo- und n-Schritt-Regression mit zeitlichen Differenzsicherungen kombiniert. Die Ergebnisse zeigen, dass dieser Ansatz die Leistung transformatorbasierter Offline-Lernmethoden zur Verstärkung bei großen Roboterlernproblemen verbessern kann.

Der Hauptbeitrag dieser Forschung ist Q-Transformer, eine Methode zum Offline-Lernen von Robotern basierend auf der Transformer-Architektur. Q-Transformer tokenisiert Q-Werte nach Dimensionen und wurde erfolgreich auf große und vielfältige Robotik-Datensätze, einschließlich realer Daten, angewendet. Abbildung 1 zeigt die Komponenten von Q-Transformer

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

DeepMind führte experimentelle Auswertungen durch, darunter Simulationsexperimente und groß angelegte Experimente in der realen Welt, mit dem Ziel eines strengen Vergleichs und einer praktischen Verifizierung. Darunter haben wir eine groß angelegte textbasierte Multitasking-Strategie zum Lernen übernommen und die Wirksamkeit von Q-Transformer überprüft

In realen Experimenten enthielt der von ihnen verwendete Datensatz 38.000 erfolgreiche Demonstrationen und 20.000 Ein Szenario von Die automatische Erfassung ist fehlgeschlagen. Die Daten wurden von 13 Robotern bei mehr als 700 Aufgaben erfasst. Q-Transformer übertrifft zuvor vorgeschlagene Architekturen für umfangreiches robotergestütztes Verstärkungslernen sowie Transformer-basierte Modelle wie den zuvor vorgeschlagenen Decision Transformer.

Übersicht der Methoden

Um Transformer für Q-Learning zu nutzen, besteht der Ansatz von DeepMind darin, den Aktionsraum zu diskretisieren und autoregressiv zu verarbeiten.

Um eine Q-Funktion mithilfe von TD-Learning zu lernen, basiert die klassische Methode zur Bell-Mann-Aktualisierungsregel

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Die Forscher haben das Bellman-Update so modifiziert, dass es für jede Aktionsdimension durchgeführt werden kann, indem sie den ursprünglichen MDP des Problems in jede als Q behandelte Aktionsdimension umwandeln. Lernen Sie eine Schritt-für-Schritt-Anleitung -Schritt-MDP.

Konkret kann die neue Bellman-Aktualisierungsregel für eine gegebene Aktionsdimension d_A wie folgt ausgedrückt werden:

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Dies bedeutet, dass für jede dazwischenliegende Aktionsdimension bei gleichen Bedingungen Folgendes gilt: Maximieren Sie die nächste Aktionsdimension und verwenden Sie für die letzte Aktionsdimension die erste Aktionsdimension des nächsten Zustands. Durch diese Zerlegung wird sichergestellt, dass die Maximierung im Bellman-Update nachvollziehbar bleibt und gleichzeitig sichergestellt wird, dass das ursprüngliche MDP-Problem weiterhin gelöst werden kann.

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Um Verteilungsänderungen beim Offline-Lernen zu berücksichtigen, führt DeepMind außerdem eine einfache Regularisierungstechnik ein, die den Wert unsichtbarer Aktionen minimiert.

Um das Lernen zu beschleunigen, verwendeten sie auch die Monte-Carlo-Rückgabemethode. Dieser Ansatz verwendet nicht nur Return-to-Go für eine bestimmte Episode (Episode), sondern auch N-Schritt-Returns, die dimensional maximiert werden können eine Reihe realer Aufgaben. Gleichzeitig beschränkten sie die Daten auf nur 100 menschliche Demos pro Aufgabe

In den Demos fügten sie zusätzlich zu den Demos auch automatisch gesammelte Fehlerereignis-Snippets hinzu, um einen Datensatz zu erstellen. Dieser Datensatz enthält 38.000 positive Beispiele aus der Demo und 20.000 automatisch gesammelte negative Beispiele

Im Vergleich zu Basismethoden wie RT-1, IQL und Decision Transformer (DT) kann Q-Transformer automatische Ereignisfragmente effektiv nutzen, um seine Fähigkeit, Fertigkeiten einzusetzen, einschließlich des Aufnehmens und Platzierens von Gegenständen aus Schubladen sowie des Bewegens von Gegenständen in die Nähe, deutlich zu verbessern Ziele, Schubladen öffnen und schließen.

Die Forscher testeten die neu vorgeschlagene Methode auch an einer schwierigen simulierten Objektabrufaufgabe – bei dieser Aufgabe waren nur etwa 8 % der Daten positive Beispiele und der Rest waren negative Beispiele voller Rauschbeispiele.

Bei dieser Aufgabe schneiden Q-Learning-Methoden wie QT-Opt, IQL, AW-Opt und Q-Transformer in der Regel besser ab, da sie dynamische Programmierung nutzen können, um Richtlinien zu lernen und Negativbeispiele zur Optimierung zu nutzen

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Basierend auf dieser Objektabrufaufgabe führten die Forscher Ablationsexperimente durch und stellten fest, dass sowohl der konservative Regularisierer als auch die MC-Rückkehr wichtig sind, um die Leistung aufrechtzuerhalten. Deutlich schlechter wird die Performance, wenn man auf den Softmax-Regularizer umsteigt, da dieser die Policy zu sehr auf die Datenverteilung einschränkt. Dies zeigt, dass der hier von DeepMind ausgewählte Regularisierer diese Aufgabe besser bewältigen kann.

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Ihre Ablationsexperimente für n-stufige Renditen ergaben, dass diese Methode zwar zu einer Verzerrung führen kann, diese Methode jedoch in deutlich weniger Gradientenschritten eine gleich hohe Leistung erzielen und so viele Probleme effektiv lösen kann

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Die Forscher haben auch versucht, Q-Transformer für größere Datensätze auszuführen. Sie erweiterten die Anzahl der positiven Beispiele auf 115.000 und die Anzahl der negativen Beispiele auf 185.000, was zu einem Datensatz mit 300.000 Ereignisclips führte. Mithilfe dieses großen Datensatzes konnte Q-Transformer immer noch lernen und eine noch bessere Leistung erbringen als der RT-1 BC-Benchmark. kombiniert mit einem Sprachplaner, ähnlich wie SayCan

Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Q-Transformer Der Effekt der Erschwinglichkeitsschätzung ist auf die zuvor mit QT-Opt trainierte Q-Funktion zurückzuführen. Wenn sie nicht mehr abgetastet wird, wird die Aufgabe erneut durchgeführt. Während des Trainings als negatives Beispiel für die aktuelle Aufgabe gekennzeichnet, kann die Wirkung sogar noch besser sein. Da für Q-Transformer nicht das beim QT-Opt-Training verwendete Sim-to-Real-Training erforderlich ist, ist es einfacher, Q-Transformer zu verwenden, wenn eine geeignete Simulation fehlt.

Um das komplette „Planung + Ausführung“-System zu testen, experimentierten sie mit der Verwendung von Q-Transformer für die gleichzeitige Kostenschätzung und tatsächliche Richtlinienausführung, und die Ergebnisse zeigten, dass es die vorherige Kombination von QT-Opt und RT-1 übertraf. Google DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Wie aus dem Aufgaben-Affordance-Wert-Beispiel des gegebenen Bildes ersichtlich ist, kann Q-Transformer qualitativ hochwertige Affordance-Werte im nachgelagerten „Planung + Ausführung“-Framework bereitstellen

Bitte Weitere Informationen finden Sie im OriginalartikelGoogle DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können

Das obige ist der detaillierte Inhalt vonGoogle DeepMind: Kombination großer Modelle mit verstärkendem Lernen, um ein intelligentes Gehirn zu schaffen, damit Roboter die Welt wahrnehmen können. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Schnittstelle zwischen Drittanbietern in der Node.js-Umgebung 403? Wie löste ich das Problem der Schnittstelle zwischen Drittanbietern in der Node.js-Umgebung 403? Mar 31, 2025 pm 11:27 PM

Lösen Sie das Problem der Schnittstelle zwischen Drittanbietern, die 403 in der Node.js-Umgebung zurückgeben. Wenn wir Node.js verwenden, um Schnittstellen von Drittanbietern aufzurufen, begegnen wir manchmal einen Fehler von 403 von der Schnittstelle, die 403 zurückgibt ...

Wie kann man in Laravel mit der Situation umgehen, in der Überprüfungscodes nicht per E -Mail gesendet werden? Wie kann man in Laravel mit der Situation umgehen, in der Überprüfungscodes nicht per E -Mail gesendet werden? Mar 31, 2025 pm 11:48 PM

Die Methode zum Umgang mit Laravels E -Mail -Versagen zum Senden von Verifizierungscode besteht darin, Laravel zu verwenden ...

Wie setze ich nach dem Neustart des Systems automatisch Berechtigungen von Unixsocket fest? Wie setze ich nach dem Neustart des Systems automatisch Berechtigungen von Unixsocket fest? Mar 31, 2025 pm 11:54 PM

So setzen Sie die Berechtigungen von Unixsocket automatisch nach dem Neustart des Systems. Jedes Mal, wenn das System neu startet, müssen wir den folgenden Befehl ausführen, um die Berechtigungen von Unixsocket: sudo ...

Warum tritt bei der Installation einer Erweiterung mit PECL in einer Docker -Umgebung ein Fehler auf? Wie löst ich es? Warum tritt bei der Installation einer Erweiterung mit PECL in einer Docker -Umgebung ein Fehler auf? Wie löst ich es? Apr 01, 2025 pm 03:06 PM

Ursachen und Lösungen für Fehler Bei der Verwendung von PECL zur Installation von Erweiterungen in der Docker -Umgebung, wenn die Docker -Umgebung verwendet wird, begegnen wir häufig auf einige Kopfschmerzen ...

So implementieren Sie Sortieren und fügen Ranglisten in zweidimensionalen PHP-Arrays hinzu? So implementieren Sie Sortieren und fügen Ranglisten in zweidimensionalen PHP-Arrays hinzu? Apr 01, 2025 am 07:00 AM

Detaillierte Erläuterung der zweidimensionalen Sortier- und Ranking-Implementierung von PHP-PHP In diesem Artikel wird ausführlich erläutert, wie ein zweidimensionales PHP-Array sortiert und jedes Sub-Array gemäß den Sortierergebnissen verwendet wird ...

Ouyi Okex Global Website Offizielle Website Login -Eingang 2025 Ouyi Okex Global Website Offizielle Website Login -Eingang 2025 Mar 31, 2025 pm 03:45 PM

Ouyi OKX (ehemals Okex) Global Station ist eine weltweit führende Digital Asset Service-Plattform, die 2017 gegründet und mit Hauptsitz in Malta gegründet wurde. Es hat zig Millionen von Benutzern. Die Plattform bietet Transaktionen von mehr als 150 Währungen und hat einen strengen Mechanismus für den Währungsprüfungsmechanismus sowie einen Marktüberwachungs- und Fortschritts -Tracking -Mechanismus formuliert. Unterstützt Transaktionen von mehr als 20 Mainstream -Rechtswährungen und Kryptowährungen wie US -Dollar, Euro und Pfund.

Wie kann PHP die AES -Verschlüsselung und Entschlüsselung implementieren, die mit Java übereinstimmt? Wie kann PHP die AES -Verschlüsselung und Entschlüsselung implementieren, die mit Java übereinstimmt? Apr 01, 2025 am 07:15 AM

So implementieren Sie die AES -Verschlüsselung und Entschlüsselung mit Java ...

Wie bekomme ich den Rückgabecode, wenn das Senden von E -Mails in Laravel fehlschlägt? Wie bekomme ich den Rückgabecode, wenn das Senden von E -Mails in Laravel fehlschlägt? Apr 01, 2025 pm 02:45 PM

Methode zum Abholen des Rücksendecode, wenn das Senden von Laravel -E -Mails fehlschlägt. Wenn Sie Laravel zur Entwicklung von Anwendungen verwenden, stellen Sie häufig Situationen auf, in denen Sie Überprüfungscodes senden müssen. Und in Wirklichkeit ...

See all articles