


Google brauchte zwei Jahre, um mithilfe von Reinforcement Learning 23 Roboter zu bauen, die beim Sortieren von Müll helfen sollen
Reinforcement Learning (RL) ermöglicht es Robotern, durch Versuch und Irrtum zu interagieren, komplexe Verhaltensweisen zu erlernen und mit der Zeit immer besser zu werden. Einige frühere Arbeiten bei Google haben untersucht, wie RL es Robotern ermöglichen kann, komplexe Fähigkeiten wie Greifen, Multitasking-Lernen und sogar Tischtennis zu beherrschen. Obwohl das Reinforcement-Learning bei Robotern große Fortschritte gemacht hat, sehen wir immer noch keine Roboter mit Reinforcement-Learning in alltäglichen Umgebungen. Da die reale Welt komplex und vielfältig ist und sich im Laufe der Zeit ständig verändert, stellt dies große Herausforderungen an Robotersysteme. Allerdings sollte Reinforcement Learning ein hervorragendes Werkzeug zur Bewältigung dieser Herausforderungen sein: Durch Üben, Verbessern und Lernen am Arbeitsplatz sollten Roboter in der Lage sein, sich an eine sich ständig verändernde Welt anzupassen.
In dem Google-Artikel „Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators“ untersuchen Forscher, wie dieses Problem durch die neuesten groß angelegten Experimente gelöst werden kann, die sie über zwei Jahre hinweg durchgeführt haben Eine Gruppe von 23 RL-fähigen Robotern wird für die Müllsortierung und das Recycling in Google-Bürogebäuden eingesetzt. Das verwendete Robotersystem kombiniert skalierbares Deep Reinforcement Learning aus realen Daten mit geführten und zusätzlichen objektbewussten Eingaben aus dem Simulationstraining, um die Generalisierung zu verbessern und gleichzeitig die Vorteile von End-to-End-Trainings zu überprüfen.
Papieradresse: https://rl-at-scale.github.io/assets/rl_at_scale.pdf
Problemstellung
Wenn Menschen Müll nicht richtig klassifizieren, in Chargen von Wertstoffen können kontaminiert werden und Kompost kann unsachgemäß auf Mülldeponien entsorgt werden. In Googles Experiment streiften Roboter durch Bürogebäude und suchten nach „Müllcontainern“ (Recyclingbehälter, Kompostbehälter und andere Abfallbehälter). Die Aufgabe des Roboters besteht darin, an jeder Müllstation anzukommen, um Abfälle zu sortieren, Gegenstände zwischen verschiedenen Behältern zu transportieren, um alle wiederverwertbaren Gegenstände (Dosen, Flaschen) in die wiederverwertbaren Behälter und alle kompostierbaren Gegenstände (Kartonbehälter, Pappbecher) in den Kompostbehälter zu legen alles andere in den anderen Behältern.
Eigentlich ist diese Aufgabe nicht so einfach, wie es scheint. Allein die Teilaufgabe, die verschiedenen Gegenstände aufzusammeln, die Menschen in den Müll werfen, ist bereits eine große Herausforderung. Der Roboter muss außerdem für jedes Objekt den passenden Behälter identifizieren und es so schnell und effizient wie möglich sortieren. In der realen Welt begegnen Roboter einer Vielzahl einzigartiger Situationen, wie zum Beispiel den folgenden realen Beispielen für Bürogebäude:
Lernen Sie aus unterschiedlichen Erfahrungen
Kontinuierliches Lernen am Arbeitsplatz ist hilfreich, aber bevor Sie an diesen Punkt gelangen. Zuvor a Um einen Roboter zu führen, waren grundlegende Fähigkeiten erforderlich. Zu diesem Zweck nutzt Google vier Erfahrungsquellen: (1) einfache, von Hand entworfene Strategien, die eine geringe Erfolgsquote haben, aber dazu beitragen, erste Erfahrungen zu sammeln; (2) ein Simulationstrainings-Framework, das die Übertragung von Simulationen in die Realität nutzt; einige vorläufige Erfahrungen. (3) „Roboterklassenzimmer“, in denen Roboter repräsentative Müllstationen nutzen, um kontinuierlich zu üben; (4) reale Einsatzumgebungen, in denen Roboter in Bürogebäuden mit echtem Müll üben;
Schematische Darstellung des verstärkenden Lernens in dieser groß angelegten Anwendung. Verwenden Sie skriptgenerierte Daten, um die Einführung der Richtlinie zu steuern (oben links). Anschließend wird ein Simulation-zu-Realität-Modell trainiert, das zusätzliche Daten in der Simulationsumgebung generiert (oben rechts). Fügen Sie während jedes Bereitstellungszyklus Daten hinzu, die in „Roboterklassen“ (unten rechts) gesammelt wurden. Bereitstellung und Erfassung von Daten in einem Bürogebäude (unten links).
Das hier verwendete Reinforcement-Learning-Framework basiert auf QT-Opt, das auch zum Erfassen verschiedener Abfälle in der Laborumgebung und einer Reihe anderer Fähigkeiten verwendet wird. Beginnen Sie mit einer einfachen Skriptstrategie, die Sie durch eine Simulationsumgebung führt, wenden Sie Reinforcement Learning an und verwenden Sie CycleGAN-basierte Übertragungsmethoden, um Simulationsbilder mit RetinaGAN realistischer aussehen zu lassen.
Hier fangen wir an, „Roboter-Klassenzimmer“ zu betreten. Während tatsächliche Bürogebäude das realistischste Erlebnis bieten, ist der Datenerfassungsdurchsatz begrenzt – an manchen Tagen muss viel Müll sortiert werden, an anderen nicht so viel. Roboter haben den größten Teil ihrer Erfahrung in „Roboterklassenzimmern“ gesammelt. In den unten gezeigten „Roboter-Klassenzimmern“ üben 20 Roboter die Müllsortieraufgabe:
Während diese Roboter in den „Roboter-Klassenzimmern“ trainiert werden, lernen andere Roboter in 3 Bürogebäuden das Sortieren von 30 Müll im Stehen.
Klassifizierungsleistung
Am Ende sammelten die Forscher 540.000 experimentelle Daten aus „Roboterklassenzimmern“ und 325.000 experimentelle Daten in der tatsächlichen Einsatzumgebung. Da die Datenmenge weiter zunimmt, verbessert sich die Leistung des gesamten Systems. Die Forscher bewerteten das endgültige System in „Roboterklassenzimmern“, um kontrollierte Vergleiche zu ermöglichen und Szenarien basierend auf dem zu erstellen, was die Roboter bei tatsächlichen Einsätzen sehen würden. Das endgültige System erreichte eine durchschnittliche Genauigkeit von etwa 84 %, wobei sich die Leistung mit dem Hinzufügen von Daten stetig verbesserte. In der realen Welt dokumentierten Forscher Statistiken von tatsächlichen Einsätzen in den Jahren 2021 bis 2022 und stellten fest, dass das System die Schadstoffe in Behältern um 40 bis 50 Gewichtsprozent reduzieren konnte. In ihrem Artikel liefern Google-Forscher tiefere Einblicke in das Design der Technologie, eine Studie zur Dämpfung verschiedener Designentscheidungen und detailliertere Statistiken aus ihren Experimenten.
Fazit und Ausblick auf die zukünftige Arbeit
Die experimentellen Ergebnisse zeigen, dass das auf Verstärkungslernen basierende System es Robotern ermöglichen kann, reale Aufgaben in realen Büroumgebungen zu bewältigen. Die Kombination von Offline- und Online-Daten ermöglicht es Robotern, sich an unterschiedlichste Situationen in der realen Welt anzupassen. Gleichzeitig kann das Lernen in einer kontrollierteren „Klassenzimmer“-Umgebung, einschließlich Simulationsumgebungen und realen Umgebungen, einen leistungsstarken Startmechanismus bereitstellen, der es dem „Schwungrad“ des verstärkenden Lernens ermöglicht, sich zu drehen und so Anpassungsfähigkeit zu erreichen.
Obwohl wichtige Ergebnisse erzielt wurden, gibt es noch viel zu tun: Die endgültige Strategie des verstärkenden Lernens ist nicht immer erfolgreich, und es sind leistungsfähigere Modelle erforderlich, um ihre Leistung zu verbessern und sie auf einen breiteren Aufgabenbereich zu skalieren . Darüber hinaus können andere Erfahrungsquellen, unter anderem aus anderen Aufgaben, anderen Robotern und sogar Internetvideos, die Startup-Erfahrung aus Simulation und „Klassenzimmer“ weiter ergänzen. Dies sind Probleme, die in Zukunft angegangen werden müssen.
Das obige ist der detaillierte Inhalt vonGoogle brauchte zwei Jahre, um mithilfe von Reinforcement Learning 23 Roboter zu bauen, die beim Sortieren von Müll helfen sollen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Die Zookeper -Leistungsstimmung auf CentOS kann von mehreren Aspekten beginnen, einschließlich Hardwarekonfiguration, Betriebssystemoptimierung, Konfigurationsparameteranpassung, Überwachung und Wartung usw. Hier finden Sie einige spezifische Tuning -Methoden: SSD wird für die Hardwarekonfiguration: Da die Daten von Zookeeper an Disk geschrieben werden, wird empfohlen, SSD zu verbessern, um die I/O -Leistung zu verbessern. Genug Memory: Zookeeper genügend Speicherressourcen zuweisen, um häufige Lesen und Schreiben von häufigen Festplatten zu vermeiden. Multi-Core-CPU: Verwenden Sie Multi-Core-CPU, um sicherzustellen, dass Zookeeper es parallel verarbeiten kann.

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

Die Installation von MySQL auf CentOS umfasst die folgenden Schritte: Hinzufügen der entsprechenden MySQL Yum -Quelle. Führen Sie den Befehl mySQL-server aus, um den MySQL-Server zu installieren. Verwenden Sie den Befehl mySQL_SECURE_INSTALLATION, um Sicherheitseinstellungen vorzunehmen, z. B. das Festlegen des Stammbenutzerkennworts. Passen Sie die MySQL -Konfigurationsdatei nach Bedarf an. Tune MySQL -Parameter und optimieren Sie Datenbanken für die Leistung.

Der Befehl zum Neustart des SSH -Dienstes lautet: SystemCTL Neustart SSHD. Detaillierte Schritte: 1. Zugriff auf das Terminal und eine Verbindung zum Server; 2. Geben Sie den Befehl ein: SystemCTL Neustart SSHD; 1. Überprüfen Sie den Dienststatus: SystemCTL -Status SSHD.
