


Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.
Pass auf, der Mann vor dir gibt einem Roboter ständig Anweisungen in natürlicher Sprache, wie zum Beispiel „Schiebe den grünen Stern zwischen die roten Blöcke“, „Bewege den blauen Block in die untere linke Ecke“, der Roboter antwortet Jede einmal eingegebene Anweisung kann in Echtzeit ausgeführt werden.
Seit den 1960er Jahren versuchen Robotikexperten, Roboter dazu zu bringen, die „natürlichen Sprachanweisungen“ von Menschen zu verstehen und bestimmte Aktionen auszuführen.
Im Idealfall reagieren zukünftige Roboter in Echtzeit auf jede relevante Aufgabe, die Benutzer in natürlicher Sprache beschreiben können.
Insbesondere in einer offenen menschlichen Umgebung müssen Benutzer möglicherweise das Verhalten des Roboters anpassen und schnelle Korrekturen vornehmen, z. B. „Anhalten, den Arm ein wenig nach oben bewegen“ oder Grenzen festlegen „langsam nach rechts bewegen“.
Darüber hinaus kann Echtzeitsprache die Zusammenarbeit von Menschen und Robotern bei komplexen Langzeitaufgaben erleichtern, bei denen Menschen Roboteroperationen iterativ und interaktiv mit gelegentlichem verbalen Feedback steuern können.
Die aktuelle verwandte Arbeit kann grob in die folgenden drei Teile unterteilt werden:
1. Der Roboterkörper muss in der realen Welt existieren;
2 reichhaltige Befehle in natürlicher Sprache;
3. Fähigkeit, interaktive (interaktive) Sprachbefehle auszuführen, das heißt, der Roboter muss während der Aufgabenausführung neue Anweisungen in natürlicher Sprache akzeptieren.
Was den dritten Punkt betrifft, ist die aktuelle interaktive Entwicklungsgeschwindigkeit im Bereich Roboter immer noch sehr langsam, was auch dazu führt, dass Robotern ein „Lebensgefühl“ fehlt.
Kürzlich hat Google ein Papier veröffentlicht, in dem ein brandneues Framework vorgeschlagen wird, mit dem interaktive Echtzeitroboter in der realen Welt erstellt werden können, die Anweisungen in natürlicher Sprache ausführen. Die relevanten Datensätze, Umgebungen, Benchmarks und Strategien sind alle frei verfügbar. ?? Durch verhaltensbasiertes Klontraining anhand eines Datensatzes von Hunderttausenden sprachlich annotierten Trajektorien kann die resultierende Richtlinie eine Größenordnung mehr Befehle geschickt ausführen, als dies bei früheren Arbeiten der Fall war. In der realen Welt schätzten die Forscher, dass die Methode bei 87.000 verschiedenen Zeichenfolgen in natürlicher Sprache eine Erfolgsquote von 93,5 % hatte.
Und die gleiche Strategie kann von Menschen in Echtzeit durch natürliche Sprache gesteuert werden, um eine Vielzahl präziser Fernumordnungsziele zu lösen, wie zum Beispiel „mit Bausteinen ein Smiley machen“ usw.
Der mit dem Papier veröffentlichte Datensatz umfasst fast 600.000 sprachgekennzeichnete Flugbahnen, was eine Größenordnung größer ist als bisher verfügbare Datensätze.Interaktive Sprache: Konversation mit dem Roboter in Echtzeit
Um den Roboter in die reale Welt zu integrieren, ist es am wichtigsten, offene Anweisungen in natürlicher Sprache verarbeiten zu können, aber aus Sicht des maschinellen Lernens sollte man es dem Roboter überlassen Erlernen Sie einen offenen Wortschatz. Sprache ist eine große Herausforderung.Offene Darstellungsmodelle müssen eine Vielzahl von Aufgaben ausführen, darunter kleine Korrekturanweisungen usw. Bestehende Multitasking-Lernaufbauten nutzen sorgfältig entworfene Nachahmungslerndatensätze oder komplexe Belohnungsfunktionen für Verstärkungslernen, um das Lernen für jede Aufgabe voranzutreiben, und auf diese Weise entworfene vordefinierte Sätze sind mit Sicherheit nicht sehr groß.
Daher lautet eine Schlüsselfrage in der offenen Vokabularaufgabe: Wie kann der Erfassungsprozess von Roboterdaten auf Tausende von Aktionen in realen Umgebungen ausgeweitet werden, und wie können all diese Verhaltensweisen mit Endbenutzern in Zusammenhang gebracht werden? Ist es möglich, tatsächlich Anweisungen in natürlicher Sprache bereitzustellen?
In interaktiven Sprachen liegt der Schlüssel zum von Google vorgeschlagenen Lernrahmen für groß angelegte Simulationen in der Skalierbarkeit der Erstellung großer, mehrsprachiger, konditionierter Roboterdemonstrationsdatensätze.
Im Gegensatz zum vorherigen Setup, bei dem alle Fertigkeiten definiert und dann eine kuratierte Demonstration jeder Fertigkeit zusammengestellt wurden, arbeiten Forscher ständig mit mehreren Robotern ohne Szenen-Resets oder Fertigkeitssegmentierung auf niedriger Ebene.
Alle Daten, einschließlich fehlerhafter Daten (z. B. das Wegwerfen von Blöcken von einem Tisch), müssen einen HindSight-Sprachumbenennungsprozess durchlaufen, bevor sie mit Text gepaart werden.
In diesem Prozess müssen Annotatoren lange Robotervideos ansehen, um so viele Verhaltensweisen wie möglich zu identifizieren, die Start- und Endzeit jedes Verhaltens zu markieren und uneingeschränkte Formen natürlicher Sprache zur Beschreibung jedes Segments zu verwenden.
Das Wichtigste ist, dass im Vergleich zum vorherigen Bootstrapping-Satz alle für das Training verwendeten Fähigkeiten von unten nach oben aus den Daten selbst aufgedeckt werden und nicht von den Forschern vorgegeben werden.
Die Forscher vereinfachen absichtlich die Lernmethode und -architektur so weit wie möglich. Das Robot Policy Network ist ein Cross-Attention-Transformer, der 5-Hz-Video und -Text ohne Hilfsverluste (Auxiliary Loss) auf 5-Hz-Roboteraktionen abbildet. . Verluste) unter Verwendung von standardmäßigem überwachtem Lernverhalten, um das Ziel zu klonen.
Während des Tests können neue Befehle in natürlicher Sprache per Sprache-zu-Text mit Raten von bis zu 5 Hz in das Richtliniennetzwerk gesendet werden.
Open Source Benchmark
Während des Annotationsprozesses sammelten die Forscher einen Sprachtabellendatensatz, der mehr als 440.000 tatsächliche und 180.000 simulierte Demonstrationen von Robotern, die Befehle in natürlicher Sprache ausführen, sowie die von den Robotern während der Demonstrationen durchgeführten Aktionen enthielt . Abfolge von Aktionen.
Dies ist derzeit auch der größte sprachkonditionierte Roboterdemonstrationsdatensatz, der direkt um eine Größenordnung verbessert wurde.
Language-Table hat einen Simulations-Lern-Benchmark gestartet, der zur Modellauswahl oder zur Bewertung der Fähigkeit von Robotern verwendet werden kann, die mit verschiedenen Methoden trainiert wurden, Anweisungen auszuführen.
Verbales Verhaltenslernen in Echtzeit
In Experimenten fanden Forscher heraus, dass die Fähigkeiten des Roboters besonders stark werden, wenn er den Anweisungen in natürlicher Sprache in Echtzeit folgen kann.
Auf der Projektwebsite demonstrierten die Forscher, dass Benutzer den Roboter durch komplexe Sequenzen mit langem Horizont führen können, indem sie nur natürliche Sprache verwenden, um Ziele zu lösen, deren präzise koordinierte Steuerung lange Zeit erfordert.
Wenn zum Beispiel viele Blöcke auf dem Tisch liegen, kann der Befehl „Mach ein Smiley mit grünen Augen“ oder „Setze sie alle in einer vertikalen Linie“ usw. lauten.
Da der Roboter darauf trainiert war, der Sprache mit offenem Lexikon zu folgen, reagierte der Roboter im Experiment auf eine Reihe verschiedener verbaler Korrekturen, wie zum Beispiel „Bewege den roten Stern vorsichtig nach rechts.“
Abschließend untersuchten die Forscher die Vorteile der Echtzeitsprache, beispielsweise die effizientere Gestaltung der Roboterdatenerfassung. Ein menschlicher Bediener kann gesprochene Sprache verwenden, um vier Roboter gleichzeitig zu steuern, was möglicherweise den Umfang der Roboterdatenerfassung erweitert in Zukunft, ohne dass jeder Roboter mit einem Annotator ausgestattet werden muss.
Fazit
Obwohl das Projekt derzeit auf einen festen Satz von Objekten auf dem Desktop beschränkt ist, können experimentelle Ergebnisse zu interaktiven Sprachen vorläufige Hinweise darauf liefern, dass Nachahmungslernen in großem Maßstab durchgeführt wird kann tatsächlich interaktive Echtzeit-Bots erstellen, die in der Lage sind, frei formulierten Endbenutzerbefehlen zu folgen.
Um die Weiterentwicklung der Echtzeit-Sprachsteuerungstechnologie für physische Roboter voranzutreiben, haben Forscher Language-Table als Open-Source-Lösung entwickelt, den derzeit größten realen Roboter Ein auf Sprachbedingungen basierender Demonstrationsdatensatz kann auch als relevanter Simulationsbenchmark verwendet werden.
Forscher glauben, dass die Rolle dieses Datensatzes möglicherweise nicht nur auf den Bereich der Robotersteuerung beschränkt ist, sondern auch für die Erforschung von Videos zu Sprach- und Aktionsbedingungen verwendet werden kann Vorhersage und Roboter-Video-Bedingungssprachmodell oder bieten einen neuen Ausgangspunkt für die Untersuchung vieler anderer interessanter und aktiver Probleme im breiteren Kontext des maschinellen Lernens.
Das obige ist der detaillierte Inhalt vonGoogle-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.
