Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.-KI-php.cn

Inhaltsverzeichnis

Open Source Benchmark

Verbales Verhaltenslernen in Echtzeit

Fazit

Heim

Technologie-Peripheriegeräte

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

PHPz

Apr 21, 2023 pm 07:34 PM

谷歌机器人

Pass auf, der Mann vor dir gibt einem Roboter ständig Anweisungen in natürlicher Sprache, wie zum Beispiel „Schiebe den grünen Stern zwischen die roten Blöcke“, „Bewege den blauen Block in die untere linke Ecke“, der Roboter antwortet Jede einmal eingegebene Anweisung kann in Echtzeit ausgeführt werden.

Seit den 1960er Jahren versuchen Robotikexperten, Roboter dazu zu bringen, die „natürlichen Sprachanweisungen“ von Menschen zu verstehen und bestimmte Aktionen auszuführen.

Im Idealfall reagieren zukünftige Roboter in Echtzeit auf jede relevante Aufgabe, die Benutzer in natürlicher Sprache beschreiben können.

Insbesondere in einer offenen menschlichen Umgebung müssen Benutzer möglicherweise das Verhalten des Roboters anpassen und schnelle Korrekturen vornehmen, z. B. „Anhalten, den Arm ein wenig nach oben bewegen“ oder Grenzen festlegen „langsam nach rechts bewegen“.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Darüber hinaus kann Echtzeitsprache die Zusammenarbeit von Menschen und Robotern bei komplexen Langzeitaufgaben erleichtern, bei denen Menschen Roboteroperationen iterativ und interaktiv mit gelegentlichem verbalen Feedback steuern können.

Die aktuelle verwandte Arbeit kann grob in die folgenden drei Teile unterteilt werden:

1. Der Roboterkörper muss in der realen Welt existieren;

2 reichhaltige Befehle in natürlicher Sprache;

3. Fähigkeit, interaktive (interaktive) Sprachbefehle auszuführen, das heißt, der Roboter muss während der Aufgabenausführung neue Anweisungen in natürlicher Sprache akzeptieren.

Was den dritten Punkt betrifft, ist die aktuelle interaktive Entwicklungsgeschwindigkeit im Bereich Roboter immer noch sehr langsam, was auch dazu führt, dass Robotern ein „Lebensgefühl“ fehlt.

Kürzlich hat Google ein Papier veröffentlicht, in dem ein brandneues Framework vorgeschlagen wird, mit dem interaktive Echtzeitroboter in der realen Welt erstellt werden können, die Anweisungen in natürlicher Sprache ausführen. Die relevanten Datensätze, Umgebungen, Benchmarks und Strategien sind alle frei verfügbar. ?? Durch verhaltensbasiertes Klontraining anhand eines Datensatzes von Hunderttausenden sprachlich annotierten Trajektorien kann die resultierende Richtlinie eine Größenordnung mehr Befehle geschickt ausführen, als dies bei früheren Arbeiten der Fall war. In der realen Welt schätzten die Forscher, dass die Methode bei 87.000 verschiedenen Zeichenfolgen in natürlicher Sprache eine Erfolgsquote von 93,5 % hatte.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Und die gleiche Strategie kann von Menschen in Echtzeit durch natürliche Sprache gesteuert werden, um eine Vielzahl präziser Fernumordnungsziele zu lösen, wie zum Beispiel „mit Bausteinen ein Smiley machen“ usw.

Der mit dem Papier veröffentlichte Datensatz umfasst fast 600.000 sprachgekennzeichnete Flugbahnen, was eine Größenordnung größer ist als bisher verfügbare Datensätze.

Interaktive Sprache: Konversation mit dem Roboter in Echtzeit

Um den Roboter in die reale Welt zu integrieren, ist es am wichtigsten, offene Anweisungen in natürlicher Sprache verarbeiten zu können, aber aus Sicht des maschinellen Lernens sollte man es dem Roboter überlassen Erlernen Sie einen offenen Wortschatz. Sprache ist eine große Herausforderung.

Offene Darstellungsmodelle müssen eine Vielzahl von Aufgaben ausführen, darunter kleine Korrekturanweisungen usw. Bestehende Multitasking-Lernaufbauten nutzen sorgfältig entworfene Nachahmungslerndatensätze oder komplexe Belohnungsfunktionen für Verstärkungslernen, um das Lernen für jede Aufgabe voranzutreiben, und auf diese Weise entworfene vordefinierte Sätze sind mit Sicherheit nicht sehr groß.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Daher lautet eine Schlüsselfrage in der offenen Vokabularaufgabe: Wie kann der Erfassungsprozess von Roboterdaten auf Tausende von Aktionen in realen Umgebungen ausgeweitet werden, und wie können all diese Verhaltensweisen mit Endbenutzern in Zusammenhang gebracht werden? Ist es möglich, tatsächlich Anweisungen in natürlicher Sprache bereitzustellen?

In interaktiven Sprachen liegt der Schlüssel zum von Google vorgeschlagenen Lernrahmen für groß angelegte Simulationen in der Skalierbarkeit der Erstellung großer, mehrsprachiger, konditionierter Roboterdemonstrationsdatensätze.

Im Gegensatz zum vorherigen Setup, bei dem alle Fertigkeiten definiert und dann eine kuratierte Demonstration jeder Fertigkeit zusammengestellt wurden, arbeiten Forscher ständig mit mehreren Robotern ohne Szenen-Resets oder Fertigkeitssegmentierung auf niedriger Ebene.

Alle Daten, einschließlich fehlerhafter Daten (z. B. das Wegwerfen von Blöcken von einem Tisch), müssen einen HindSight-Sprachumbenennungsprozess durchlaufen, bevor sie mit Text gepaart werden.

In diesem Prozess müssen Annotatoren lange Robotervideos ansehen, um so viele Verhaltensweisen wie möglich zu identifizieren, die Start- und Endzeit jedes Verhaltens zu markieren und uneingeschränkte Formen natürlicher Sprache zur Beschreibung jedes Segments zu verwenden.

Das Wichtigste ist, dass im Vergleich zum vorherigen Bootstrapping-Satz alle für das Training verwendeten Fähigkeiten von unten nach oben aus den Daten selbst aufgedeckt werden und nicht von den Forschern vorgegeben werden.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Die Forscher vereinfachen absichtlich die Lernmethode und -architektur so weit wie möglich. Das Robot Policy Network ist ein Cross-Attention-Transformer, der 5-Hz-Video und -Text ohne Hilfsverluste (Auxiliary Loss) auf 5-Hz-Roboteraktionen abbildet. . Verluste) unter Verwendung von standardmäßigem überwachtem Lernverhalten, um das Ziel zu klonen.

Während des Tests können neue Befehle in natürlicher Sprache per Sprache-zu-Text mit Raten von bis zu 5 Hz in das Richtliniennetzwerk gesendet werden.

Open Source Benchmark

Während des Annotationsprozesses sammelten die Forscher einen Sprachtabellendatensatz, der mehr als 440.000 tatsächliche und 180.000 simulierte Demonstrationen von Robotern, die Befehle in natürlicher Sprache ausführen, sowie die von den Robotern während der Demonstrationen durchgeführten Aktionen enthielt . Abfolge von Aktionen.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Dies ist derzeit auch der größte sprachkonditionierte Roboterdemonstrationsdatensatz, der direkt um eine Größenordnung verbessert wurde.

Language-Table hat einen Simulations-Lern-Benchmark gestartet, der zur Modellauswahl oder zur Bewertung der Fähigkeit von Robotern verwendet werden kann, die mit verschiedenen Methoden trainiert wurden, Anweisungen auszuführen.

Verbales Verhaltenslernen in Echtzeit

In Experimenten fanden Forscher heraus, dass die Fähigkeiten des Roboters besonders stark werden, wenn er den Anweisungen in natürlicher Sprache in Echtzeit folgen kann.

Auf der Projektwebsite demonstrierten die Forscher, dass Benutzer den Roboter durch komplexe Sequenzen mit langem Horizont führen können, indem sie nur natürliche Sprache verwenden, um Ziele zu lösen, deren präzise koordinierte Steuerung lange Zeit erfordert.

Google-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.

Wenn zum Beispiel viele Blöcke auf dem Tisch liegen, kann der Befehl „Mach ein Smiley mit grünen Augen“ oder „Setze sie alle in einer vertikalen Linie“ usw. lauten.

Da der Roboter darauf trainiert war, der Sprache mit offenem Lexikon zu folgen, reagierte der Roboter im Experiment auf eine Reihe verschiedener verbaler Korrekturen, wie zum Beispiel „Bewege den roten Stern vorsichtig nach rechts.“

Abschließend untersuchten die Forscher die Vorteile der Echtzeitsprache, beispielsweise die effizientere Gestaltung der Roboterdatenerfassung. Ein menschlicher Bediener kann gesprochene Sprache verwenden, um vier Roboter gleichzeitig zu steuern, was möglicherweise den Umfang der Roboterdatenerfassung erweitert in Zukunft, ohne dass jeder Roboter mit einem Annotator ausgestattet werden muss.

Fazit

Obwohl das Projekt derzeit auf einen festen Satz von Objekten auf dem Desktop beschränkt ist, können experimentelle Ergebnisse zu interaktiven Sprachen vorläufige Hinweise darauf liefern, dass Nachahmungslernen in großem Maßstab durchgeführt wird kann tatsächlich interaktive Echtzeit-Bots erstellen, die in der Lage sind, frei formulierten Endbenutzerbefehlen zu folgen.

Um die Weiterentwicklung der Echtzeit-Sprachsteuerungstechnologie für physische Roboter voranzutreiben, haben Forscher Language-Table als Open-Source-Lösung entwickelt, den derzeit größten realen Roboter Ein auf Sprachbedingungen basierender Demonstrationsdatensatz kann auch als relevanter Simulationsbenchmark verwendet werden.

Forscher glauben, dass die Rolle dieses Datensatzes möglicherweise nicht nur auf den Bereich der Robotersteuerung beschränkt ist, sondern auch für die Erforschung von Videos zu Sprach- und Aktionsbedingungen verwendet werden kann Vorhersage und Roboter-Video-Bedingungssprachmodell oder bieten einen neuen Ausgangspunkt für die Untersuchung vieler anderer interessanter und aktiver Probleme im breiteren Kontext des maschinellen Lernens.

Das obige ist der detaillierte Inhalt vonGoogle-Roboter erreichen interaktive Sprache mit einer Genauigkeit von 93,5 %, und die Menge an Open-Source-Daten verzehnfacht sich.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7569

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

107

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

See all articles