Wollten Sie schon immer einem Roboter mit Ihren eigenen Worten sagen, was er tun soll, so als würden Sie mit einem Menschen sprechen?
Sagen Sie Ihrem Heimroboter zum Beispiel einfach „Bitte wärmen Sie mein Mittagessen auf“ und er findet die Mikrowelle von selbst. Erstaunlich, oder?
Obwohl Sprache für Menschen die intuitivste Möglichkeit ist, ihre Absichten auszudrücken, verließen sich die Menschen lange Zeit immer noch stark auf handgeschriebene Codes, um Roboter zu steuern. Wenn jedoch ChatGPT erscheint, wird sich diese Situation ändern.
In einer aktuellen Studie untersucht ein Microsoft-Team, wie das neue KI-Sprachmodell ChatGPT von OpenAI genutzt werden kann, um eine natürliche Mensch-Computer-Interaktion zu ermöglichen.
Papierlink: https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf
ChatGPT ist ein Text und eine A-Sprache Modell, das auf einem Korpus menschlicher Interaktionen trainiert wird, sodass es kohärente und grammatikalisch korrekte Antworten auf eine Vielzahl von Aufforderungen und Fragen generieren kann. Das Ziel dieser Forschung besteht darin, herauszufinden, ob ChatGPT in der Lage ist, über Text und Vernunft hinaus an die reale Welt zu denken, um Robotern bei der Erledigung von Aufgaben zu helfen. Forscher erhoffen sich dadurch eine einfachere Interaktion von Menschen mit Robotern, ohne komplexe Programmiersprachen oder die Details von Robotersystemen erlernen zu müssen.
Die größte Herausforderung der Forschung besteht darin, ChatGPT beizubringen, wie man Probleme löst, indem man die Gesetze der Physik, die Betriebsumgebung und die Art und Weise berücksichtigt, wie der Roboter Körperbewegungen nutzt, um die Umgebung zu verändern.
Es stellt sich heraus, dass ChatGPT alleine viel tun kann, aber dennoch etwas Hilfe benötigt. In dem Papier beschreibt das Team eine Reihe von Designprinzipien, die als Leitfaden für Sprachmodelle bei der Lösung von Roboteraufgaben verwendet werden können, einschließlich (aber nicht beschränkt auf) Ad-hoc-Eingabeaufforderungsstrukturen, High-Level-APIs und Feedback über menschlichen Text. Die Forscher glauben, dass diese Arbeit erst der Anfang einer Transformation in der Entwicklung von Robotersystemen ist und hoffen, dass diese Studie andere Forscher dazu inspirieren wird, sich diesem interessanten Forschungsgebiet anzuschließen.
Der aktuelle Roboterbetriebsprozess beginnt bei Ingenieuren oder technischen Benutzern, die Aufgabenanforderungen in Systemcode umwandeln müssen. Ingenieure bleiben über den Arbeitsablauf auf dem Laufenden und schreiben ständig neuen Code und Spezifikationen, um das Verhalten des Roboters zu korrigieren. Insgesamt ist dieser Prozess langsam (Benutzer müssen Low-Level-Code schreiben), teuer (erfordert hochqualifizierte Benutzer mit umfassenden Kenntnissen der Robotik) und ineffizient (erfordert mehrere Interaktionen, um ordnungsgemäß zu funktionieren).
Aber ChatGPT eröffnet ein neues Bot-Paradigma und ermöglicht es potenziell technisch nicht versierten Benutzern, sich an der Schleife zu beteiligen, große Sprachmodelle (LLMs) zu füttern und gleichzeitig die Bot-Leistung zu überwachen. Erweitertes Feedback. Durch die Befolgung der erforschten Designprinzipien kann ChatGPT Code für Roboterszenarien generieren. Ohne jegliche Feinabstimmung nutzt die Studie das Wissen von LLM, um verschiedene Roboterformen für verschiedene Aufgaben zu steuern. In ihrer Arbeit demonstrierten die Forscher mehrere Beispiele dafür, wie ChatGPT robotertechnische Herausforderungen löst, sowie komplexe Robotereinsätze im Betriebs-, Luft- und Navigationsbereich.
Prompting LLM ist eine hochgradig empirische Wissenschaft. Die Forschung etablierte eine Reihe von Methoden und Designprinzipien zum Schreiben von Eingabeaufforderungen für Roboteraufgaben durch Versuch und Irrtum:
Wenn der Benutzer mit der Lösung zufrieden ist, kann der Code schließlich auf dem Roboter bereitgestellt werden.
Schauen wir uns ein paar Beispiele an, weitere Fallstudien finden Sie auch im Repository.
Die Forscher ließen ChatGPT eine echte Drohne steuern, und es erwies sich als eine sehr intuitive sprachbasierte Schnittstelle zwischen technisch nicht versierten Benutzern und dem Roboter. Wenn Benutzeranweisungen nicht eindeutig sind, stellt ChatGPT klärende Fragen und schreibt komplexe Codestrukturen für die Drohne, um die Architektur visuell zu überprüfen, beispielsweise Zickzackmuster. Es hat sogar gelernt, Selfies zu machen! Die Forscher nutzten außerdem den Microsoft AirSim-Simulator, um ChatGPT in einem simulierten industriellen Inspektionsszenario einzusetzen. Das Modell ist in der Lage, die übergeordneten Absichten und geometrischen Hinweise des Benutzers effektiv zu analysieren, um die Drohne präzise zu steuern.
Benutzer auf dem Laufenden: Wenn komplexe Aufgaben Konversation erfordern
Als nächstes verwendeten die Forscher ChatGPT für Roboterarmbetriebsszenarien und nutzten Konversationsfeedback, um das Modell zu unterrichten So kombinieren Sie die ursprünglich bereitgestellte API in komplexere erweiterte Funktionen: Automatische ChatGPT-Programmierung. Das Modell ist in der Lage, erlernte Fähigkeiten mithilfe lehrplanbasierter Strategien logisch zu verknüpfen, um Aktionen wie das Stapeln von Blöcken durchzuführen.
Darüber hinaus zeigt dieses Modell ein perfektes Beispiel für die Verbindung von Text und physischen Bereichen beim Aufbau des Microsoft-Logos aus Holzklötzen. Es ist nicht nur in der Lage, das Logo aus einer internen Wissensdatenbank abzurufen, sondern es ist auch in der Lage, das Logo zu „zeichnen“ (als SVG-Code) und dann die oben erlernten Fähigkeiten zu nutzen, um herauszufinden, aus welchen Bewegungen des vorhandenen Roboters sein Logo bestehen kann Aussehen. Als nächstes baten die Forscher ChatGPT, einen Algorithmus zu schreiben, der es der Drohne ermöglichte, ihr Luftziel zu erreichen, ohne auf Hindernisse zu stoßen. Sie teilten dem Modell mit, dass die Drohne über einen nach vorne gerichteten Entfernungssensor verfüge, und ChatGPT programmierte sofort die meisten wichtigen Bausteine für den Algorithmus. Diese Aufgabe erfordert ein Gespräch mit einem Menschen, und die Fähigkeit von ChatGPT, lokalisierte Codeverbesserungen vorzunehmen, indem nur sprachliches Feedback verwendet wird, ist beeindruckend. Wahrnehmungs-Aktions-Schleife: Roboter nehmen die Welt wahr, bevor sie handeln Die Fähigkeit, die Welt wahrzunehmen (Wahrnehmung), bevor sie etwas tut (Handlung), ist die Grundlage jedes Robotersystems. Deshalb beschlossen die Forscher, das Verständnis von ChatGPT für dieses Konzept zu testen und forderten es auf, eine Umgebung zu erkunden, bis es ein vom Benutzer angegebenes Objekt fand. Die Studie stellt dem Modell Funktionen wie Objekterkennungs- und Objektentfernungs-APIs zur Verfügung und überprüft, ob der von ihm generierte Code die Sense-Action-Schleife erfolgreich implementiert.Während der experimentellen Phase führten die Forscher zusätzliche Experimente durch, um zu bewerten, ob ChatGPT basierend auf Sensorfeedback in Echtzeit Entscheidungen darüber treffen kann, wohin der Roboter gehen soll (anstatt ChatGPT eine Codeschleife generieren zu lassen, um diese Entscheidungen zu treffen). Interessanterweise wurde zufällig überprüft, dass in jeden Schritt des Gesprächs eine Textbeschreibung des Kamerabilds eingespeist werden konnte, und das Modell konnte herausfinden, wie es den Roboter steuern konnte, bis er ein bestimmtes Objekt erreichte.
PromptCraft, LLM + kollaboratives Open-Source-Tool für die Robotikforschung
Zusätzlich zum Prompt-Design hofft die Forschung auch, mehrere Bot-Simulatoren und Schnittstellen einzubeziehen, die es Benutzern ermöglichen, ihre von ChatGPT generierten Algorithmen zu testen. Zu Beginn hat die Forschung auch eine in ChatGPT integrierte AirSim-Umgebung veröffentlicht, die jeder zur Entwicklung dieser Ideen nutzen kann.
ChatGPT-AirSim-Schnittstelle
Die Veröffentlichung dieser Technologien ist etwas, das es zu feiern gilt, denn sie wird das Publikum der Robotiktechnologie erweitern. Microsoft-Forscher glauben, dass die sprachbasierte Robotersteuerung den Grundstein dafür legen wird, Roboter aus wissenschaftlichen Labors in das Leben alltäglicher Benutzer zu bringen.
Was dieser Artikel hervorheben möchte, ist, dass die Ausgabe von ChatGPT nicht dazu gedacht ist, ohne sorgfältige Analyse direkt auf einem Roboter bereitgestellt zu werden. Die Forscher ermutigen Benutzer, die Leistungsfähigkeit der Simulation zu nutzen, um diese Algorithmen vor einem möglichen Einsatz im realen Leben zu bewerten und stets die erforderlichen Sicherheitsvorkehrungen zu treffen. Die in diesem Artikel beschriebene Arbeit stellt nur einen kleinen Teil dessen dar, was an der Schnittstelle großer Sprachmodelle im Bereich der Robotik möglich ist, und liefert hoffentlich Inspiration für weitere Forschung.
Originallink: https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/
Das obige ist der detaillierte Inhalt vonWährend ich noch mit ChatGPT chattete, hatte bereits jemand damit begonnen, die Arbeit des Roboters zu steuern.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!