Avez-vous déjà eu envie de dire à un robot quoi faire en utilisant vos propres mots, tout comme si vous parliez à un humain ?
Par exemple, dites simplement à votre robot assistant domestique "S'il vous plaît, réchauffez mon déjeuner" et il trouvera le micro-ondes tout seul. Incroyable, non ?
Bien que le langage soit le moyen le plus intuitif pour les humains d'exprimer leurs intentions, pendant longtemps, les gens se sont encore largement appuyés sur des codes manuscrits pour contrôler les robots. Cependant, lorsque ChatGPT apparaîtra, cette situation changera.
Dans une étude récente, une équipe Microsoft explore comment utiliser le nouveau modèle de langage d'IA d'OpenAI, ChatGPT, pour rendre possible l'interaction naturelle entre l'homme et la machine.
Lien papier : https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf
ChatGPT est un langage texte et A modèle formé sur un corpus d’interactions humaines afin qu’il puisse générer des réponses cohérentes et grammaticalement correctes à un large éventail d’invites et de questions. Le but de cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde réel pour aider les robots à accomplir des tâches. Les chercheurs espèrent que cela permettra aux gens d'interagir plus facilement avec les robots sans avoir à apprendre des langages de programmation complexes ou les détails des systèmes robotiques.
Le principal défi de la recherche est d'enseigner à ChatGPT comment résoudre des problèmes en tenant compte des lois de la physique, de l'environnement opérationnel et de la façon dont le robot utilise les mouvements du corps pour modifier l'environnement.
Il s'avère que ChatGPT peut faire beaucoup de choses tout seul, mais il a encore besoin d'aide. Dans cet article, l'équipe décrit une série de principes de conception qui peuvent être utilisés pour guider les modèles de langage dans la résolution de tâches robotiques, notamment (mais sans s'y limiter) des structures d'invite ad hoc, des API de haut niveau et des commentaires via du texte humain. Les chercheurs pensent que ce travail n’est que le début d’une transformation dans le développement de systèmes robotiques et espèrent que cette étude inspirera d’autres chercheurs à rejoindre ce domaine de recherche intéressant.
Le processus actuel de fonctionnement des robots commence avec les ingénieurs ou les utilisateurs techniques, qui doivent convertir les exigences des tâches en code système. Les ingénieurs seront au courant du flux de travail, écrivant constamment du nouveau code et des spécifications pour corriger le comportement du robot. Dans l’ensemble, ce processus est lent (les utilisateurs doivent écrire du code de bas niveau), coûteux (nécessite des utilisateurs hautement qualifiés ayant une connaissance approfondie de la robotique) et inefficace (nécessite plusieurs interactions pour fonctionner correctement).
Mais ChatGPT ouvre un nouveau paradigme de bot et permet aux utilisateurs potentiellement non techniques de s'impliquer dans la boucle, en alimentant de grands modèles de langage (LLM) tout en surveillant les performances du bot. Commentaires avancés. En suivant les principes de conception recherchés, ChatGPT peut générer du code pour des scénarios robotiques. Sans aucun réglage fin, l’étude exploite les connaissances du LLM pour contrôler différentes formes de robots pour diverses tâches. Dans leurs travaux, les chercheurs ont démontré plusieurs exemples de ChatGPT résolvant des défis robotiques, ainsi que des déploiements de robots complexes dans les domaines opérationnels, aériens et de navigation.
Prompting LLM est une science hautement empirique. La recherche a établi un ensemble de méthodes et de principes de conception pour écrire des invites pour les tâches du robot par essais et erreurs :
Si l'utilisateur est satisfait de la solution, le code peut enfin être déployé sur le robot.
Regardons quelques exemples, vous pouvez également trouver d'autres études de cas dans le référentiel.
Les chercheurs ont laissé ChatGPT contrôler un vrai drone, et il s'est avéré être une interface linguistique très intuitive entre les utilisateurs non techniques et le robot. Lorsque les instructions utilisateur sont ambiguës, ChatGPT pose des questions de clarification et écrit des structures de code complexes pour que le drone inspecte visuellement l'architecture, telles que des motifs en zigzag. Il a même appris à prendre des selfies ! Les chercheurs ont également utilisé le simulateur Microsoft AirSim pour utiliser ChatGPT dans un scénario d'inspection industrielle simulé. Le modèle est capable d'analyser efficacement les intentions de haut niveau et les indices géométriques de l'utilisateur pour contrôler avec précision le drone.
Les utilisateurs dans la boucle : lorsque des tâches complexes nécessitent une conversation
Ensuite, les chercheurs ont utilisé ChatGPT pour des scénarios de fonctionnement du bras robotique et utilisé le feedback conversationnel pour enseigner le modèle comment combiner l'API initialement fournie dans des fonctions avancées plus complexes : programmation automatique ChatGPT. Le modèle est capable de relier logiquement les compétences acquises en utilisant des stratégies basées sur le programme pour effectuer des actions telles que l'empilement de blocs.
De plus, cette maquette montre un exemple parfait de connexion de domaines textuels et physiques lors de la construction du logo Microsoft à partir de blocs de bois. Non seulement il est capable de rappeler le logo à partir d'une base de connaissances interne, mais il est également capable de « dessiner » le logo (sous forme de code SVG), puis d'utiliser les compétences acquises ci-dessus pour déterminer lequel des mouvements du robot existant peut constituer son logo. apparence. Ensuite, les chercheurs ont demandé à ChatGPT d'écrire un algorithme permettant au drone d'atteindre sa cible aérienne sans heurter d'obstacles. Ils ont indiqué au modèle que le drone était équipé d'un capteur de distance orienté vers l'avant, et ChatGPT a immédiatement programmé la plupart des éléments clés de l'algorithme. Cette tâche nécessite une conversation avec un humain, et la capacité de ChatGPT à apporter des améliorations localisées au code en utilisant uniquement des commentaires linguistiques est impressionnante. Boucle Perception-Action : Les robots perçoivent le monde avant d'agir La capacité de percevoir le monde (perception) avant de faire quelque chose (action) est le fondement de tout système robotique. Les chercheurs ont donc décidé de tester la compréhension de ChatGPT de ce concept et lui ont demandé d'explorer un environnement jusqu'à ce qu'il trouve un objet spécifié par l'utilisateur. L'étude fournit au modèle des fonctionnalités telles que des API de détection d'objets et de distance d'objet, et vérifie que le code qu'il génère implémente avec succès la boucle sens-action.Pendant la phase expérimentale, les chercheurs ont mené des expériences supplémentaires pour évaluer si ChatGPT pouvait prendre des décisions en temps réel sur l'endroit où le robot devait aller en fonction des retours des capteurs (plutôt que de laisser ChatGPT générer une boucle de code pour prendre ces décisions). Fait intéressant, il a été vérifié qu'une description textuelle de l'image de la caméra pouvait être insérée dans chaque étape de la conversation, et le modèle était capable de comprendre comment contrôler le robot jusqu'à ce qu'il atteigne un objet spécifique.
PromptCraft, LLM + outil collaboratif open source pour la recherche en robotique
En plus de la conception Prompt, la recherche espère également inclure plusieurs simulateurs de robots et interfaces permettant aux utilisateurs de tester leurs algorithmes générés par ChatGPT. Pour commencer, la recherche a également publié un environnement AirSim intégré à ChatGPT que tout le monde peut utiliser pour développer ces idées.
Interface ChatGPT-AirSim
La sortie de ces technologies mérite d'être célébrée, car elle élargira le public de la technologie robotique. Les chercheurs de Microsoft pensent que le contrôle des robots basé sur le langage jettera les bases pour faire sortir les robots des laboratoires scientifiques et les intégrer dans la vie des utilisateurs quotidiens.
Cet article tient à souligner que la sortie de ChatGPT n'est pas destinée à être déployée directement sur un robot sans une analyse minutieuse. Les chercheurs encouragent les utilisateurs à exploiter la puissance de la simulation afin d’évaluer ces algorithmes avant un éventuel déploiement réel et à toujours prendre les précautions de sécurité nécessaires. Les travaux décrits dans cet article ne représentent qu’une petite partie de ce qui est possible à l’intersection des modèles de langage à grande échelle opérant dans le domaine de la robotique et, espérons-le, inspireront d’autres recherches.
Lien original : https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!