En 2009, Li Feifei, un informaticien travaillant à l'époque à l'Université de Princeton, a dirigé la construction d'un ensemble de données qui a changé l'histoire de l'intelligence artificielle : ImageNet. Il contient des millions d'images étiquetées qui peuvent être utilisées pour entraîner des modèles complexes d'apprentissage automatique afin d'identifier des objets dans les images.
En 2015, les capacités de reconnaissance des machines ont dépassé celles des humains. Li Feifei s'est rapidement tournée vers un nouvel objectif, à la recherche de ce qu'elle a appelé une autre « étoile du Nord » (le « Polaris » fait ici référence au problème scientifique clé que les chercheurs se concentrent sur la résolution, ce qui peut inspirer leur enthousiasme pour la recherche et réaliser des progrès décisifs).
Elle a trouvé l'inspiration en revenant 530 millions d'années en arrière, jusqu'à l'explosion de la vie cambrienne, lorsque de nombreuses espèces d'animaux terrestres sont apparues pour la première fois. Une théorie influente suggère que l’explosion de nouvelles espèces était en partie due à l’émergence des yeux, qui permettaient aux créatures de voir le monde qui les entourait pour la première fois. Li Feifei estime que la vision animale ne surgit pas de manière isolée, mais est « profondément ancrée dans un tout qui doit se déplacer, naviguer, survivre, manipuler et changer dans un environnement en évolution rapide », a-t-elle déclaré, « il est donc naturel de se tourner vers un domaine plus actif de l'IA. Aujourd'hui, les travaux de Li Feifei se concentrent sur les agents d'IA qui peuvent non seulement recevoir des images statiques à partir d'ensembles de données, mais également effectuer une virtualisation tridimensionnelle se déplacer dans le monde simulé et interagir avec votre environnement.
C’est l’objectif général d’un nouveau domaine appelé « IA incarnée ». Cela recoupe la robotique dans la mesure où les robots peuvent être considérés comme l’équivalent physique des agents d’IA incarnés et de l’apprentissage par renforcement dans le monde réel. Li Feifei et d'autres pensent que l'IA incarnée peut nous apporter une transformation majeure, de la simple capacité d'apprentissage automatique, comme la reconnaissance d'images, à l'apprentissage de la réalisation de tâches complexes de type humain en plusieurs étapes, comme préparer une omelette.
Aujourd'hui, le travail de l'IA incarnée inclut tout agent capable de détecter et de modifier son propre environnement. En robotique, les agents IA vivent toujours dans des corps de robots, tandis que les agents dans les simulations réelles peuvent avoir un corps virtuel ou percevoir le monde à travers une position de caméra en mouvement et interagir avec l'environnement qui les entoure. "Le sens de l'incarnation n'est pas le corps lui-même, mais les besoins et fonctions globaux d'interaction avec l'environnement et d'action dans l'environnement", a expliqué Li Feifei.Cette interactivité offre aux agents une nouvelle – et dans de nombreux cas meilleure – façon de comprendre le monde. Cela équivaut au fait qu'avant, vous vous contentiez d'observer la relation possible entre deux objets, mais que vous pouvez désormais expérimenter et réaliser cette relation vous-même. Avec cette nouvelle compréhension, les idées sont mises en pratique et une plus grande sagesse s’ensuit. Avec un nouvel ensemble de mondes virtuels opérationnels, les agents d’IA incarnés ont commencé à réaliser ce potentiel, réalisant des progrès significatifs dans leurs nouveaux environnements.
« À l’heure actuelle, nous n’avons aucune preuve de l’existence d’une intelligence qui n’apprend pas en interagissant avec le monde », a déclaré Viviane Clay, chercheuse en IA incarnée à l’Université d’Osnebruck en Allemagne. Vers une simulation parfaiteBien que les chercheurs souhaitent depuis longtemps créer de véritables mondes virtuels que les agents d'IA pourraient explorer, ils n'ont été créés que depuis environ cinq ans. Cette capacité provient des améliorations graphiques apportées aux industries du cinéma et du jeu vidéo. En 2017, les agents IA peuvent représenter les espaces intérieurs de manière aussi réaliste que s’ils se trouvaient dans une maison – une « maison » virtuelle mais littérale. Les informaticiens de l'Allen Institute for Artificial Intelligence ont construit un simulateur appelé AI2-Thor qui permet aux agents de se déplacer dans les cuisines naturelles, les salles de bains, les salons et les chambres. Les agents peuvent apprendre des vues tridimensionnelles qui changent à mesure qu’ils se déplacent, le simulateur affichant de nouveaux angles lorsqu’ils décident d’y regarder de plus près. Ce nouveau monde donne également aux agents intelligents l'opportunité de réfléchir aux changements dans une nouvelle dimension « temporelle ». "C'est un grand changement", a déclaré Manolis Savva, chercheur en infographie à l'Université Simon Fraser. "Dans un environnement d'IA incarnée, vous disposez de ces flux d'informations temporellement cohérents que vous pouvez contrôler. " suffisamment bon pour que les agents puissent être formés pour accomplir des tâches complètement nouvelles. Non seulement ils peuvent reconnaître un objet, mais ils peuvent également interagir avec lui, le ramasser et naviguer autour de lui. Ces étapes apparemment petites sont nécessaires à tout agent pour comprendre son environnement. En 2020, les agents virtuels ont la capacité d’aller au-delà de la vision et d’entendre les sons émis par les objets virtuels, offrant ainsi une nouvelle perspective sur la compréhension des objets et de leur fonctionnement dans le monde. Les agents d'IA incarnés qui peuvent s'exécuter dans un monde virtuel (environnement ManipulaTHOR) apprennent de différentes manières et peuvent être plus adaptés à des tâches plus complexes, de type humain.Cependant, le simulateur a aussi ses propres limites. "Même les meilleurs simulateurs sont bien moins réalistes que le monde réel", explique Daniel Yamins, informaticien à l'Université de Stanford. Yamins a co-développé ThreeDWorld avec des collègues du MIT et d'IBM, un projet axé sur la simulation de la physique réelle dans des mondes virtuels, comme le comportement des liquides et la façon dont certains objets sont rigides dans une zone et rigides dans une autre. .
Il s’agit d’une tâche très difficile qui nécessite que l’IA apprenne de nouvelles manières.
Un moyen simple de mesurer les progrès de l'IA incarnée jusqu'à présent consiste à comparer les performances des agents incarnés à des algorithmes formés sur des tâches d'image statique plus simples. Les comparaisons ne sont pas parfaites, notent les chercheurs, mais les premiers résultats suggèrent que l’IA incarnée apprend différemment et parfois mieux que ses prédécesseurs.
Dans un article récent (« Interactron : Embodied Adaptive Object Detection »), les chercheurs ont découvert qu'un agent d'IA incarné était plus précis dans la détection d'objets spécifiques, soit près de 12 % de mieux que les méthodes traditionnelles. "Il a fallu plus de trois ans pour que le domaine de la détection d'objets atteigne ce niveau d'amélioration", a déclaré Roozbeh Mottaghi, co-auteur de l'étude et informaticien à l'Institut Allen pour l'intelligence artificielle. "Et nous avons accompli beaucoup de choses simplement en interagissant. avec le monde. "D'autres articles ont montré que les algorithmes de détection d'objets progressent lorsque vous prenez la forme d'une IA incarnée et que vous leur demandez d'explorer un espace virtuel une fois ou de se promener en collectant plusieurs vues d'un objet.
Les chercheurs ont également découvert que les algorithmes incarnés et les algorithmes traditionnels apprennent de manière complètement différente. Pour le démontrer, considérons les réseaux de neurones, l’ingrédient fondamental derrière les capacités d’apprentissage de chaque algorithme incarné et de nombreux algorithmes désincarnés. Les réseaux de neurones sont constitués de nombreuses couches de nœuds neuronaux artificiels connectés et sont vaguement modelés sur les réseaux du cerveau humain. Dans deux articles distincts, les chercheurs ont découvert que moins de neurones réagissent aux informations visuelles dans les réseaux neuronaux d'agents incarnés, ce qui signifie que chaque neurone individuel est plus sélectif dans sa façon de réagir. Les réseaux désincarnés sont beaucoup moins efficaces et nécessitent davantage de neurones pour rester actifs la plupart du temps. Une équipe de recherche (dirigée par Grace Lindsay, nouvelle professeure à NYU) a même comparé les réseaux de neurones incarnés et non incarnés avec l'activité neuronale d'un cerveau vivant (le cortex visuel des souris) et a découvert que les réseaux de neurones incarnés. Internet est ce qui se rapproche le plus d'un cerveau vivant. corps.
Lindsay s'empresse de souligner que cela ne signifie pas nécessairement que les versions incarnées sont meilleures, elles sont simplement différentes. Contrairement à l'article sur la détection d'objets, l'étude de Lindsay et al. compare les différences potentielles du même réseau neuronal, permettant aux agents d'accomplir des tâches complètement différentes. Ils peuvent donc avoir besoin de réseaux neuronaux fonctionnant différemment pour atteindre leurs objectifs.
Bien que comparer les réseaux de neurones incarnés aux réseaux de neurones non incarnés soit une façon de mesurer l'amélioration, ce que les chercheurs veulent vraiment faire n'est pas d'améliorer les performances des agents incarnés sur les tâches existantes, ce qu'ils veulent vraiment faire, c'est améliorer les performances des agents incarnés. agents sur des tâches existantes. L’objectif est d’apprendre des tâches plus complexes, de type humain. C’est ce qui passionne le plus les chercheurs, qui constatent des progrès impressionnants, notamment sur les tâches de navigation. Dans ces tâches, l'agent doit se souvenir des objectifs à long terme de sa destination tout en formulant un plan pour y arriver sans se perdre ni se cogner contre des objets.
En quelques années seulement, une équipe dirigée par Dhruv Batra, informaticien de Georgia Tech et directeur de recherche chez Meta AI, a fait de grands progrès sur une tâche de navigation spécifique appelée « navigation point-objectif ». Dans cette tâche, l'agent est placé dans un environnement complètement nouvel et doit se rendre à une certaine coordonnée (telle que "Aller au point qui se trouve à 5 mètres au nord et 10 mètres à l'est") sans carte.
Batra a déclaré avoir formé l'agent dans un monde virtuel Meta appelé "AI Habitat" et lui avoir donné un GPS et une boussole. Ils ont constaté qu'il pouvait atteindre une précision de plus de 99,9 % sur des ensembles de données standard. Plus récemment, ils ont réussi à étendre leurs résultats à un scénario plus difficile et plus réaliste – sans boussole ni GPS. En conséquence, l’agent a atteint une précision de 94 % dans l’estimation de sa position en utilisant uniquement le flux de pixels qu’il a vu lors de son déplacement.
Le monde virtuel "AI Habitat" créé par l'équipe Meta AI Dhruv Batra. Ils espèrent augmenter la vitesse des simulations jusqu’à ce que l’IA incarnée puisse atteindre 20 ans d’expérience en simulation en seulement 20 minutes de temps d’horloge.Mottaghi a déclaré : « C'est une grande amélioration, mais cela ne signifie pas que le problème de navigation a été complètement résolu. Parce que de nombreux autres types de tâches de navigation nécessitent l'utilisation d'instructions linguistiques plus complexes, telles que « Passer par la cuisine ». pour récupérer les objets sur la table de chevet dans la chambre", sa précision n'est encore que d'environ 30 à 40 %.
Mais la navigation reste l’une des tâches les plus simples de l’IA incarnée, puisque l’agent n’a pas besoin de manipuler quoi que ce soit lorsqu’il se déplace dans l’environnement. Jusqu’à présent, les agents d’IA incarnés sont loin de maîtriser les tâches liées aux objets. Une partie du défi réside dans le fait que lorsqu’un agent interagit avec de nouveaux objets, il peut commettre de nombreuses erreurs, et celles-ci peuvent s’accumuler. Actuellement, la plupart des chercheurs abordent ce problème en choisissant des tâches comportant seulement quelques étapes, mais la plupart des activités de type humain, comme cuisiner ou faire la vaisselle, nécessitent de longues séquences d'actions sur plusieurs objets. Pour atteindre cet objectif, les agents de l’IA devront faire des progrès encore plus importants.
Fei-Fei Li pourrait être à nouveau à l'avant-garde à cet égard, puisque son équipe a développé un ensemble de données simulées - COMPORTEMENT - dans l'espoir de contribuer à l'IA incarnée ce que son projet ImageNet a fait pour la reconnaissance d'objets.
Cet ensemble de données contient plus de 100 activités humaines que les agents doivent réaliser, et le test peut être effectué dans n'importe quel environnement virtuel. Le nouvel ensemble de données de l'équipe de Fei-Fei Li permettra à la communauté de mieux évaluer les progrès des agents virtuels d'IA en créant des mesures qui comparent les agents effectuant ces tâches à de vraies vidéos d'humains effectuant les mêmes tâches.
Une fois que l'agent a accompli avec succès ces tâches complexes, Li Feifei estime que le but de la simulation est de s'entraîner pour l'espace opérationnel final, le monde réel.
"À mon avis, la simulation est l'un des domaines les plus importants et les plus passionnants de la recherche en robotique", a déclaré Li Feifei.
Les robots sont essentiellement une intelligence incarnée. Ils habitent une sorte de corps physique dans le monde réel et représentent la forme la plus extrême d’agent d’IA incarné. Mais de nombreux chercheurs ont découvert que même ces agents peuvent bénéficier d’une formation dans des mondes virtuels.
Mottaghi a déclaré que les algorithmes les plus avancés en robotique, tels que l'apprentissage par renforcement, nécessitent souvent des millions d'itérations pour apprendre quelque chose de significatif. Par conséquent, entraîner de vrais robots à effectuer des tâches difficiles peut prendre des années.
Les robots peuvent naviguer sur des terrains incertains dans le monde réel. De nouvelles recherches montrent que la formation dans des environnements virtuels peut aider les robots à maîtriser ces compétences, ainsi que d’autres.
Mais si vous les formez d'abord dans le monde virtuel, ce sera beaucoup plus rapide. Des milliers d’agents peuvent être formés simultanément dans des milliers de salles différentes. De plus, la formation virtuelle est plus sûre pour les robots et les humains.
En 2018, les chercheurs d'OpenAI ont démontré que les compétences acquises par un agent dans le monde virtuel peuvent être transférées dans le monde réel, c'est pourquoi de nombreux experts en robotique ont commencé à s'intéresser davantage aux simulateurs. Ils ont formé une main robotique pour manipuler un cube qui n’avait été vu que dans des simulations. Des recherches récentes consistent également à permettre aux drones d'apprendre à éviter les collisions aériennes, à déployer des voitures autonomes dans des environnements urbains sur deux continents différents et à permettre à un chien robot à quatre pattes d'effectuer une randonnée d'une heure dans les Alpes suisses (et il prend le même temps que les humains).
À l'avenir, les chercheurs pourraient également envoyer des humains dans l'espace virtuel grâce à des casques de réalité virtuelle, comblant ainsi le fossé entre la simulation et le monde réel. Dieter Fox, directeur principal de la recherche en robotique chez Nvidia et professeur à l'Université de Washington, a souligné que l'un des objectifs clés de la recherche en robotique est de construire des robots utiles aux humains dans le monde réel. Mais pour ce faire, ils doivent d’abord être exposés aux humains et apprendre à interagir avec eux.
Fox dit que ce serait une approche très puissante d'utiliser la technologie de réalité virtuelle pour placer des humains dans ces environnements simulés, puis leur faire faire des présentations et interagir avec des robots.
Qu'ils soient dans une simulation ou dans le monde réel, les agents d'IA incarnés apprennent à ressembler davantage à des humains et à accomplir des tâches qui ressemblent davantage à des tâches humaines. Le domaine progresse sous tous les aspects, y compris de nouveaux mondes, de nouvelles tâches et de nouveaux algorithmes d’apprentissage.
« Je vois la fusion de l'apprentissage profond, de l'apprentissage robotique, de la vision et même du langage », a déclaré Li Feifei. « Maintenant, je pense que grâce à ce « moonshot » ou « North Star » pour l'IA incarnée, nous apprendrons les bases de l'intelligence. . La technologie, cela peut vraiment apporter des avancées majeures"
Article de Li Feifei sur le problème "North Star" de la vision par ordinateur. Lien : https://www.amacad.org/publication/searching-computer-vision-north-stars
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!