


Qu'est-ce que l'agent d'IA polyvalent « SIMA » de Google DeepMind pour les environnements virtuels 3D ? [CEDEC 2024]
Le 21 août 2024, la session « SIMA : Développer des agents IA généraux avec des jeux vidéo » s'est tenue lors de la conférence des développeurs de jeux « CEDEC 2024 ».
![]() |
Dans cette session, nous donnerons un aperçu de l'agent d'IA à usage général de Google DeepMind "SIMA" (Scalable Instructable Multiworld Agent) pour les environnements virtuels 3D, les méthodes de formation utilisant des jeux, les apprentissages et les défis tirés de la recherche et les projets futurs d'Alexandre. Mufarek, responsable du département Stratégie technologique/Stratégie de données R&D IA de l'entreprise, a présenté l'orientation de l'entreprise et d'autres informations.
Google DeepMind et son ADN de jeu Mufarek a initialement décrit la mission de Google DeepMind comme « construire une IA responsable qui profite à l'humanité » ou développer une AGI (intelligence artificielle générale) qui peut être utilisée pour résoudre en toute sécurité des problèmes du monde réel. a présenté les recherches qu'il mène depuis près de 15 ans.
Il a commencé par faire des recherches sur des jeux de société et des jeux simples pour Atari, et a finalement commencé à développer des algorithmes d'apprentissage par renforcement, inspirés par les neurosciences et sa compréhension du fonctionnement du cerveau.
![]() |
et "AlphaGeometry 2" , il a été possible d'appliquer les connaissances acquises lors de ces projets au Olympiade internationale de mathématiques en 2024. On dit qu'il a atteint le niveau d'aptitude médaille d'argent. Il a également été mentionné que ces résultats sont également utilisés dans l'IA générative de Google "Gemini"
.
![]() |
M. Mufarek a expliqué le processus de recherche et de développement de jeux comme suit. En d’autres termes, si vous « formulez une hypothèse et faites des essais et des erreurs », vous finirez par « découvrir une pièce importante avec un grand potentiel ». Cependant, «à un moment donné, cet élément cesse de fonctionner et vous vous retrouvez dans un état où vous ne savez même pas pourquoi cela s'est produit ou pourquoi cela fonctionnait en premier lieu.» À partir de là, il s’agit d’un processus long, itératif et épuisant consistant à « découvrir toutes les méthodes qui ne fonctionneront pas », mais avec beaucoup de patience, de ressources, de foi dans votre hypothèse initiale et de persévérance, vous trouverez un solution. À partir de là, tout s’accélère, s’enchaîne bien et s’enchaîne.
![]() |
![]() |
Lorsqu'il s'agit d'environnements riches, dynamiques et complexes avec lesquels vous pouvez interagir et apprendre, les défis présentés dans les jeux, tels que résoudre des énigmes en mouvement dans l'espace virtuel, élaborer des stratégies contre des adversaires et s'adapter à des situations changeantes, peuvent être comparés au un large éventail de situations réelles. Il a été expliqué que les modèles d’IA peuvent aider à développer des compétences avancées en matière de résolution de problèmes et de prise de décision qui peuvent être adaptées à diverses situations.
Pour des expériences évolutives et reproductibles, les chercheurs peuvent facilement créer des instances d’environnements de jeu, exécuter de nombreuses simulations simultanément et utiliser les grandes quantités de données qu’ils peuvent collecter pour former et évaluer des modèles d’IA. De plus, les expériences peuvent être reproduites de manière cohérente, garantissant ainsi la fiabilité et la validité des résultats de recherche.
Lorsqu'il s'agit de tests contrôlés et sûrs, l'évaluation des performances d'un modèle d'IA dans diverses situations virtuelles peut aider à identifier les failles et les limites potentielles et à améliorer les algorithmes sans les risques associés aux tests dans le monde réel. Ceci est particulièrement important pour les applications telles que les voitures autonomes et les diagnostics médicaux, où les erreurs peuvent avoir de graves conséquences.
Des cas ont également été présentés dans lesquels la recherche sur l’IA a réellement progressé grâce aux jeux entre 2010 et 2024, lorsque l’apprentissage par renforcement et l’apprentissage en profondeur se sont considérablement améliorés. Au début des années 2010, Google DeepMind a relevé le défi de développer des algorithmes utilisant les jeux Atari et DQN (Deep Q-Network). En conséquence, un algorithme a été créé qui a démontré des performances surhumaines lors de la lecture de plus de 50 jeux Atari.
![]() |
Entre le milieu et la fin des années 2010, Microsoft a développé un projet de formation à l'IA "Project Malmo" utilisant "Minecraft" . De plus, la plateforme d'apprentissage de l'IA d'OpenAI "Universe" dispose d'une interface utilisateur très polyvalente, permettant de faire évoluer le jeu et de l'utiliser à des fins de recherche.
De plus, à la fin des années 2020, le système d'IA « OpenAI Five » pour « Dota 2 » fera son apparition, et l'agent d'IA « AlphaStar » développé par DeepMind deviendra un acteur de premier plan dans » StarCraft II » L'IA a commencé à être utilisée même dans des jeux complexes, tels que les jeux gagnants. Au cours de cette période, Mufarek s'est concentré sur un environnement unique avec un espace d'action personnalisé et a créé une plate-forme de recherche personnalisée en modifiant le code source du jeu et en implémentant des API spéciales pour l'agent IA. Il a expliqué qu'il l'avait fait.
En 2017, le modèle d'apprentissage automatique "Transformer" annoncé par Google a élargi la polyvalence de l'IA, notamment en résumant des phrases de dialogue, en écrivant de la poésie et en analysant des données à l'aide de modèles linguistiques à grande échelle (LLM). Cela a été rendu possible grâce aux chatbots. Avec une généralisation plus poussée, il est devenu possible de générer des images, du son et de la vidéo à l’aide de l’IA.
![]() |
Cependant, Mufarek souligne les limites de ces modèles d’IA à grande échelle. En d’autres termes, les modèles d’IA à grande échelle n’ont aucune dimension physique, ils n’existent donc que dans le domaine numérique et ne peuvent pas fonctionner dans le domaine physique. Par conséquent, afin d'utiliser l'IA dans le domaine physique, il est nécessaire de lui donner une dimension physique grâce à des capteurs physiques, comme dans Pepper de Softbank et les voitures autonomes de Waymo.
Le prochain chapitre de la recherche en IA : SIMA
Selon Mufarek, DeepMind a fait progresser la recherche sur SIMA afin de surmonter les limites mentionnées ci-dessus des modèles d'IA. L'objectif est de « développer un agent d'IA qui peut être conditionné par le langage ». En d'autres termes, il permet non seulement de jouer à des jeux de manière autonome, mais permet également aux humains d'utiliser le langage naturel pour leur dire ce qu'ils veulent qu'ils fassent. était de créer un agent IA capable d'effectuer les tâches suivantes.
![]() |
L'hypothèse établie pour atteindre cet objectif est la suivante : « Si un agent d'IA peut apprendre quelque chose dans un environnement et utiliser cette compétence pour faire quelque chose dans un autre environnement, alors l'IA se généralisera. » En d'autres termes, au lieu de préparer un agent IA dédié pour chaque titre de jeu, lorsqu'un humain touche un nouveau jeu, un seul agent IA peut reprendre les opérations telles que les personnages et les caméras du jeu précédent. Cela signifie en faire une réalité.
À cette fin, DeepMind s'est associé à plusieurs sociétés de jeux pour créer un portefeuille de formation pour les agents IA. Plus précisément, l'agent IA a été formé en enregistrant le gameplay humain de jeux tels que « No Man's Sky », « Valheim », « Teardown » et « Goat Simulator ». De plus, il semble que SIMA ait pu être réalisé en donnant des instructions textuelles.
![]() |
![]() |
De plus, l'intégration des jeux et des environnements de recherche se fera en coopération avec le développeur du jeu. Il s'agit de clarifier qui est responsable de la manière dont les données utilisées dans le jeu et le projet SIMA sont traitées.
Selon Mufarek, le projet SIMA nécessitait un portefeuille d'apprentissage diversifié et non violent. Pour cette raison, nous avons sélectionné une variété de titres de jeux, y compris ceux qui sont visuellement naturels, industriels, réalistes, de science-fiction ou du point de vue de la première ou de la troisième personne. Il intègre également des éléments de monde ouvert et de bac à sable pour permettre à SIMA d'entreprendre diverses actions via des mécanismes complexes.
![]() |
SIMA utilise une interface à usage général, et on dit que c'était dans le but de réaliser un agent d'IA à usage général. SIMA reçoit d’abord les objectifs et les instructions des humains sous forme de texte rédigé en langage naturel, puis les reconnaît en temps réel. Ensuite, tout comme les humains, ils jouent à des jeux en utilisant une manette ou un clavier et une souris.
M. Mufarek a expliqué qu'en utilisant une interface aussi polyvalente, SIMA peut être intégré à n'importe quel jeu sans personnalisation.
![]() |
De plus, deux méthodes ont été utilisées pour créer les données de formation SIMA. La première consiste pour une seule personne à jouer au jeu, à regarder la vidéo et à annoter les points importants en langage naturel. La deuxième méthode implique des équipes de deux personnes, une personne donnant des instructions en langage naturel et l'autre les suivant, filmant une vidéo de gameplay et ajoutant des annotations.
L'ensemble de données SIMA comprend des données de fonctionnement telles que le clavier et la souris.
![]() |
Set data ini termasuk kemahiran yang diperlukan untuk permainan SIMA, seperti ``membuat objek'' dan ``memandu kereta'' dalam permainan. Hasil daripada pengumpulan kemahiran ini untuk semua tajuk, jumlahnya adalah besar, tetapi ia masih tidak mencukupi untuk projek SIMA.
Encik Mufarek berkata bahawa lebih tinggi kualiti data dan anotasi, lebih berguna ia untuk menambah baik SIMA, dan beliau akan terus melakukan usaha sedemikian pada masa hadapan.
Setelah set data sedia, latihan pembelajaran SIMA akhirnya boleh dimulakan. Teknik yang digunakan di sini ialah ``pengklonan tingkah laku bersyarat,'' yang melibatkan pembelajaran dengan meniru permainan manusia.
Pada terasnya ialah seni bina yang menyokong model pra-latihan, tetapi memandangkan Gemini belum wujud apabila ia dibangunkan, ia menggunakan Panduan Tanpa Pengelas (CFG) untuk mengutamakan arahan lisan berbanding input visual. Telah didedahkan bahawa syarikat itu memberikan sokongan untuk membantu kanak-kanak belajar cara bercakap bahasa semula jadi dan memahami bahasa semula jadi dengan baik.
![]() |
Dalam fasa untuk menilai keputusan SIMA, satu set cabaran telah dicipta untuk mengukur prestasi pada pelbagai tugas. Tugasan mempunyai tiga elemen: yang pertama ialah "keadaan awal" di mana SIMA memulakan tindakannya, yang kedua ialah "matlamat/arahan" yang mesti diikuti oleh SIMA, dan yang ketiga ialah "keadaan awal" yang menentukan sama ada tugas itu atau tidak. telah mencapai kriteria kejayaan."
![]() |
SIMA juga menggunakan ``Ground Truth,'' yang secara pemrograman menentukan sama ada tugas telah berjaya diselesaikan, ``Optical Character Recognition (OCR),'' yang memberikan maklum balas tentang tindakan yang diambil berdasarkan perubahan dalam teks pada skrin, dan manusia Ia juga diperkenalkan bahawa penilaian akan dilakukan dari tiga perspektif: ``penilaian manusia,'' yang melibatkan pemeriksaan video dan mengesahkan sama ada tugasan itu berjaya diselesaikan.
Keputusan penyelidikan awal SIMA dan batasan pendekatan ini
Hasil penyelidikan awal projek itu mendedahkan bahawa SIMA boleh menyelesaikan tugas yang biasa dilakukan dalam pelbagai permainan, seperti "melangkah ke hadapan" dan "membuka menu."
![]() |
Saya juga berjaya menyelesaikan tugasan yang mungkin mempunyai makna berbeza dari satu permainan ke satu permainan, seperti melepaskan kapal angkasa dalam ``No Man's Sky'' atau memandu bot dalam ``Teardown.''
![]() |
Sebaliknya, sama ada pemain dapat menyelesaikan tugasan khusus untuk setiap permainan dinilai atau tidak menggunakan tiga kaedah yang disediakan secara berasingan.
Salah satunya ialah ``Pakar,'' yang dilatih mengenai data daripada satu permainan dan dinilai dalam persekitaran yang sama, dan ini dianggap prestasi 100% sebagai garis dasar untuk penilaian.
Yang kedua ialah ``SIMA,'' yang melatih data daripada 10 permainan dan kemudian menguji dan menilainya dalam persekitaran salah satu permainan.
Yang ketiga ialah ``Zero-Shot,'' yang melatih data daripada 9 daripada 10 tajuk dan menguji serta menilainya dalam persekitaran permainan bagi baki 1 tajuk.
![]() |
Hasilnya, SIMA menunjukkan prestasi yang lebih tinggi daripada Specialist apabila mempelajari kesemua 10 tajuk, dan prestasi hampir dengan Specialist walaupun dengan Zero-Shot.
Dalam erti kata lain, Encik Mufarek sangat berpuas hati kerana beliau dapat mengesahkan bahawa ``ejen AI boleh mempelajari sesuatu dalam satu persekitaran dan menggunakan kemahiran itu untuk melakukan sesuatu dalam persekitaran yang lain.'' .
![]() |
Walau bagaimanapun, matlamat projek ini adalah untuk "membangunkan ejen AI yang dikondisikan oleh bahasa." Oleh itu, apabila pembelajaran dilakukan tanpa anotasi bahasa semula jadi dan diuji, prestasi SIMA merosot dengan ketara.
Buat pertama kalinya, hipotesis bahawa ``melatih ejen tunggal dalam banyak persekitaran berskala besar menghasilkan pemindahan pembelajaran dan generalisasi'' telah terbukti.
![]() |
![]() |
![]() |
Bagaimanapun, katanya, inilah yang mendorongnya untuk melakukan penyelidikan SIMA pada masa hadapan.
![]() |
![]() |
![]() |
Sehingga kini, kami telah meneliti pembelajaran untuk meningkatkan prestasi ejen AI, tetapi sebagai contoh, disebabkan kemas kini kepada "StarCraft II", prestasi AlphaStar telah merosot.
Mufarek berkata, ``Adalah tidak realistik untuk meminta ejen AI melatih semula setiap kali permainan dikemas kini,'' dan percaya bahawa dengan menjadikan SIMA lebih bertujuan umum, ejen AI akan dapat beraksi dengan baik walaupun ketika baru. ciri ditambah kepada permainan.
Selain itu, SIMA mahir dalam tugasan yang boleh diselesaikan dalam masa yang singkat, seperti "mengumpul kayu api" dan "membakar kayu api," tetapi ia tidak selalunya pandai dalam tugas yang memerlukan perancangan, pelbagai langkah dan penaakulan, seperti sebagai "membina rumah."
Namun, kini nampaknya Gemini boleh menjadi sokongan yang kuat untuk SIMA Contohnya, Gemini boleh menjadi pengarah dan membahagikan tugas yang panjang seperti ``membina rumah'' kepada tugas-tugas yang singkat dan menyerahkannya kepada SIMA.
![]() |
Encik Mufarek mengulangi bahawa walaupun projek SIMA sangat menarik dan menjanjikan serba boleh, ia masih belum menjadi ejen AI tujuan am sepenuhnya, sambil menambah, ``Dengan sedikit lagi inovasi, ia boleh menjadi sesuatu yang boleh melaksanakan sebarang tugas. '' Jika itu berlaku, perkembangan selanjutnya akan menjadi mungkin.''
![]() |
![]() |
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Il a la famille Ratliff comme les Trumps, avec Scarlett Johansson en tant qu'équivalent Piper Ivanka et Greg, Jon Gries, faisant une apparition. Le problème a été lorsque Sarah Sherman s'est présentée en tant que Chelsea, jouée par Aimee Lou Wood sur le Lotus blanc. Là

Les jeunes fans de Minecraft aiment le film rempli de mèmes, mais la plupart diraient un peu trop car le chaos règne maintenant dans les théâtres alors que cette foule plus jeune essaie apparemment de dépasser la folie des autres projections qu'ils ont vues sur Tiktok. Réalisateur Jared He

Connections est l'un des jeux de mots les plus populaires du New York Times qui ont attiré l'attention du public. Le jeu consiste à trouver les «fils communs entre les mots». Et tout comme les lost, les connexions réinitialisent AF

J'attends une sorte de grand changement pour frapper le monde de Tamriel depuis un certain temps. Et même si un changement radical dans la façon dont vous publiez un nouveau contenu n'est pas exactement ce que j'avais en tête, c'est toujours une refonte assez importante pour tourner la tête. Up um

Je ne veux pas examiner cette saison uniquement car il se compare au jeu vidéo sur lequel il est basé, mais il serait tout aussi impossible d'ignorer simplement le matériel source. Cependant, mes sentiments étaient mélangés à propos du jeu, il est indéniable que c'est, dans beaucoup WA

Vous cherchez des astuces, des indices et des réponses de samedi? Vous pouvez les trouver ici: «Bordle» de ForBestoday # 1393 Indices, indices et réponse pour le samedi 12 avril Erik Kain Un autre dimanche paresseux s'étend devant nous dans toute sa gloire de printemps. C'est un

Si vous lisez ceci, vous cherchez un peu d'aide à jouer aux brins, le jeu de recherche de mots élevé du New York Times. Les mots peuvent être faits à partir de

Forbesnyt «Strands» Indices, Spangram, réponses pour le lundi 14 avril par Kris Holt Hé, les amis! Les indices des brins NYT d'aujourd'hui, Spangram et les réponses pour le mardi 15 avril arrivent juste. Comment jouer aux brins Le puzzle des brins du New York Times est une pièce sur
