Pada 21 Ogos 2024, sesi “SIMA: Membangunkan Ejen AI Umum dengan Permainan Video” telah diadakan di persidangan pembangun permainan “CEDEC 2024”.
Dalam sesi ini, kami akan memberikan gambaran keseluruhan ejen AI tujuan am Google DeepMind
"SIMA" (Ejen Multiworld Boleh Arahan Skala) untuk persekitaran maya 3D, kaedah latihan menggunakan permainan, pembelajaran dan cabaran yang diperoleh daripada penyelidikan dan projek masa depan Mufarek, ketua bahagian Strategi Teknologi/Strategi Data R&D AI syarikat, memperkenalkan hala tuju syarikat dan maklumat lain.
Google DeepMind dan DNA permainannya
Mufarek pada mulanya menyifatkan misi Google DeepMind sebagai ``membina AI yang bertanggungjawab yang memberi manfaat kepada manusia,'' atau membangunkan AGI (kecerdasan umum buatan) yang boleh digunakan untuk menyelesaikan masalah dunia sebenar dengan selamat. Beliau menjelaskan bahawa matlamatnya adalah untuk menjadikannya berguna, dan memperkenalkan penyelidikan yang telah dilakukannya selama hampir 15 tahun.
Dia mula meneliti permainan papan dan permainan mudah untuk Atari, dan akhirnya mula membangunkan algoritma pembelajaran pengukuhan, yang diilhamkan oleh neurosains dan pemahamannya tentang cara otak berfungsi.
|
Tambahan pula, hasil daripada menggunakan pengetahuan yang diperoleh daripada projek tersebut dan meneruskan penyelidikan, dengan menggabungkan model AI syarikat
"AlphaProof"
dan
"AlphaGeometry 2" , adalah mungkin untuk menggunakan pengetahuan yang diperoleh daripada projek tersebut kepada International Mathematics Olympiad pada tahun 2024. Dikatakan beliau telah mencapai tahap kebolehan pingat perak.
Ia juga disebut bahawa keputusan sedemikian juga digunakan dalam AI generatif Google "Gemini"
.
|
SIMA menggunakan permainan dalam penyelidikannya kerana kebanyakan ahlinya, termasuk Mufarek sendiri dan Ketua Pegawai Eksekutif Google DeepMind Demis Hassabis, adalah bekas pembangun permainan. Dia berkata, ``Permainan ada dalam DNA kami.'' Dia juga mengatakan bahawa penyelidikan dan pembangunan permainan SIMA mempunyai lebih banyak persamaan daripada yang orang fikirkan.
Encik Mufarek menerangkan proses penyelidikan dan pembangunan permainan seperti berikut. Dalam erti kata lain, jika anda ``merumuskan hipotesis dan melalui percubaan dan kesilapan,'' anda akhirnya akan ``menemui bahagian penting yang berpotensi besar.'' Walau bagaimanapun, ``pada satu ketika bahagian itu berhenti berfungsi, dan anda berakhir dalam keadaan di mana anda tidak tahu mengapa ia berlaku atau mengapa ia berfungsi pada mulanya.'' Dari situ, ia merupakan proses yang panjang, berulang dan melelahkan untuk ``menemui semua cara yang tidak akan berhasil,'' tetapi dengan banyak kesabaran, sumber, kepercayaan pada hipotesis awal anda dan ketekunan, anda akan mendapati penyelesaian. Segala-galanya memecut dari sana, menyatu dengan baik dan bersatu.
|
Sejarah penyelidikan AI menggunakan permainan
Mufarek mengatakan bahawa permainan telah lama menyumbang kepada kemajuan penyelidikan AI dan akan terus menjadi penggerak penyelidikan ke hadapan. Khususnya, permainan menyediakan penyelidikan AI dengan ``persekitaran yang kaya, dinamik dan kompleks di mana orang ramai boleh berinteraksi dan belajar,'' ``percubaan boleh skala dan boleh dihasilkan semula,'' dan ``ujian terkawal dan selamat.''
Apabila bercakap tentang persekitaran yang kaya, dinamik dan kompleks yang anda boleh berinteraksi dan belajar daripadanya, cabaran yang dibentangkan dalam permainan, seperti menyelesaikan teka-teki bergerak dalam ruang maya, menyusun strategi menentang lawan dan menyesuaikan diri dengan situasi yang berubah-ubah, boleh dibandingkan dengan pelbagai situasi dunia sebenar telah dijelaskan bahawa model AI boleh membantu membangunkan kemahiran menyelesaikan masalah lanjutan dan kebolehan membuat keputusan yang boleh disesuaikan dengan pelbagai situasi.
Untuk eksperimen berskala dan boleh dihasilkan semula, penyelidik boleh mencipta contoh persekitaran permainan dengan mudah, menjalankan banyak simulasi secara serentak dan menggunakan sejumlah besar data yang boleh mereka kumpulkan untuk melatih dan menilai model AI yang disebutkan. Selain itu, eksperimen boleh direplikasi secara konsisten, memastikan kebolehpercayaan dan kesahihan hasil penyelidikan.
Apabila bercakap tentang ujian terkawal dan selamat, menilai prestasi model AI dalam pelbagai situasi maya boleh membantu mengenal pasti kelemahan dan pengehadan yang berpotensi serta memperbaik algoritma tanpa risiko yang dikaitkan dengan ujian dunia sebenar. Ini amat penting untuk apl seperti kereta pandu sendiri dan diagnostik perubatan, di mana ralat boleh membawa akibat yang serius.
Kes juga ditunjukkan di mana penyelidikan AI sebenarnya berkembang melalui permainan antara 2010 dan 2024, apabila pembelajaran pengukuhan dan pembelajaran mendalam bertambah baik secara mendadak. Pada awal 2010-an, Google DeepMind menyahut cabaran untuk membangunkan algoritma menggunakan permainan Atari dan DQN (Deep Q-Network). Hasilnya, algoritma telah dicipta yang menunjukkan prestasi luar biasa apabila bermain lebih 50 permainan Atari.
Pada pertengahan hingga akhir 2010-an, Microsoft membangunkan projek latihan AI "Projek Malmo" menggunakan "Minecraft" . Selain itu, platform pembelajaran AI OpenAI "Universe" mempunyai UI yang sangat umum, membolehkan untuk meningkatkan permainan dan menggunakannya untuk tujuan penyelidikan.
Juga, pada penghujung 2020-an, sistem AI “OpenAI Five” untuk “Dota 2” akan muncul, dan ejen AI “AlphaStar” yang dibangunkan oleh DeepMind akan menjadi pemain terbaik dalam “ StarCraft II” AI mula digunakan walaupun dalam permainan yang kompleks, seperti memenangi permainan. Dalam tempoh ini, Mufarek memfokuskan pada satu persekitaran dengan ruang tindakan tersuai, dan mencipta platform penyelidikan tersuai dengan mengubah suai kod sumber permainan dan melaksanakan API khas untuk ejen AI. Beliau menjelaskan bahawa beliau telah melakukannya.
Pada tahun 2017, model pembelajaran mesin "Transformer" yang diumumkan oleh Google telah mengembangkan kepelbagaian AI, termasuk meringkaskan ayat dialog, menulis puisi dan menganalisis data menggunakan model bahasa berskala besar (LLM). Dengan generalisasi lanjut, ia telah menjadi mungkin untuk menjana imej, audio dan video menggunakan AI.
Walau bagaimanapun, Mufarek menunjukkan batasan model AI berskala besar tersebut. Dalam erti kata lain, model AI berskala besar tidak mempunyai fizikal, jadi ia hanya wujud dalam alam digital dan tidak boleh beroperasi dalam alam fizikal. Oleh itu, untuk menggunakan AI dalam domain fizikal, adalah perlu untuk memberikannya fizikal melalui penderia fizikal, seperti dalam Pepper Softbank dan kereta pandu sendiri Waymo.
Bab seterusnya penyelidikan AI: SIMA
Menurut Mufarek, DeepMind telah membuat penyelidikan lanjutan mengenai SIMA untuk mengatasi batasan model AI yang disebutkan di atas. Matlamatnya adalah untuk ``membangunkan ejen AI yang boleh dikondisikan oleh bahasa.'' Dengan kata lain, ia bukan sahaja bermain permainan secara autonomi, tetapi juga membolehkan manusia menggunakan bahasa semula jadi untuk memberitahu mereka apa yang mereka mahu mereka lakukan adalah untuk mencipta ejen AI yang boleh melakukan perkara berikut.
|
Hipotesis yang ditubuhkan untuk mencapai matlamat ini ialah ``Jika ejen AI boleh mempelajari sesuatu dalam satu persekitaran dan menggunakan kemahiran itu untuk melakukan sesuatu dalam persekitaran lain, maka AI akan menjadi umum.'' akan diteruskan.'' Dalam erti kata lain, daripada menyediakan ejen AI yang berdedikasi untuk setiap tajuk permainan, apabila manusia menyentuh permainan baharu, ejen AI tunggal boleh menjalankan operasi seperti watak dan kamera daripada permainan sebelumnya. Ini bermakna menjadikannya realiti.
Untuk tujuan ini, DeepMind telah bekerjasama dengan beberapa syarikat permainan untuk mencipta portfolio pembelajaran untuk ejen AI. Khususnya, ejen AI dilatih dengan merakam permainan manusia seperti ``No Man's Sky,'' ``Valheim,'' ``Teardown,'' dan ``Goat Simulator.'' Tambahan pula, nampaknya SIMA dapat direalisasikan dengan memberi arahan berasaskan teks.
|
Latihan SIMA
Pengenalan juga telah diberikan kepada bagaimana saluran pembelajaran SIMA dibina. Menurut Mufarek, dengan memulakan permainan dan persekitaran penyelidikan terlebih dahulu, SIMA akan dapat bermain permainan seperti manusia, tanpa mempunyai akses kepada kod sumber atau API khas.
Selain itu, penyesuaian untuk permainan dan persekitaran penyelidikan akan dilakukan dengan kerjasama pembangun permainan. Ini adalah untuk menjelaskan siapa yang bertanggungjawab terhadap cara data yang digunakan dalam permainan dan projek SIMA dikendalikan.
Menurut Mufarek, projek SIMA memerlukan portfolio pembelajaran yang pelbagai dan tidak ganas. Atas sebab ini, kami memilih pelbagai tajuk permainan, termasuk tajuk yang secara visual semula jadi, industri, realistik, fiksyen sains atau daripada perspektif orang pertama atau orang ketiga. Ia juga menggabungkan elemen dunia terbuka dan kotak pasir untuk membolehkan SIMA mengambil pelbagai tindakan melalui mekanisme yang kompleks.
SIMA menggunakan antara muka tujuan umum, yang dikatakan untuk mencipta ejen AI tujuan umum. SIMA mula-mula menerima matlamat dan arahan daripada manusia dalam bentuk teks yang ditulis dalam bahasa semula jadi, dan kemudian mengenalinya dalam masa nyata. Kemudian, sama seperti manusia, mereka bermain permainan menggunakan pengawal atau papan kekunci dan tetikus.
Mufarek menjelaskan bahawa dengan menggunakan antara muka tujuan umum sedemikian, SIMA boleh dimasukkan ke dalam mana-mana permainan tanpa penyesuaian.
Selain itu, dua kaedah telah digunakan untuk mencipta data latihan SIMA. Salah satunya adalah untuk seorang bermain permainan, menonton video dan menjelaskan perkara penting menggunakan bahasa semula jadi. Kaedah kedua melibatkan pasukan dua orang, dengan seorang memberi arahan dalam bahasa semula jadi dan seorang lagi mengikuti mereka, merakam video permainan dan menambah anotasi.
Set data SIMA ialah penambahan data operasi papan kekunci dan tetikus.
These datasets include skills necessary for SIMA gameplay, such as ``creating objects'' and ``driving a car'' in the game. As a result of collecting these skills for all titles, the total number is huge, but it is still not enough for the SIMA project.
Mr. Mufarek said that the higher the quality of data and annotation, the more useful it will be for improving SIMA, and that he will continue to make such efforts in the future.
Once the dataset is ready, SIMA learning training can finally begin. The technique used here is ``conditioned behavioral cloning,'' which involves learning by imitating human play.
At its core is an architecture that supports pre-trained models, but since Gemini did not yet exist when it was developed, it uses Classifier-Free Guidance (CFG) to prioritize verbal instructions over visual input. It was revealed that the company provided support to help the children learn how to speak natural language and to understand natural language well.
In the phase to evaluate SIMA's results, a challenge set was created to measure performance on various tasks. A task has three elements: the first is the "initial state" where SIMA starts its actions, the second is the "goal/instruction" that SIMA must follow, and the third is "the initial state" that determines whether or not the task has been accomplished. success criteria."
SIMA also uses ``Ground Truth,'' which programmatically determines whether a task has been completed successfully, ``Optical Character Recognition (OCR),'' which provides feedback on actions taken based on changes in text on the screen, and human It was also introduced that evaluation will be done from three perspectives: ``human evaluation,'' which involves checking the video and confirming whether the task was completed successfully.
SIMA early research results and limitations of this approach
Early research results of the project revealed that SIMA can complete tasks commonly performed in a variety of games, such as "moving forward" and "opening a menu."
I was also able to successfully complete tasks that could have different meanings from game to game, such as taking off a spaceship in ``No Man's Sky'' or piloting a boat in ``Teardown.''
On the other hand, whether or not the players were able to complete the tasks specific to each game was evaluated using three separately prepared methods.
One is ``Specialist,'' which is trained on data from a single game and evaluated in the same environment, and this is considered 100% performance as the baseline for evaluation.
The second is ``SIMA,'' which trains data from 10 games and then tests and evaluates it in the environment of one of the games.
The third one is ``Zero-Shot,'' which trains data from 9 out of 10 titles and tests and evaluates it in the game environment of the remaining 1 title.
As a result, SIMA demonstrated higher performance than Specialist when learning all 10 titles, and performance close to Specialist even with Zero-Shot.
In other words, Mr. Mufarek was very satisfied because he was able to confirm that ``an AI agent can learn something in one environment and use that skill to do something in another environment.'' .
However, the goal of this project is to "develop an AI agent that is conditioned by language." Therefore, when learning was performed without natural language annotations and tested, SIMA's performance deteriorated significantly.
For the first time, the hypothesis that ``training a single agent in many large-scale environments results in transfer of learning and generalization'' was proven.
SIMA's performance in each title was also shown. According to Mr. Mufarek, the difference in generalization between titles is due to the difference in the amount of specific knowledge required to execute the task
|
If you add instructions using CFG to SIMA, you can get higher performance than without it. However, once a certain threshold is exceeded, performance seems to drop.
|
Based on the above results, Mr. Mufarek says that ``SIMA has been a truly wonderful success,'' but that it is ``far from perfect.'' This is because the task completion rate is greatly affected by the environment, and is not at all comparable to human play.
However, he said that this is what motivates him to do SIMA research going forward.
|
|
Future developments
Finally, Mr. Mufarek indicated the future development of the SIMA project. It is said that this will be next-generation simulation-based AI agent research. It is the foundation of AI research using games, which has been conducted for many years, and it seems that there is still a lot of work to be done.
Until now, we have been researching learning to improve the performance of AI agents, but for example, due to updates to "StarCraft II", AlphaStar's performance has deteriorated.
Mufarek said, ``It's not realistic to have the AI agent retrain every time the game is updated,'' and believes that by making SIMA more general-purpose, the AI agent will be able to perform well even when new features are added to the game. spoke.
Also, SIMA is good at tasks that can be completed in a short time, such as "gathering firewood" and "setting the firewood on fire," but it is not always good at tasks that require planning, multiple steps, and reasoning, such as "building a house." That's not the case.
However, now it seems that Gemini can be a powerful support for SIMA. For example, Gemini can become a director and divide a long task like ``building a house'' into short tasks and hand them over to SIMA. Ta.
Mr. Mufarek reiterated that while the SIMA project is very exciting and promises great versatility, it has not yet become a fully general-purpose AI agent. If that happens, further developments will become possible.''
Atas ialah kandungan terperinci Apakah ejen AI tujuan am Google DeepMind 'SIMA' untuk persekitaran maya 3D? [CEDEC 2024]. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!