Baru-baru ini, OpenAI, yang nampaknya telah meninggalkan GPT, telah memulakan hidup baharu.
Selepas latihan dengan video besar-besaran tidak berlabel dan sedikit data berlabel, AI akhirnya belajar membuat beliung berlian di Minecraft.
Seluruh proses mengambil pemain tegar sekurang-kurangnya 20 minit untuk diselesaikan, dan memerlukan sejumlah 24,000 operasi.
Perkara ini nampak mudah, tetapi ia sangat sukar untuk AI.
Seorang kanak-kanak berumur 7 tahun boleh mempelajarinya dalam masa 10 minit sahaja
Untuk pilihan kayu yang paling mudah, biarkan pemain manusia belajar proses dari awal Tidak terlalu sukar.
Seorang geek boleh mengajar yang seterusnya dalam masa kurang daripada 3 minit dengan satu video.
Video demo berdurasi 2 minit 52 saat
Walau bagaimanapun, berlian Membuat beliung adalah lebih rumit.
Tetapi walaupun begitu, kanak-kanak berumur 7 tahun boleh mempelajarinya selepas hanya menonton video demonstrasi sepuluh minit.
Kesukaran misi ini terutamanya bagaimana untuk menggali lombong berlian.
Prosesnya boleh diringkaskan kepada 12 langkah: pertama, rancang blok piksel "kayu" dengan tangan kosong, kemudian sintesiskan blok kayu daripada kayu balak, gunakan blok kayu untuk membuat tongkat kayu, dan tongkat kayu untuk membuat peralatan bengkel Bangku, meja kerja untuk membuat beliung kayu, beliung kayu untuk mengetuk batu, batu dan kayu untuk membuat beliung batu, beliung batu untuk membuat relau, relau untuk memproses bijih besi, bijih besi untuk mencairkan dan jongkong besi tuang, jongkong besi untuk membuat beliung besi, beliung besi untuk Menggali berlian.
Kini, tekanan berada di sisi AI.
Kebetulan, CMU, OpenAI, DeepMind, Microsoft Research dan institusi lain telah melancarkan pertandingan berkaitan - MineRL sejak 2019.
Peserta perlu membangunkan kecerdasan buatan yang boleh "membina alatan dari awal dan secara automatik mencari dan melombong lombong berlian juga sangat mudah - yang paling cepat menang .
Apakah keputusannya?
Selepas pertandingan MineRL pertama, "seorang kanak-kanak berusia 7 tahun mempelajarinya selepas menonton video selama 10 minit, tetapi AI masih tidak dapat mengetahuinya selepas 8 juta langkah", tetapi ia diterbitkan dalam majalah Nature.
Sebagai permainan pembinaan kotak pasir, "Minecraft" sangat terbuka kepada strategi pemain dan dalam- persekitaran maya permainan ini amat sesuai sebagai medan ujian dan batu ujian untuk pelbagai pembelajaran model AI dan keupayaan membuat keputusan.
Dan sebagai permainan "peringkat kebangsaan", adalah mudah untuk mencari video yang berkaitan dengan "Minecraft" dalam talian.
Namun, sama ada membina tutorial atau mempamerkan hasil kerja sendiri, sedikit sebanyak ia hanyalah hasil yang ditunjukkan pada skrin.
Dalam erti kata lain, orang yang menonton video hanya boleh mengetahui apa yang dilakukan oleh pemimpin atasan dan bagaimana dia melakukannya, tetapi mereka tidak tahu cara dia melakukannya.
Untuk lebih spesifik, apa yang ditunjukkan pada skrin komputer hanyalah hasil, dan langkah operasi adalah klik berterusan pemilik atas pada papan kekunci dan pergerakan berterusan tetikus. Bahagian ini adalah untuk melihat kurang daripada.
Malah proses ini telah diedit, dan orang ramai mungkin tidak dapat mempelajarinya selepas menontonnya, apatah lagi AI.
Memburukkan lagi keadaan, ramai pemain mengadu bahawa mengetam kayu dalam permainan adalah membosankan, terlalu banyak seperti melakukan kerja rumah dan menyiapkan tugasan. Akibatnya, selepas gelombang kemas kini, terdapat banyak alat yang boleh diambil secara percuma... Kini, data pun sukar dicari.
Jika OpenAI mahu membenarkan AI belajar bermain "Minecraft", ia mesti mencari cara untuk menggunakan data video besar yang tidak berlabel ini.
Jadi, VPT wujud.
Alamat kertas: https://cdn.openai.com/vpt/Paper.pdf
Perkara ini baru, tetapi ia tidak rumit.
Mula-mula, kumpulkan gelombang data untuk menganotasi data permainan permainan sumber luar, termasuk rekod operasi video dan papan kekunci dan tetikus.
Tinjauan keseluruhan kaedah VPT
Kemudian, penyelidik menggunakan data ke Menggunakan model dinamik songsang (IDM), kita boleh membuat kesimpulan bagaimana papan kekunci dan tetikus bergerak semasa setiap langkah dalam video.
Dengan cara ini, keseluruhan tugasan menjadi lebih mudah dan hanya sedikit data yang diperlukan untuk mencapai tujuan tersebut.
Selepas melengkapkan IDM dengan sejumlah kecil data penyumberan luar, anda boleh menggunakan IDM untuk melabel set data tidak berlabel yang lebih besar.
Impak data latihan model asas pada penalaan halus
Dalam latihan Selepas 70,000 jam, model pengklonan tingkah laku OpenAI boleh mencapai pelbagai tugas yang tidak boleh dilakukan oleh model lain.
Model belajar cara menebang pokok dan mengumpul kayu, cara menggunakan kayu untuk membuat jalur kayu, dan cara menggunakan jalur kayu untuk membuat meja. Set perkara ini memerlukan pemain yang agak mahir untuk beroperasi kurang daripada 50 saat.
Selain membuat meja, model juga boleh berenang, memburu, dan makan.
Malah terdapat operasi "berlari, melompat dan membina", iaitu, apabila anda berlepas, letakkan blok bata atau kayu di bawah kaki anda, dan anda boleh membina tiang semasa melompat. Ini adalah kursus yang diperlukan untuk pemain tegar.
Mencipta jadual (0 pukulan)
Memburu (0 pukulan)
"Lari, Lompat dan Bina" versi ringkas (0 pukulan)
Untuk membolehkan model menyelesaikan beberapa tugasan yang lebih terperinci, set data biasanya diperhalusi kepada saiz yang lebih kecil dan membezakan arah yang kecil.
OpenAI melakukan kajian yang menunjukkan sejauh mana model yang dilatih dengan VPT boleh menyesuaikan diri dengan set data hiliran selepas penalaan halus.
Para penyelidik menjemput orang ramai bermain "Minecraft" selama 10 minit dan membina rumah menggunakan bahan asas. Mereka berharap dengan cara ini mereka dapat meningkatkan keupayaan model untuk melaksanakan beberapa tugasan awal permainan, seperti membina meja kerja.
Selepas memperhalusi set data, penyelidik bukan sahaja mendapati model itu melakukan tugas awal dengan lebih mudah, tetapi juga mendapati model itu sendiri memahami cara membuat sekeping kayu masing-masing Meja kerja yang diperbuat daripada batu, dan meja alat yang diperbuat daripada batu.
Sesekali, penyelidik dapat melihat model membina tempat perlindungan kasar, menggeledah kampung dan merompak kotak.
Keseluruhan proses membuat beliung batu (masa yang ditandakan di bawah ialah masa yang diambil oleh pemain mahir untuk melakukan perkara yang sama tugas)
Buat Batu Pilih
Kemudian mari kita lihatlah, bagaimana pakar OpenAI memperhalusinya.
Kaedah yang mereka gunakan ialah pembelajaran pengukuhan (RL).
Kebanyakan kaedah RL menangani cabaran ini dengan meneroka pendahuluan secara stokastik, iaitu model sering diberi insentif untuk memberi ganjaran kepada tindakan rawak melalui entropi. Model VPT sepatutnya menjadi model terdahulu yang lebih baik untuk RL kerana meniru tingkah laku manusia mungkin lebih membantu daripada mengambil tindakan rawak.
Para penyelidik menyediakan model untuk tugas sukar mengumpul beliung berlian, satu ciri yang tidak pernah dilihat sebelum ini dalam Minecraft kerana keseluruhan tugasan dilakukan menggunakan antara muka mesin manusia asli menjadi lebih sukar.
Membuat beliung berlian memerlukan siri sub-tugas yang panjang dan kompleks. Untuk menjadikan tugasan ini dapat dikendalikan, penyelidik memberi ganjaran kepada ejen untuk setiap item dalam urutan.
Mereka mendapati bahawa dasar RL yang dilatih daripada pemulaan rawak (kaedah RL standard) hampir tidak mendapat sebarang ganjaran, tidak pernah belajar mengumpul log, dan sangat Mengumpul kurang batang.
Sebaliknya, model VPT yang diperhalusi bukan sahaja belajar cara membuat beliung berlian, tetapi juga mencapai kejayaan peringkat manusia dalam mengumpul semua item.
Ini adalah kali pertama seseorang menunjukkan model komputer yang boleh mencipta alatan berlian dalam Minecraft.
Atas ialah kandungan terperinci Terkejut! Selepas 70,000 jam latihan, model OpenAI belajar merancang kayu dalam 'Minecraft'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!