Model dunia menyediakan cara untuk melatih agen pembelajaran pengukuhan dengan cara yang selamat dan cekap sampel. Baru-baru ini, model dunia kebanyakannya beroperasi pada jujukan pembolehubah pendam diskret untuk mensimulasikan dinamik persekitaran.
Walau bagaimanapun, kaedah pemampatan ini menjadi representasi diskret padat mungkin mengabaikan butiran visual yang penting untuk pembelajaran pengukuhan. Sebaliknya, model resapan telah menjadi kaedah dominan untuk penjanaan imej, menimbulkan cabaran kepada model terpendam diskret.
Dipromosikan oleh anjakan paradigma ini, penyelidik dari University of Geneva, University of Edinburgh, dan Microsoft Research bersama-sama mencadangkan agen pembelajaran pengukuhan yang dilatih dalam model dunia resapan - DIAMOND (DIffusion As a Model Of eNvironment Dreams ).
Pada penanda aras Atari 100k, DIAMOND+ mencapai Markah Purata 1H4NS6 Manusia. Ini bermakna ejen yang terlatih dalam model dunia boleh dilatih sepenuhnya di peringkat SOTA ejen terlatih dalam model dunia. Kajian ini menyediakan analisis kestabilan untuk menggambarkan bahawa pilihan reka bentuk DIAMOND adalah perlu untuk memastikan kestabilan jangka panjang yang cekap bagi model dunia penyebaran.
Selain manfaat beroperasi dalam ruang imej, ia membolehkan model dunia meresap menjadi perwakilan langsung persekitaran, sekali gus memberikan pemahaman yang lebih mendalam tentang model dunia dan tingkah laku ejen. Khususnya, kajian mendapati bahawa peningkatan prestasi dalam permainan tertentu terhasil daripada pemodelan butiran visual utama yang lebih baik.
Seterusnya, artikel ini memperkenalkan DIAMOND, agen pembelajaran pengukuhan yang terlatih dalam model dunia penyebaran. Secara khusus, kami mendasarkan ini pada pekali hanyutan dan resapan f dan g yang diperkenalkan dalam Bahagian 2.2, yang sepadan dengan pilihan paradigma resapan tertentu. Tambahan pula, kajian ini juga memilih formulasi EDM berdasarkan Karras et al.
Mula-mula tentukan kernel gangguan, , dengan ialah fungsi bernilai sebenar yang berkaitan dengan masa resapan, dipanggil jadual hingar. Ini sepadan dengan menetapkan pekali drift dan resapan kepada dan . . (6)
di mana demi definisi yang ringkas,
merangkumi semua pembolehubah keadaan. Pemilihan prapemproses. Prapemproses dan dipilih untuk mengekalkan varians unit input dan output rangkaian pada sebarang tahap hingar . ialah penukaran empirikal tahap hingar, diberikan oleh dan sisihan piawai bagi taburan data , dan formulanya ialah Menggabungkan formula 5 dan 6, kita mendapat sasaran latihan:
Kajian ini Mengkondisikan model dengan menggunakan U-Net 2D standard untuk membina medan vektor dan mengekalkan penimbal yang mengandungi pemerhatian dan tindakan L yang lalu. Seterusnya mereka menggabungkan pemerhatian lepas ini dari segi saluran dengan pemerhatian bising seterusnya, dan memasukkan tindakan ke dalam blok sisa U-Net melalui lapisan normalisasi kumpulan penyesuaian. Seperti yang dibincangkan dalam Bahagian 2.3 dan Lampiran A, terdapat banyak kaedah persampelan yang mungkin untuk menjana pemerhatian seterusnya daripada model resapan terlatih. Walaupun asas kod yang dikeluarkan oleh kajian menyokong skema persampelan berbilang, kajian mendapati bahawa kaedah Euler berkesan tanpa memerlukan NFE tambahan (bilangan penilaian fungsi) dan mengelakkan kerumitan yang tidak perlu bagi pensampel peringkat tinggi atau persampelan rawak. Untuk menilai sepenuhnya DIAMOND, kajian itu menggunakan penanda aras Atari 100k yang mantap, yang merangkumi 26 permainan untuk menguji keupayaan luas ejen. Untuk setiap permainan, ejen hanya dibenarkan 100k tindakan dalam persekitaran, yang kira-kira bersamaan dengan 2 jam masa permainan manusia, untuk belajar bermain permainan sebelum dinilai. Sebagai rujukan, ejen Atari tanpa kekangan biasanya dilatih untuk 50 juta langkah, yang sepadan dengan peningkatan 500 kali ganda dalam pengalaman. Para penyelidik melatih DIAMOND dari awal pada setiap permainan menggunakan 5 biji rawak. Setiap larian menggunakan lebih kurang 12GB VRAM dan mengambil masa kira-kira 2.9 hari pada satu Nvidia RTX 4090 (jumlah tahun 1.03 GPU). Jadual 1 membandingkan markah yang berbeza untuk melatih ejen dalam model dunia:
Min dan IQM (Min Interkuartil) selang keyakinan : : Keputusan menunjukkan bahawa DIAMOND berprestasi kukuh pada penanda aras, mengatasi pemain manusia dalam 11 perlawanan dan mencapai skor HNS 1.46, rekod baharu untuk ejen yang dilatih sepenuhnya pada model dunia. Kajian itu juga mendapati bahawa DIAMOND berprestasi baik terutamanya dalam persekitaran yang merakam perincian diperlukan, seperti Asterix, Breakout dan Road Runner. Untuk mengkaji kestabilan pembolehubah resapan, kajian ini menganalisis trajektori yang dibayangkan yang dijana oleh autoregresi, seperti yang ditunjukkan dalam Rajah 3 di bawah:
Kajian mendapati terdapat situasi di mana penyelesai berulang diperlukan untuk memacu proses pensampelan ke mod tertentu, seperti permainan tinju yang ditunjukkan dalam Rajah 4:
yang ditunjukkan dalam Rajah 5 berbanding dengan Rajah 5. dibayangkan oleh IRIS , trajektori yang dibayangkan oleh DIAMOND umumnya mempunyai kualiti visual yang lebih tinggi dan lebih konsisten dengan persekitaran sebenar. Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan. Eksperimen
Atas ialah kandungan terperinci Model dunia juga tersebar! Ejen terlatih ternyata cukup bagus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!