Bayangkan apabila anda berdiri di dalam bilik dan bersiap untuk berjalan ke arah pintu, adakah anda secara beransur-ansur merancang laluan melalui autoregresi? Sebenarnya, laluan anda dijana secara keseluruhan sekali gus.
Penyelidikan terkini menunjukkan bahawa modul perancangan menggunakan model resapan boleh menjana perancangan trajektori jujukan panjang pada masa yang sama, yang lebih selari dengan pembuatan keputusan manusia. Selain itu, model resapan juga boleh menyediakan penyelesaian yang lebih optimum untuk algoritma risikan membuat keputusan sedia ada dari segi perwakilan dasar dan sintesis data.
Kertas ulasan "Model Penyebaran untuk Pembelajaran Pengukuhan: Satu Tinjauan" yang ditulis oleh pasukan dari Universiti Jiao Tong Shanghai meringkaskan aplikasi model resapan dalam bidang yang berkaitan dengan pembelajaran pengukuhan. Kajian semula menunjukkan bahawa algoritma pembelajaran pengukuhan sedia ada menghadapi cabaran seperti pengumpulan ralat dalam perancangan urutan panjang, keupayaan ekspresi dasar yang terhad, dan data interaktif yang tidak mencukupi Model resapan telah menunjukkan kelebihan dalam menyelesaikan masalah pembelajaran pengukuhan dan telah digunakan untuk menangani perkara di atas masalah. Cabaran yang berpanjangan membawa idea baharu. Pautan kertas: https://arxiv.org/abs/2311.01223
Alamat projek: https://github.com/apexrl/Diff4RLSurveyIni adalah percanggahan yang diperkukuhkan model Peranan dalam pembelajaran dikelaskan, dan kes-kes kejayaan model resapan dalam senario pembelajaran pengukuhan yang berbeza diringkaskan. Akhir sekali, semakan mengharapkan hala tuju pembangunan masa hadapan menggunakan model resapan untuk menyelesaikan masalah pembelajaran pengukuhan.
Angka tersebut menunjukkan peranan model resapan dalam kitaran kolam ulangan ejen-persekitaran-pengalaman klasik. Berbanding dengan penyelesaian tradisional, model resapan memperkenalkan elemen baharu ke dalam sistem dan menyediakan interaksi maklumat dan peluang pembelajaran yang lebih komprehensif. Dengan cara ini, ejen boleh menyesuaikan diri dengan perubahan persekitaran dengan lebih baik dan mengoptimumkan pembuatan keputusannya
Peranan model resapan dalam pembelajaran peneguhan
Artikel dikelaskan mengikut peranan model resapan dalam pembelajaran pengukuhan kaedah aplikasi dan ciri-ciri model resapan dibandingkan.
Rajah 2: Peranan berbeza yang dimainkan oleh model resapan dalam pembelajaran pengukuhan.
Perancangan trajektori
Perancangan dalam pembelajaran pengukuhan merujuk kepada membuat keputusan dalam imaginasi dengan menggunakan model dinamik, dan kemudian memilih tindakan yang sesuai untuk memaksimumkan ganjaran terkumpul. Proses perancangan sering meneroka urutan tindakan dan menyatakan untuk meningkatkan keberkesanan jangka panjang keputusan. Dalam rangka kerja pembelajaran tetulang berasaskan model (MBRL), jujukan perancangan selalunya disimulasikan secara autoregresif, mengakibatkan ralat terkumpul. Model resapan boleh menjana urutan perancangan berbilang langkah secara serentak. Sasaran yang dijana oleh artikel sedia ada menggunakan model penyebaran sangat pelbagai, termasuk (s,a,r), (s,a), hanya s, hanya a, dsb. Untuk menjana trajektori ganjaran tinggi semasa penilaian dalam talian, banyak karya menggunakan teknik pensampelan berpandu dengan atau tanpa pengelas. . Diffusion-QL mula-mula menggabungkan strategi resapan dengan rangka kerja Q-pembelajaran. Oleh kerana model resapan jauh lebih berkeupayaan untuk menyesuaikan taburan berbilang mod daripada model tradisional, strategi resapan berprestasi baik dalam set data berbilang mod yang disampel oleh berbilang strategi tingkah laku. Strategi resapan adalah sama seperti strategi biasa, biasanya menggunakan keadaan sebagai syarat untuk menjana tindakan sambil mempertimbangkan untuk memaksimumkan fungsi Q (s,a). Kaedah seperti Diffusion-QL menambah istilah fungsi nilai wajaran apabila melatih model resapan, manakala CEP membina sasaran regresi berwajaran dari perspektif tenaga dan menggunakan fungsi nilai sebagai faktor untuk melaraskan pengagihan tindakan yang dipelajari oleh model resapan.
Sintesis data
Model penyebaran boleh digunakan sebagai pensintesis data untuk mengurangkan masalah data jarang dalam pembelajaran pengukuhan luar talian atau dalam talian. Kaedah peningkatan data pembelajaran pengukuhan tradisional biasanya hanya boleh mengganggu sedikit data asal, manakala keupayaan pemasangan pengedaran yang berkuasa model resapan membolehkannya mempelajari secara langsung pengedaran keseluruhan set data dan kemudian sampel data berkualiti tinggi baharu.
Jenis lain
Selain kategori di atas, terdapat juga beberapa karya bertaburan menggunakan model resapan dengan cara lain. Sebagai contoh, DVF menganggarkan fungsi nilai menggunakan model resapan. LDCQ mula-mula mengekod trajektori ke dalam ruang terpendam dan kemudian menggunakan model resapan pada ruang terpendam. PolyGRAD menggunakan model resapan untuk memindahkan persekitaran pembelajaran secara dinamik, membenarkan interaksi dasar dan model untuk meningkatkan kecekapan pembelajaran dasar.
Pembelajaran pengukuhan luar talian
Pengenalan model penyebaran membantu strategi pembelajaran pengukuhan luar talian dan strategi pembelajaran pengukuhan pelbagai mod kebolehan. Penyebar pertama kali mencadangkan algoritma penjanaan trajektori ganjaran tinggi berdasarkan panduan pengelas dan mengilhamkan banyak kerja seterusnya. Pada masa yang sama, model resapan juga boleh diaplikasikan dalam senario pembelajaran pengukuhan pelbagai tugas dan pelbagai agen.
Figure 3: gambarajah skematik proses penjanaan trajektori penyebar dan model penguatkuasaan penguatkuasaan
Penyelaras yang membuktikan bahawa model penyebaran juga mempunyai keupayaan untuk mengoptimumkan fungsi dan strategi nilai dalam pembelajaran pengukuhan dalam talian. Sebagai contoh, DIPO melabel semula data tindakan dan menggunakan latihan model resapan untuk mengelakkan ketidakstabilan latihan berpandukan nilai CPQL telah mengesahkan bahawa model resapan pensampelan satu langkah sebagai strategi boleh mengimbangi penerokaan dan penggunaan semasa interaksi.
Pembelajaran tiruan
Pembelajaran tiruan membina semula tingkah laku pakar dengan belajar daripada data demonstrasi pakar. Aplikasi model penyebaran membantu meningkatkan keupayaan perwakilan dasar dan mempelajari kemahiran tugas yang pelbagai. Dalam bidang kawalan robot, penyelidikan telah mendapati bahawa model penyebaran boleh meramalkan urutan tindakan gelung tertutup sambil mengekalkan kestabilan temporal. Dasar Resapan menggunakan model resapan input imej untuk menjana urutan tindakan robot. Eksperimen menunjukkan bahawa model resapan boleh menjana urutan tindakan gelung tertutup yang berkesan sambil memastikan ketekalan pemasaan.
Figure 4: Model Dasar Penyebaran Skematik
Trajektori Generasi
Generasi trajektori model penyebaran dalam pembelajaran tetulang terutamanya memberi tumpuan kepada dua jenis tugas: penjanaan tindakan manusia dan kawalan robot . Data tindakan atau data video yang dijana oleh model resapan digunakan untuk membina simulator simulasi atau melatih model membuat keputusan hiliran. UniPi melatih model penyebaran penjanaan video sebagai strategi umum, dan mencapai kawalan robot merentas badan dengan mengakses model dinamik songsang yang berbeza untuk mendapatkan arahan kawalan asas.
Rajah 5: Gambarajah skematik proses membuat keputusan UniPi.
Peningkatan data
Model penyebaran juga boleh menyesuaikan secara langsung dengan pengedaran data asal, menyediakan pelbagai data yang dikembangkan secara dinamik sambil mengekalkan keaslian. Contohnya, SynthER dan MTDiff-s menjana maklumat pemindahan persekitaran yang lengkap bagi tugas latihan melalui model penyebaran dan menggunakannya pada penambahbaikan dasar, dan keputusan menunjukkan bahawa kepelbagaian dan ketepatan data yang dijana adalah lebih baik daripada kaedah sejarah.
Figure 6: Gambarajah skematik mtdiff untuk perancangan multi-tugas dan peningkatan data
Potor Outlook
As ditunjukkan dalam Rajah 1, penyelidikan sedia ada terutamanya Model resapan digunakan untuk mengatasi batasan ejen dan mengalami kumpulan main semula, dan terdapat sedikit kajian tentang menggunakan model resapan untuk meningkatkan persekitaran simulasi. Gen2Sim menggunakan model penyebaran graf Vincentian untuk menjana objek boleh manipulasi yang pelbagai dalam persekitaran simulasi untuk meningkatkan keupayaan generalisasi operasi robot ketepatan. Model resapan juga mempunyai potensi untuk menjana fungsi peralihan keadaan, fungsi ganjaran atau tingkah laku musuh dalam interaksi berbilang ejen dalam persekitaran simulasi.
Tambahkan kekangan keselamatan
Dengan menggunakan kekangan keselamatan sebagai syarat pensampelan model, ejen berdasarkan model resapan boleh membuat keputusan yang memenuhi kekangan tertentu. Persampelan berpandu model resapan membolehkan kekangan keselamatan baharu ditambah secara berterusan dengan mempelajari pengelas tambahan, manakala parameter model asal kekal tidak berubah, sekali gus menjimatkan overhed latihan tambahan.
Penjanaan yang dipertingkatkan semula
Teknologi penjanaan dipertingkatkan semula boleh meningkatkan keupayaan model dengan mengakses set data luaran dan digunakan secara meluas dalam model bahasa besar. Prestasi model keputusan berasaskan resapan di negeri ini juga boleh dipertingkatkan dengan mendapatkan semula trajektori yang berkaitan dengan keadaan semasa ejen dan memasukkannya ke dalam model. Jika set data perolehan sentiasa dikemas kini, ejen mungkin mempamerkan tingkah laku baharu tanpa dilatih semula.
Menggabungkan pelbagai kemahiran
Digabungkan dengan bimbingan pengelas atau tiada bimbingan pengelas, model resapan boleh menggabungkan berbilang kemahiran mudah untuk menyelesaikan tugasan yang kompleks. Keputusan awal dalam pembelajaran peneguhan luar talian juga mencadangkan bahawa model resapan boleh berkongsi pengetahuan antara kemahiran yang berbeza, menjadikannya mungkin untuk mencapai pemindahan pukulan sifar atau pembelajaran berterusan dengan menggabungkan kemahiran yang berbeza.
Rajah 7: Ringkasan dan jadual klasifikasi kertas berkaitan.
Atas ialah kandungan terperinci Bagaimanakah model penyebaran membina ejen pembuat keputusan generasi baharu? Di luar autoregresi, pada masa yang sama menjana trajektori perancangan jujukan yang panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!