


Penanda aras konfrontasi koperasi StarCraft II melepasi SOTA, seni bina Transformer baharu menyelesaikan masalah pembelajaran pengukuhan pelbagai ejen
Pembelajaran pengukuhan berbilang ejen (MARL) ialah masalah mencabar yang bukan sahaja memerlukan mengenal pasti hala tuju penambahbaikan dasar bagi setiap ejen, tetapi juga memerlukan penggabungan kemas kini polisi ejen individu untuk meningkatkan prestasi Keseluruhan. Baru-baru ini, masalah ini pada mulanya telah diselesaikan, dan beberapa penyelidik telah memperkenalkan kaedah pelaksanaan terdesentralisasi latihan berpusat (CTDE), yang membolehkan ejen mengakses maklumat global semasa fasa latihan. Walau bagaimanapun, kaedah ini tidak dapat merangkumi kerumitan penuh interaksi berbilang ejen.
Malah, beberapa kaedah ini telah terbukti gagal. Untuk menyelesaikan masalah ini, seseorang mencadangkan teorem penguraian dominasi berbilang agen. Atas dasar ini, algoritma HATRPO dan HAPPO diperolehi. Walau bagaimanapun, terdapat batasan untuk pendekatan ini, yang masih bergantung pada objektif pemaksimum yang direka dengan teliti.
Dalam beberapa tahun kebelakangan ini, model jujukan (SM) telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi (NLP). Sebagai contoh, siri GPT dan BERT berprestasi baik pada pelbagai tugas hiliran dan mencapai prestasi yang kukuh pada tugas generalisasi sampel kecil.
Memandangkan model jujukan secara semulajadi sesuai dengan ciri jujukan bahasa, ia boleh digunakan untuk tugas bahasa, tetapi kaedah jujukan tidak terhad kepada tugas NLP, tetapi merupakan model asas umum yang boleh digunakan secara meluas. Sebagai contoh, dalam penglihatan komputer (CV), seseorang boleh membahagikan imej kepada subimej dan menyusunnya dalam urutan seolah-olah ia adalah token dalam tugasan NLP. Model terkini yang lebih terkenal seperti Flamingo, DALL-E, GATO, dll. semuanya mempunyai bayangan kaedah jujukan.
Dengan kemunculan seni bina rangkaian seperti Transformer, teknologi pemodelan jujukan juga telah menarik perhatian besar daripada komuniti RL, yang telah mempromosikan satu siri pembangunan RL luar talian berdasarkan seni bina Transformer. Kaedah ini menunjukkan potensi besar dalam menyelesaikan beberapa masalah latihan RL yang paling asas.
Walaupun kejayaan ketara kaedah ini, tiada satu pun yang direka bentuk untuk memodelkan aspek paling sukar (dan unik kepada MARL) bagi sistem berbilang ejen - Interaksi antara ejen. Malah, jika kita hanya memberi semua ejen polisi Transformer dan melatih mereka secara individu, ini masih tidak dijamin untuk meningkatkan prestasi bersama MARL. Oleh itu, walaupun terdapat sejumlah besar model jujukan berkuasa yang tersedia, MARL tidak benar-benar memanfaatkan prestasi model jujukan.
Bagaimana untuk menggunakan model jujukan untuk menyelesaikan masalah MARL? Penyelidik dari Universiti Shanghai Jiao Tong, Makmal Otak Digital, Universiti Oxford, dsb. mencadangkan seni bina Transformer (MAT, Multi-Agent Transformer) baharu, yang boleh mengubah masalah MARL kolaboratif dengan berkesan kepada masalah model jujukan Ia memetakan turutan pemerhatian ejen kepada urutan tindakan optimum ejen.
Matlamat kertas kerja ini adalah untuk membina jambatan antara MARL dan SM untuk membuka kunci keupayaan pemodelan model jujukan moden untuk MARL. Teras MAT ialah seni bina penyahkod pengekod, yang menggunakan teorem penguraian kelebihan berbilang ejen untuk mengubah masalah carian strategi bersama menjadi proses membuat keputusan yang berurutan, supaya masalah berbilang ejen akan mempamerkan kerumitan masa linear, dan kebanyakannya. yang penting, Melakukannya memastikan peningkatan prestasi monotonik MAT. Tidak seperti teknik sebelumnya seperti Decision Transformer yang memerlukan data luar talian yang dikumpul terlebih dahulu, MAT dilatih secara strategik dalam talian melalui percubaan dan kesilapan dalam talian dari persekitaran.
- Alamat kertas: https://arxiv.org/pdf/2205.14953 .pdf
- Laman utama projek: https://sites.google.com/view/multi-agent-transformer
Untuk mengesahkan MAT, penyelidik menjalankan eksperimen yang meluas pada penanda aras StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation dan Google Research Football. Keputusan menunjukkan bahawa MAT mempunyai prestasi dan kecekapan data yang lebih baik berbanding garis dasar yang kukuh seperti MAPPO dan HAPPO. Di samping itu, kajian ini juga membuktikan bahawa tidak kira bagaimana bilangan ejen berubah, MAT melakukan lebih baik pada tugas yang tidak kelihatan, tetapi ia boleh dikatakan sebagai pelajar sampel kecil yang sangat baik.
Pengetahuan latar belakang
Dalam bahagian ini, penyelidik mula-mula memperkenalkan formula masalah MARL kolaboratif dan teorem penguraian kelebihan berbilang ejen, yang merupakan asas artikel ini. Kemudian, mereka menyemak kaedah MARL berkaitan MAT sedia ada, akhirnya membawa kepada Transformer.
Perbandingan paradigma pembelajaran berbilang ejen tradisional (kiri) dan paradigma membuat keputusan jujukan berbilang ejen (kanan).
Formula Masalah
Masalah MARL Kolaboratif biasanya terdiri daripada proses keputusan Markov yang boleh diperhatikan secara diskret (Dis-POMDP) Datang dan buat model.
Teorem penguraian penguasaan berbilang ejen
Ejen menilai nilai tindakan dan pemerhatian melalui Q_π(o, a) dan V_π(o), yang ditakrifkan sebagai mengikuti.
Teorem 1 (Penguraian Kelebihan Berbilang Agen): Biarkan i_1:n menjadi susunan ejen. Formula berikut sentiasa berlaku tanpa andaian lanjut.
Yang penting, Teorem 1 menyediakan gerak hati tentang cara memilih tindakan peningkatan tambahan.
Kaedah MARL sedia ada
Para penyelidik meringkaskan dua algoritma SOTA MARL semasa, yang kedua-duanya dibina pada Pengoptimuman Dasar Proksimal (PPO) . PPO ialah kaedah RL yang terkenal dengan kesederhanaan dan kestabilan prestasinya.
Pengoptimuman dasar proksimal berbilang ejen (MAPPO) ialah kaedah pertama dan paling mudah untuk menggunakan PPO pada MARL.
Pengoptimuman Dasar Proksimal Agen Heterogen (HAPPO) ialah salah satu daripada algoritma SOTA semasa, yang boleh menggunakan sepenuhnya Teorem (1) untuk Mencapai pembelajaran domain amanah berbilang ejen dengan jaminan pengangkatan monotonik.
Model Transformer
Berdasarkan apa yang diterangkan dalam Teorem ( 1) Sifat jujukan dan prinsip di sebalik HAPPO kini boleh dipertimbangkan secara intuitif untuk menggunakan model Transformer untuk melaksanakan pembelajaran domain amanah berbilang ejen. Dengan menganggap pasukan ejen sebagai urutan, seni bina Transformer membenarkan pemodelan pasukan ejen dengan nombor dan jenis berubah-ubah sambil mengelakkan kekurangan MAPPO/HAPPO.
Pengubah Berbilang ejen
Untuk merealisasikan paradigma pemodelan jujukan MARL, penyelesaian yang disediakan oleh penyelidik ialah Transformer berbilang ejen (MAT). Idea untuk menggunakan seni bina Transformer berpunca daripada fakta bahawa ejen memerhatikan hubungan antara input jujukan (o^i_1,..., o^i_n) dan output jujukan tindakan (a^i_1, . ., a^i_n) Pemetaan ialah tugas pemodelan urutan yang serupa dengan terjemahan mesin. Apabila Teorem (1) mengelak, tindakan a^i_m bergantung pada keputusan sebelumnya semua agen a^i_1:m−1.
Oleh itu, seperti yang ditunjukkan dalam Rajah (2) di bawah, MAT mengandungi pengekod untuk mempelajari perwakilan pemerhatian bersama dan kaedah autoregresif untuk mengeluarkan tindakan bagi setiap ejen.
Parameter pengekod diwakili oleh φ, yang memperoleh urutan pemerhatian dalam sebarang susunan (o^i_1 , . . . , o^i_n) dan melepasinya melalui beberapa blok pengiraan. Setiap blok terdiri daripada mekanisme perhatian kendiri, perceptron berbilang lapisan (MLP) dan sambungan baki untuk mengelakkan kecerunan lenyap dan degradasi rangkaian dengan kedalaman yang semakin meningkat.
Parameter penyahkod diwakili oleh θ, yang akan membenamkan tindakan bersama a^i_0:m−1, m = {1, i_0 ialah Sebarang simbol yang menunjukkan permulaan penyahkodan) dihantar ke jujukan blok penyahkodan. Yang penting, setiap blok penyahkodan mempunyai mekanisme perhatian diri yang bertopeng. Untuk melatih penyahkod, kami meminimumkan objektif PPO yang dipangkas seperti berikut.
Aliran data terperinci dalam MAT ditunjukkan dalam animasi di bawah.
Hasil eksperimen
Untuk menilai sama ada MAT memenuhi jangkaan, penyelidik menguji penanda aras StarCraft II Multi-Agent Challenge (SMAC) (MAPPO pada bahagian atas MAT telah diuji pada penanda aras MuJoCo berbilang ejen (di mana HAPPO mempunyai prestasi SOTA).
Selain itu, para penyelidik juga menjalankan ujian lanjutan pada MAT pada Bimanual Dxterous Manipulation Hand (Bi-DexHands) dan penanda aras Google Research Football. Yang pertama menawarkan pelbagai tugas dua tangan yang mencabar, dan yang kedua menawarkan pelbagai senario kerjasama dalam permainan bola sepak.
Akhir sekali, memandangkan model Transformer biasanya menunjukkan prestasi generalisasi yang kuat pada tugasan sampel kecil, para penyelidik percaya bahawa MAT juga boleh mempunyai prestasi hebat yang serupa pada keupayaan Generalisasi yang tidak kelihatan. Oleh itu, mereka mereka bentuk percubaan sifar pukulan dan pukulan kecil pada tugas SMAC dan pelbagai ejen MuJoCo.
Prestasi pada tanda aras MARL kolaboratif
Seperti yang ditunjukkan dalam Jadual 1 dan Rajah 4 di bawah, untuk penanda aras SMAC, MuJoCo berbilang ejen dan Bi-DexHands, MAT ialah Ia adalah jauh lebih baik daripada MAPPO dan HAPPO pada hampir semua tugas, menunjukkan keupayaan pembinaannya yang berkuasa pada tugas ejen homogen dan heterogen. Tambahan pula, MAT juga mencapai prestasi yang lebih baik daripada MAT-Dec, menunjukkan kepentingan seni bina penyahkod dalam reka bentuk MAT.
Begitu juga, penyelidik melakukan penanda aras Google Research Football Serupa keputusan prestasi diperolehi, seperti yang ditunjukkan dalam Rajah 5 di bawah.
MAT untuk pembelajaran beberapa pukulan
Sampel sifar dan beberapa pukulan untuk setiap algoritma diringkaskan dalam Jadual 2 dan 3 Keputusan, di mana nombor tebal menunjukkan prestasi terbaik.
Para penyelidik juga menyediakan prestasi MAT dengan data yang sama, yang dilatih dari awal seperti kumpulan kawalan. Seperti yang ditunjukkan dalam jadual di bawah, MAT mencapai kebanyakan keputusan terbaik, yang menunjukkan prestasi generalisasi yang kukuh bagi pembelajaran beberapa pukulan MAT.
Atas ialah kandungan terperinci Penanda aras konfrontasi koperasi StarCraft II melepasi SOTA, seni bina Transformer baharu menyelesaikan masalah pembelajaran pengukuhan pelbagai ejen. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Dengan kebolehan tiruan AI yang begitu kuat, ia benar-benar mustahil untuk menghalangnya, sama sekali mustahil untuk menghalangnya. Adakah pembangunan AI mencapai tahap ini sekarang? Kaki hadapan anda membuat ciri-ciri wajah anda terbang, dan pada kaki belakang anda, ekspresi yang sama direproduksi Menatap, mengangkat kening, mencebik, tidak kira betapa berlebihan ekspresi itu, semuanya ditiru dengan sempurna. Tingkatkan kesukaran, angkat kening lebih tinggi, buka mata lebih luas, malah bentuk mulutnya bengkok, dan avatar watak maya dapat menghasilkan semula ekspresi dengan sempurna. Apabila anda melaraskan parameter di sebelah kiri, avatar maya di sebelah kanan juga akan menukar pergerakannya dengan sewajarnya untuk memberikan gambaran dekat mulut dan mata Tiruan itu tidak boleh dikatakan sama, tetapi ungkapan itu betul-betul sama (paling kanan). Penyelidikan ini datang dari institusi seperti Universiti Teknikal Munich, yang mencadangkan GaussianAvatars, yang

Isu reka bentuk fungsi ganjaran dalam pembelajaran peneguhan Pengenalan Pembelajaran peneguhan ialah kaedah yang mempelajari strategi optimum melalui interaksi antara ejen dan persekitaran. Dalam pembelajaran pengukuhan, reka bentuk fungsi ganjaran adalah penting untuk kesan pembelajaran ejen. Artikel ini akan meneroka isu reka bentuk fungsi ganjaran dalam pembelajaran pengukuhan dan memberikan contoh kod khusus. Peranan fungsi ganjaran dan fungsi ganjaran sasaran merupakan bahagian penting dalam pembelajaran peneguhan dan digunakan untuk menilai nilai ganjaran yang diperolehi oleh ejen dalam keadaan tertentu. Reka bentuknya membantu membimbing ejen untuk memaksimumkan keletihan jangka panjang dengan memilih tindakan yang optimum.

Pembelajaran pengukuhan (RL) ialah kaedah pembelajaran mesin yang membolehkan ejen mempelajari cara berkelakuan dalam persekitarannya melalui percubaan dan kesilapan. Ejen diberi ganjaran atau dihukum kerana mengambil tindakan yang membawa kepada hasil yang diingini. Dari masa ke masa, ejen belajar untuk mengambil tindakan yang memaksimumkan ganjaran yang dijangkakan. Ejen RL biasanya dilatih menggunakan proses keputusan Markov (MDP), rangka kerja matematik untuk memodelkan masalah keputusan berjujukan. MDP terdiri daripada empat bahagian: Nyatakan: satu set kemungkinan keadaan persekitaran. Tindakan: Satu set tindakan yang boleh diambil oleh ejen. Fungsi peralihan: Fungsi yang meramalkan kebarangkalian peralihan kepada keadaan baharu memandangkan keadaan dan tindakan semasa. Fungsi ganjaran: Fungsi yang memberikan ganjaran kepada ejen untuk setiap penukaran. Matlamat ejen adalah untuk mempelajari fungsi polisi,

SpringDataJPA adalah berdasarkan seni bina JPA dan berinteraksi dengan pangkalan data melalui pemetaan, ORM dan pengurusan transaksi. Repositorinya menyediakan operasi CRUD, dan pertanyaan terbitan memudahkan akses pangkalan data. Selain itu, ia menggunakan pemuatan malas untuk hanya mendapatkan semula data apabila perlu, sekali gus meningkatkan prestasi.

Alamat kertas: https://arxiv.org/abs/2307.09283 Alamat kod: https://github.com/THU-MIG/RepViTRepViT berprestasi baik dalam seni bina ViT mudah alih dan menunjukkan kelebihan yang ketara. Seterusnya, kami meneroka sumbangan kajian ini. Disebutkan dalam artikel bahawa ViT ringan biasanya berprestasi lebih baik daripada CNN ringan pada tugas visual, terutamanya disebabkan oleh modul perhatian diri berbilang kepala (MSHA) mereka yang membolehkan model mempelajari perwakilan global. Walau bagaimanapun, perbezaan seni bina antara ViT ringan dan CNN ringan belum dikaji sepenuhnya. Dalam kajian ini, penulis menyepadukan ViT ringan ke dalam yang berkesan

Artikel ini dicetak semula dengan kebenaran daripada akaun awam Autonomous Driving Heart. Sila hubungi sumber untuk mencetak semula. Tajuk asal: MotionLM: Multi-Agent Motion Forecasting as Language Modelling Paper pautan: https://arxiv.org/pdf/2309.16534.pdf Gabungan pengarang: Waymo Conference: ICCV2023 Idea kertas: Untuk perancangan keselamatan kenderaan autonomi, ramalkan tingkah laku masa hadapan dengan pasti ejen jalan raya adalah penting. Kajian ini mewakili trajektori berterusan sebagai jujukan token gerakan diskret dan menganggap ramalan gerakan berbilang agen sebagai tugas pemodelan bahasa. Model yang kami cadangkan, MotionLM, mempunyai kelebihan berikut: Pertama

Keluk pembelajaran seni bina rangka kerja Go bergantung pada kebiasaan dengan bahasa Go dan pembangunan bahagian belakang serta kerumitan rangka kerja yang dipilih: pemahaman yang baik tentang asas bahasa Go. Ia membantu untuk mempunyai pengalaman pembangunan bahagian belakang. Rangka kerja yang berbeza dalam kerumitan membawa kepada perbezaan dalam keluk pembelajaran.

Robot humanoid, yang berketinggian 1.65 meter, beratnya 55 kilogram dan mempunyai 44 darjah kebebasan dalam badannya, boleh berjalan dengan cepat, mengelak halangan dengan cepat, memanjat cerun naik dan turun secara berterusan, dan menahan hentaman dan gangguan Anda kini boleh membawanya pulang ! Robot humanoid universal Fourier Intelligence GR-1 telah memulakan pra-jualan Dewan Kuliah Robot Robot humanoid universal Fourier GR-1 Fourier Intelligence kini telah dibuka untuk pra-jualan. GR-1 mempunyai konfigurasi batang yang sangat bionik dan kawalan pergerakan antropomorfik Ia mempunyai 44 darjah kebebasan di seluruh badan Ia mempunyai keupayaan untuk berjalan, mengelakkan halangan, memanjat halangan, naik dan turun cerun, menentang gangguan, dan menyesuaikan diri. ke permukaan jalan yang berbeza Ia adalah sistem kecerdasan buatan umum. Halaman pra-jualan tapak web rasmi: www.fftai.cn/order#FourierGR-1# Fourier Intelligence perlu ditulis semula.
