Baru-baru ini, GPT-4, yang memberi inspirasi kepada ahli matematik Terence Tao, telah mula mengajar robot cara menghidupkan pen dalam sembang
Projek itu dipanggil Agent Eureka, yang dibangunkan oleh Nvidia, University of Pennsylvania, California Institute of Teknologi dan Universiti Texas di Austin Dibangunkan bersama oleh sekolah cawangan. Penyelidikan mereka menggabungkan kuasa struktur GPT-4 dengan kelebihan pembelajaran pengukuhan, membolehkan Eureka mereka bentuk fungsi ganjaran yang indah.
Keupayaan pengaturcaraan GPT-4 memberikan kemahiran reka bentuk fungsi ganjaran yang hebat kepada Eureka. Ini bermakna bahawa dalam kebanyakan tugas, skim ganjaran Eureka sendiri lebih baik daripada pakar manusia. Ini membolehkannya menyelesaikan beberapa tugas yang sukar untuk manusia, termasuk memusing pen, membuka laci, walnut pinggan, dan tugas yang lebih kompleks, seperti membaling dan menangkap bola, gunting operasi, dsb.
Gambar
Gambar
Walaupun pada masa ini dilakukan dalam persekitaran simulasi, ini sudah sangat berkuasa.
Projek ini adalah sumber terbuka, dan alamat projek serta alamat kertas telah diletakkan di penghujung artikel
Ringkasan ringkas tentang perkara teras kertas.
Makalah ini meneroka cara menggunakan model bahasa besar (LLM) untuk mereka bentuk dan mengoptimumkan fungsi ganjaran dalam pembelajaran mesin. Ini adalah topik penting kerana mereka bentuk fungsi ganjaran yang baik boleh meningkatkan prestasi model pembelajaran mesin dengan banyak, tetapi mereka bentuk fungsi sedemikian adalah sangat sukar.
Para penyelidik telah mencadangkan algoritma baharu yang dipanggil EUREKA. EUREKA mengguna pakai LLM untuk menjana dan menambah baik fungsi ganjaran. Dalam ujian, EUREKA mencapai prestasi peringkat manusia dalam 29 persekitaran pembelajaran pengukuhan yang berbeza dan mengatasi fungsi ganjaran yang direka oleh pakar manusia dalam 83% tugasan
EUREKA berjaya menyelesaikan beberapa masalah yang sebelum ini mustahil untuk mereka bentuk fungsi ganjaran secara manual Selesaikan tugas operasi yang kompleks, seperti sebagai simulasi operasi "Shadow Hand" untuk memusingkan pen dengan pantas
Selain itu, EUREKA menyediakan kaedah baharu yang boleh menjana fungsi ganjaran yang lebih berkesan yang lebih sesuai dengan jangkaan manusia berdasarkan maklum balas manusia
EUREKA berfungsi dalam tiga langkah utama:
Persekitaran sebagai konteks: EUREKA menggunakan kod sumber persekitaran sebagai konteks untuk menjana fungsi ganjaran boleh laku
2 Carian evolusi: EUREKA terus mencadangkan melalui carian evolusi Dan meningkatkan fungsi ganjaran
3 : EUREKA menjana ringkasan teks kualiti ganjaran berdasarkan data statistik daripada latihan dasar, dengan itu secara automatik dan menyasarkan fungsi ganjaran. 3. Refleksi Ganjaran: EUREKA menjana ringkasan teks kualiti ganjaran berdasarkan statistik daripada latihan dasar untuk meningkatkan fungsi ganjaran secara automatik dan disasarkan
Penyelidikan ini mungkin memberi impak yang mendalam dalam bidang pembelajaran pengukuhan dan reka bentuk fungsi ganjaran kerana ia baru dan cekap. kaedah disediakan untuk menjana dan meningkatkan fungsi ganjaran secara automatik, dan prestasi kaedah ini melebihi pakar manusia dalam banyak kes.
Alamat projek: https://www.php.cn/link/e6b738eca0e6792ba8a9cbcba6c1881d
Pautan kertas: https://www.php.cn/link/ce128c4c3e4b7fc
Atas ialah kandungan terperinci GPT4 mengajar robot untuk memusingkan pen, yang dipanggil kelicinan sutera!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!