Rumah > Peranti teknologi > AI > teks badan

GPT4 mengajar robot untuk memusingkan pen, yang dipanggil kelicinan sutera!

WBOY
Lepaskan: 2023-10-30 16:53:10
ke hadapan
753 orang telah melayarinya

Baru-baru ini, GPT-4, yang memberi inspirasi kepada ahli matematik Terence Tao, telah mula mengajar robot cara menghidupkan pen dalam sembang

GPT4 mengajar robot untuk memusingkan pen, yang dipanggil kelicinan sutera!

Projek itu dipanggil Agent Eureka, yang dibangunkan oleh Nvidia, University of Pennsylvania, California Institute of Teknologi dan Universiti Texas di Austin Dibangunkan bersama oleh sekolah cawangan. Penyelidikan mereka menggabungkan kuasa struktur GPT-4 dengan kelebihan pembelajaran pengukuhan, membolehkan Eureka mereka bentuk fungsi ganjaran yang indah.

Keupayaan pengaturcaraan GPT-4 memberikan kemahiran reka bentuk fungsi ganjaran yang hebat kepada Eureka. Ini bermakna bahawa dalam kebanyakan tugas, skim ganjaran Eureka sendiri lebih baik daripada pakar manusia. Ini membolehkannya menyelesaikan beberapa tugas yang sukar untuk manusia, termasuk memusing pen, membuka laci, walnut pinggan, dan tugas yang lebih kompleks, seperti membaling dan menangkap bola, gunting operasi, dsb.

GPT4 mengajar robot untuk memusingkan pen, yang dipanggil kelicinan sutera!Gambar

GPT4 mengajar robot untuk memusingkan pen, yang dipanggil kelicinan sutera!Gambar

Walaupun pada masa ini dilakukan dalam persekitaran simulasi, ini sudah sangat berkuasa.

Projek ini adalah sumber terbuka, dan alamat projek serta alamat kertas telah diletakkan di penghujung artikel

Ringkasan ringkas tentang perkara teras kertas.

Makalah ini meneroka cara menggunakan model bahasa besar (LLM) untuk mereka bentuk dan mengoptimumkan fungsi ganjaran dalam pembelajaran mesin. Ini adalah topik penting kerana mereka bentuk fungsi ganjaran yang baik boleh meningkatkan prestasi model pembelajaran mesin dengan banyak, tetapi mereka bentuk fungsi sedemikian adalah sangat sukar.

Para penyelidik telah mencadangkan algoritma baharu yang dipanggil EUREKA. EUREKA mengguna pakai LLM untuk menjana dan menambah baik fungsi ganjaran. Dalam ujian, EUREKA mencapai prestasi peringkat manusia dalam 29 persekitaran pembelajaran pengukuhan yang berbeza dan mengatasi fungsi ganjaran yang direka oleh pakar manusia dalam 83% tugasan

EUREKA berjaya menyelesaikan beberapa masalah yang sebelum ini mustahil untuk mereka bentuk fungsi ganjaran secara manual Selesaikan tugas operasi yang kompleks, seperti sebagai simulasi operasi "Shadow Hand" untuk memusingkan pen dengan pantas

Selain itu, EUREKA menyediakan kaedah baharu yang boleh menjana fungsi ganjaran yang lebih berkesan yang lebih sesuai dengan jangkaan manusia berdasarkan maklum balas manusia

EUREKA berfungsi dalam tiga langkah utama:

Persekitaran sebagai konteks: EUREKA menggunakan kod sumber persekitaran sebagai konteks untuk menjana fungsi ganjaran boleh laku

2 Carian evolusi: EUREKA terus mencadangkan melalui carian evolusi Dan meningkatkan fungsi ganjaran

3 : EUREKA menjana ringkasan teks kualiti ganjaran berdasarkan data statistik daripada latihan dasar, dengan itu secara automatik dan menyasarkan fungsi ganjaran. 3. Refleksi Ganjaran: EUREKA menjana ringkasan teks kualiti ganjaran berdasarkan statistik daripada latihan dasar untuk meningkatkan fungsi ganjaran secara automatik dan disasarkan

Penyelidikan ini mungkin memberi impak yang mendalam dalam bidang pembelajaran pengukuhan dan reka bentuk fungsi ganjaran kerana ia baru dan cekap. kaedah disediakan untuk menjana dan meningkatkan fungsi ganjaran secara automatik, dan prestasi kaedah ini melebihi pakar manusia dalam banyak kes.

Alamat projek: https://www.php.cn/link/e6b738eca0e6792ba8a9cbcba6c1881d

Pautan kertas: https://www.php.cn/link/ce128c4c3e4b7fc

Atas ialah kandungan terperinci GPT4 mengajar robot untuk memusingkan pen, yang dipanggil kelicinan sutera!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan