Rumah Peranti teknologi AI Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Feb 15, 2024 pm 07:00 PM
rlhf projek Universiti Carnegie Mellon spo

Kesannya lebih stabil dan pelaksanaannya lebih mudah.

Kejayaan model bahasa besar (LLM) tidak dapat dipisahkan daripada "pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF)". RLHF boleh dibahagikan secara kasar kepada dua peringkat Pertama, memandangkan sepasang tingkah laku pilihan dan tidak disukai, model ganjaran dilatih untuk memberikan skor yang lebih tinggi kepada yang pertama dengan mengklasifikasikan sasaran. Fungsi ganjaran ini kemudiannya dioptimumkan melalui beberapa jenis algoritma pembelajaran pengukuhan. Walau bagaimanapun, elemen utama model ganjaran mungkin mempunyai beberapa kesan yang tidak diingini.

Penyelidik dari Carnegie Mellon University (CMU) dan Google Research bersama-sama mencadangkan kaedah RLHF baharu yang ringkas, ketat secara teori dan berkesan secara eksperimen - Pengoptimuman Keutamaan Permainan Kendiri (Pengoptimuman Keutamaan Main Kendiri (SPO). Pendekatan ini menghapuskan model ganjaran dan tidak memerlukan latihan lawan.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Kertas: Pendekatan Minimaksimal untuk Pembelajaran Peneguhan daripada Maklum Balas Manusia
Alamat kertas: https://arxiv.org/abs/2401.04056


kepada kaedah

SPO Yang kaedah terutamanya merangkumi Dua aspek. Pertama, kajian ini benar-benar menghapuskan model ganjaran dengan membina RLHF sebagai permainan jumlah sifar, menjadikannya lebih berkemampuan untuk mengendalikan pilihan bising, bukan Markovian yang sering muncul dalam amalan. Kedua, dengan mengeksploitasi simetri permainan, kajian ini menunjukkan bahawa ejen tunggal hanya boleh dilatih dengan cara permainan sendiri, dengan itu menghapuskan keperluan untuk latihan lawan yang tidak stabil.
Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawanDalam amalan, ini adalah bersamaan dengan pensampelan berbilang trajektori daripada ejen, meminta penilai atau model keutamaan untuk membandingkan setiap pasangan trajektori, dan menetapkan ganjaran kepada kadar kemenangan trajektori.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawanSPO mengelakkan pemodelan ganjaran, ralat kompaun dan latihan lawan. Dengan mewujudkan konsep pemenang minmax daripada teori pilihan sosial, kajian ini membina RLHF sebagai permainan jumlah sifar dua orang dan mengeksploitasi simetri matriks hasil permainan untuk menunjukkan bahawa ejen tunggal boleh dilatih dengan mudah untuk melawan dirinya sendiri.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan


Kajian ini juga menganalisis ciri penumpuan SPO dan membuktikan bahawa apabila fungsi ganjaran berpotensi wujud, SPO boleh menumpu kepada polisi optimum pada kelajuan pantas setanding dengan kaedah standard.
Eksperimen

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawanKajian ini menunjukkan bahawa SPO berprestasi lebih baik daripada kaedah berasaskan model ganjaran pada satu siri tugas kawalan berterusan dengan fungsi keutamaan yang realistik. SPO dapat mempelajari sampel dengan lebih cekap daripada kaedah berasaskan model ganjaran dalam pelbagai tetapan keutamaan, seperti ditunjukkan dalam Rajah 2 di bawah.

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan


Kajian ini membandingkan SPO dengan kaedah pemodelan ganjaran berulang (RM) daripada pelbagai dimensi, bertujuan untuk menjawab 4 soalan:
  1. W intransitive boleh dikira, SPO intransitive
    MW?
  2. Bolehkah SPO memadankan atau melebihi kecekapan sampel RM pada masalah dengan Pemenang Copeland yang unik/strategi optimum?
  3. Sejauh manakah SPO teguh kepada pilihan rawak?
  4. Bolehkah SPO mengendalikan pilihan bukan Markovian?

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Dari segi keutamaan ganjaran maksimum, keutamaan hingar, dan keutamaan bukan Markov, keputusan eksperimen kajian ini masing-masing ditunjukkan dalam Rajah 6, 7, dan 8:

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

🎜

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut tentang kandungan penyelidikan.

Atas ialah kandungan terperinci Google mencadangkan kaedah RLHF baharu: menghapuskan model ganjaran dan menghapuskan keperluan untuk latihan lawan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Jul 23, 2024 pm 02:05 PM

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/

See all articles