Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4-AI-php.cn

Rumah

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4

PHPz

Jan 23, 2024 pm 01:15 PM

meta projek universiti new york kaedah ganjaran diri

Maklum Balas Kepintaran Buatan (AIF) akan menggantikan RLHF?

Dalam bidang model besar, penalaan halus adalah langkah penting untuk meningkatkan prestasi model. Apabila bilangan model besar sumber terbuka secara beransur-ansur meningkat, orang ramai telah meringkaskan banyak kaedah penalaan halus, beberapa daripadanya telah mencapai hasil yang baik.

Baru-baru ini, penyelidik dari Meta dan Universiti New York menggunakan "kaedah ganjaran diri" untuk membenarkan model besar menjana data penalaan halus mereka sendiri, yang membawa kejutan baharu kepada orang ramai.

Dalam kaedah baharu, pengarang memperhalusi Llama 2 70B dalam tiga lelaran, dan model yang dihasilkan mengatasi beberapa model besar penting sedia ada pada kedudukan AlpacaEval 2.0, termasuk Claude 2, Gemini Pro dan GPT -4 .

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4

Jadi kertas itu menarik perhatian orang hanya beberapa jam selepas ia disiarkan di arXiv.

Walaupun kaedah tersebut belum lagi menjadi sumber terbuka, dipercayai kaedah yang digunakan dalam makalah tersebut diterangkan dengan jelas dan tidak sepatutnya sukar untuk dihasilkan semula.

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4

Adalah diketahui bahawa penalaan model bahasa besar (LLM) menggunakan data keutamaan manusia boleh meningkatkan prestasi penjejakan arahan model pra-latihan. Dalam siri GPT, OpenAI mencadangkan kaedah standard pembelajaran peneguhan maklum balas manusia (RLHF), yang membolehkan model besar mempelajari model ganjaran daripada keutamaan manusia, dan kemudian membenarkan model ganjaran dibekukan dan digunakan untuk melatih LLM menggunakan pembelajaran peneguhan Ini kaedah telah mendapat kejayaan besar.

Idea baharu yang muncul baru-baru ini adalah untuk mengelakkan sepenuhnya model ganjaran latihan dan secara langsung menggunakan pilihan manusia untuk melatih LLM, seperti pengoptimuman keutamaan langsung (DPO). Dalam kedua-dua kes di atas, penalaan disekat oleh saiz dan kualiti data keutamaan manusia, dan dalam kes RLHF, kualiti penalaan juga disekat oleh kualiti model ganjaran beku yang dilatih daripadanya.

Dalam karya baharu dalam Meta, penulis mencadangkan untuk melatih model ganjaran yang mempertingkatkan diri yang, daripada dibekukan, dikemas kini secara berterusan semasa penalaan LLM untuk mengelakkan kesesakan ini.

Kunci kepada pendekatan ini adalah untuk membangunkan ejen dengan semua keupayaan yang diperlukan semasa latihan (daripada berpecah kepada model ganjaran dan model bahasa), membenarkan pra-latihan tugas mengikut arahan dan latihan pelbagai tugas untuk membolehkan serentak Latih pelbagai tugas untuk mencapai pemindahan tugas.

Jadi pengarang memperkenalkan model bahasa yang memberi ganjaran kepada diri sendiri, yang mana ejennya bertindak sebagai arahan untuk mengikuti model, menjana respons untuk gesaan yang diberikan, dan juga boleh menjana dan menilai arahan baharu berdasarkan contoh untuk menambah latihan mereka sendiri set .

Kaedah baharu menggunakan rangka kerja yang serupa dengan DPO lelaran untuk melatih model ini. Bermula dari model benih, seperti yang ditunjukkan dalam Rajah 1, dalam setiap lelaran terdapat proses penciptaan arahan kendiri di mana model menjana respons calon untuk gesaan yang baru dibuat, dan ganjaran kemudiannya diberikan oleh model yang sama. Yang terakhir ini dicapai melalui gesaan daripada LLM-sebagai-Hakim, yang juga boleh dilihat sebagai tugas mengikut arahan. Bina set data keutamaan daripada data yang dijana dan latih lelaran model seterusnya melalui DPO.

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4

Tajuk kertas: Model Bahasa Menghargai Diri
Pautan kertas: https://arxiv.org/abs/2401.10020

Model bahasa yang memberi ganjaran kepada diri sendiri

Pendekatan yang dicadangkan oleh pengarang mula-mula mengandaikan: akses kepada model bahasa pra-latihan asas dan sejumlah kecil data benih beranotasi manusia, dan kemudian membina model yang bertujuan untuk memiliki kedua-dua kemahiran :

1. Ikut arahan: Berikan gesaan yang menerangkan permintaan pengguna dan dapat menjana respons yang berkualiti tinggi, membantu (dan tidak berbahaya).

2. Penciptaan arahan kendiri: Keupayaan untuk menjana dan menilai arahan baharu berikutan contoh untuk ditambah pada set latihan anda sendiri.

Kemahiran ini digunakan untuk membolehkan model melakukan penjajaran kendiri, iaitu komponen yang digunakan untuk melatih dirinya secara berulang menggunakan Maklum Balas Kepintaran Buatan (AIF).

Penciptaan arahan kendiri melibatkan penjanaan respons calon dan kemudian membiarkan model itu sendiri menilai kualitinya, iaitu ia bertindak sebagai model ganjarannya sendiri, dengan itu menggantikan keperluan untuk model luaran. Ini dicapai melalui mekanisme LLM-as-a-Judge [Zheng et al., 2023b], iaitu dengan merumuskan penilaian respons sebagai tugasan berikutan arahan. Data keutamaan AIF yang dicipta sendiri ini digunakan sebagai set latihan.

Jadi semasa proses penalaan halus, model yang sama digunakan untuk kedua-dua peranan: sebagai "pembelajar" dan sebagai "hakim". Berdasarkan peranan hakim yang muncul, model itu boleh meningkatkan lagi prestasi melalui penalaan halus kontekstual.

Proses penjajaran diri secara keseluruhan ialah proses berulang yang diteruskan dengan membina satu siri model, setiap satu merupakan peningkatan berbanding yang lepas. Apa yang penting di sini ialah memandangkan model boleh meningkatkan keupayaan generatifnya dan menggunakan mekanisme generatif yang sama seperti model ganjarannya sendiri, ini bermakna model ganjaran itu sendiri boleh bertambah baik melalui lelaran ini, yang selaras dengan standard yang wujud dalam model ganjaran. Terdapat perbezaan dalam pendekatan.

Penyelidik percaya bahawa pendekatan ini boleh meningkatkan potensi model pembelajaran ini untuk memperbaiki diri pada masa hadapan dan menghapuskan kesesakan yang terhad.

Rajah 1 menunjukkan gambaran keseluruhan kaedah.

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4

Eksperimen

Dalam eksperimen, pengkaji menggunakan Llama 2 70B sebagai model asas pra-latihan. Mereka mendapati bahawa penjajaran LLM ganjaran kendiri bukan sahaja meningkatkan arahan berikutan prestasi tetapi juga meningkatkan keupayaan pemodelan ganjaran berbanding model benih garis dasar.

Ini bermakna bahawa dalam latihan berulang, model dapat menyediakan dirinya dengan set data keutamaan kualiti yang lebih baik dalam lelaran tertentu berbanding lelaran sebelumnya. Walaupun kesan ini cenderung tepu di dunia nyata, ia menawarkan kemungkinan menarik bahawa model ganjaran yang terhasil (dan dengan itu LLM) adalah lebih baik daripada model yang dilatih semata-mata daripada data benih mentah yang ditulis oleh manusia.

Dari segi kebolehan mengikut arahan, keputusan eksperimen ditunjukkan dalam Rajah 3:

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4 Para penyelidik menilai model ganjaran diri pada senarai kedudukan AlpacaEval 2, dan keputusan ditunjukkan dalam Jadual 1. Mereka memerhati kesimpulan yang sama seperti penilaian head-to-head, iaitu, kadar kemenangan lelaran latihan adalah lebih tinggi daripada GPT4-Turbo, daripada 9.94% dalam lelaran 1, kepada 15.38% dalam lelaran 2, kepada 20.44% dalam lelaran 3. Sementara itu, model Iterasi 3 mengatasi banyak model sedia ada, termasuk Claude 2, Gemini Pro dan GPT4 0613.

Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4

Hasil penilaian pemodelan ganjaran ditunjukkan dalam Jadual 2. Kesimpulannya termasuk:

EFT telah bertambah baik berbanding garis dasar SFT Berbanding dengan menggunakan IFT sahaja, menggunakan IFT+EFT, kesemua lima penunjuk ukuran telah bertambah baik. Sebagai contoh, perjanjian ketepatan berpasangan dengan manusia meningkat daripada 65.1% kepada 78.7%.
Tingkatkan keupayaan pemodelan ganjaran melalui latihan kendiri. Selepas pusingan latihan ganjaran kendiri, keupayaan model untuk memberikan ganjaran kendiri untuk lelaran seterusnya dipertingkatkan, dan keupayaannya untuk mengikuti arahan juga dipertingkatkan.
Kepentingan Tips LLMas-a-Judge. Para penyelidik menggunakan pelbagai format segera dan mendapati bahawa gesaan LLMas-a-Judge mempunyai ketepatan berpasangan yang lebih tinggi apabila menggunakan garis dasar SFT.

Pengarang percaya bahawa kaedah latihan ganjaran kendiri bukan sahaja meningkatkan keupayaan pengesanan arahan model, tetapi juga meningkatkan keupayaan model ganjaran model dalam lelaran.

Walaupun ini hanyalah kajian awal, ia nampaknya merupakan hala tuju penyelidikan yang menarik.

Kaedah ini juga membuka kemungkinan tertentu untuk kaedah penghakiman yang lebih kompleks. Sebagai contoh, model besar boleh mengesahkan ketepatan jawapan mereka dengan mencari pangkalan data, menghasilkan output yang lebih tepat dan boleh dipercayai.

^{Kandungan rujukan:}^{https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_language_models_meta_2024/}

Atas ialah kandungan terperinci Model besar di bawah ganjaran kendiri: Llama2 mengoptimumkan dirinya melalui pembelajaran Meta, mengatasi prestasi GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7552

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Alat dengar Meta Quest 3S VR mampu milik baharu muncul di FCC, mencadangkan pelancaran yang akan berlaku Sep 04, 2024 am 06:51 AM

Acara Meta Connect 2024 ditetapkan pada 25 hingga 26 September, dan dalam acara ini, syarikat itu dijangka memperkenalkan set kepala realiti maya mampu milik baharu. Dikhabarkan sebagai Meta Quest 3S, set kepala VR nampaknya telah muncul pada penyenaraian FCC. cadangan ini

Model sumber terbuka pertama yang melepasi tahap GPT4o! Llama 3.1 bocor: 405 bilion parameter, pautan muat turun dan kad model tersedia Jul 23, 2024 pm 08:51 PM

Sediakan GPU anda! Llama3.1 akhirnya muncul, tetapi sumbernya bukan Meta rasmi. Hari ini, berita bocor versi baharu model besar Llama menjadi tular di Reddit Selain model asas, ia juga termasuk hasil penanda aras 8B, 70B dan parameter maksimum 405B. Rajah di bawah menunjukkan hasil perbandingan setiap versi Llama3.1 dengan OpenAIGPT-4o dan Llama38B/70B. Ia boleh dilihat bahawa walaupun versi 70B melebihi GPT-4o pada pelbagai penanda aras. Sumber imej: https://x.com/mattshumer_/status/1815444612414087294 Jelas sekali, versi 3.1 daripada 8B dan 70

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

See all articles