Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat-AI-php.cn

Untuk menyelaraskan model bahasa besar (LLM) dengan nilai dan niat manusia, adalah penting untuk mempelajari maklum balas manusia untuk memastikan ia berguna, jujur dan tidak berbahaya. Dari segi penjajaran LLM, pendekatan yang berkesan ialah pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF). Walaupun keputusan kaedah RLHF adalah cemerlang, terdapat beberapa cabaran pengoptimuman yang terlibat. Ini melibatkan latihan model ganjaran dan kemudian mengoptimumkan model dasar untuk memaksimumkan ganjaran tersebut.

Baru-baru ini, beberapa penyelidik telah meneroka algoritma luar talian yang lebih mudah, salah satunya ialah pengoptimuman keutamaan langsung (DPO). DPO mempelajari model dasar secara langsung berdasarkan data keutamaan dengan meparameterkan fungsi ganjaran dalam RLHF, sekali gus menghapuskan keperluan untuk model ganjaran yang jelas. Kaedah ini mudah dan stabil dan telah digunakan secara meluas dalam amalan.

Apabila menggunakan DPO, cara untuk mendapatkan ganjaran tersirat adalah dengan menggunakan logaritma nisbah kemungkinan tindak balas antara model dasar semasa dan model penalaan halus (SFT) yang diselia. Walau bagaimanapun, cara penstrukturan ganjaran ini tidak sejajar secara langsung dengan metrik yang dijana bootstrap, iaitu lebih kurang logaritma min bagi respons yang dijana oleh model dasar. Perbezaan antara latihan dan inferens ini boleh membawa kepada prestasi yang lemah.

Untuk tujuan ini, Meng Rui, penolong profesor di University of Virginia, Xia Mengzhou, calon kedoktoran di Princeton University dan Chen Danqi, penolong profesor, bersama-sama mencadangkan SimPO - algoritma pengoptimuman pilihan luar talian yang mudah dan berkesan . Reka bentuk SimPO adalah berdasarkan pemodelan masalah pengoptimuman sebagai masalah pengecilan fungsi kotak hitam berterusan. Melalui lelaran berterusan, SimPO dapat mencari strategi pengoptimuman terbaik dan mencapai penumpuan yang cekap. Berbanding dengan algoritma pengoptimuman tradisional,

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Tajuk kertas: SimPO: Pengoptimuman Keutamaan Ringkas dengan Ganjaran Tanpa Rujukan
alamat https://Paperv.pdf /2405.14734

Inti bagi fungsi pengoptimuman adalah untuk menggabungkan fungsi pengoptimuman penjajaran Penunjuk generasi. SimPO terdiri daripada dua komponen utama: (1) ganjaran dinormalkan panjangnya, dikira sebagai purata kebarangkalian log semua token dalam ganjaran menggunakan model dasar; (2) perbezaan ganjaran sasaran untuk memastikan kemenangan dan kerugian Perbezaan ganjaran antara respons melebihi perbezaan ini.

Ringkasnya, SimPO mempunyai ciri-ciri berikut:
Mudah: SimPO tidak memerlukan model rujukan, jadi ia lebih ringan dan mudah untuk dilaksanakan berbanding kaedah lain seperti DPO yang bergantung pada model rujukan.
Kelebihan prestasi yang jelas: Walaupun SimPO ringkas, prestasinya jauh lebih baik daripada DPO dan varian terkininya (seperti sasaran ORPO tanpa rujukan terkini). Seperti yang ditunjukkan dalam Rajah 1. Dan SimPO mempunyai kelebihan yang stabil merentas tetapan latihan yang berbeza dan berbilang tanda aras pematuhan arahan (termasuk AlpacaEval 2 dan tanda aras Arena-Hard yang sukar).

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat Penggunaan panjang minimum: Berbanding dengan model SFT atau DPO, SimPO tidak meningkatkan panjang tindak balas dengan ketara (lihat Jadual 1), yang bermaksud penggunaan panjangnya adalah minimum.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Pasukan menjalankan analisis yang meluas dan keputusan menunjukkan bahawa SimPO boleh menggunakan data keutamaan dengan lebih berkesan untuk menilai dengan lebih tepat kemungkinan respons berkualiti tinggi dan rendah pada set pengesahan, yang seterusnya membolehkan Cipta strategik yang lebih baik. model.

Seperti yang ditunjukkan dalam Jadual 1, pasukan membina model dengan prestasi terbaik berdasarkan arahan Llama3-8B, yang mencapai kadar kemenangan terkawal 44.7 pada AlpacaEval 2, mengatasi papan pendahulu Claude 3 Opus; selain itu, kadar kemenangannya di Arena-Hard ialah 33.8, menjadikannya model sumber terbuka 8B paling berkuasa pada masa ini.

SimPO: Pengoptimuman Keutamaan Mudah

🎜🎜🎜Untuk memudahkan pemahaman, perkara berikut mula-mula memperkenalkan latar belakang DPO, kemudian menerangkan perbezaan antara ganjaran DPO dan ukuran kemungkinan yang digunakan untuk penjanaan, dan mencadangkan tanpa rujukan formula ganjaran alternatif untuk mengurangkan masalah ini. Akhir sekali, sasaran SimPO diperoleh dengan menyepadukan istilah margin ganjaran sasaran ke dalam model Bradley-Terry. 🎜🎜

Latar Belakang: Pengoptimuman Keutamaan Langsung (DPO)

DPO ialah salah satu kaedah pengoptimuman keutamaan luar talian yang paling biasa digunakan. DPO tidak mempelajari model ganjaran eksplisit, tetapi menggunakan ungkapan bentuk tertutup dengan dasar optimum untuk meparameterkan semula fungsi ganjaran r:

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

di mana π_θ ialah model dasar , π_ref ialah rujukan polisi (biasanya model SFT) dan Z (x) ialah fungsi partition. Dengan menyepadukan cara membina ganjaran ini ke dalam objektif ranking Bradley-Terry (BT), Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat , DPO boleh menggunakan model dasar dan bukannya model ganjaran untuk mewakili kebarangkalian data keutamaan, menghasilkan objektif berikut:

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

di mana (x, y_w, y_l) ialah pasangan keutamaan yang terdiri daripada respons segera, menang dan kalah daripada set data keutamaan D.

Ganjaran tanpa rujukan mudah yang sejajar dengan hasil yang dijana

Perbezaan antara ganjaran DPO dan yang dijana. Menggunakan persamaan (1) sebagai ungkapan ganjaran tersirat mempunyai kelemahan berikut: (1) Fasa latihan memerlukan model rujukan π_ref, yang akan membawa memori tambahan dan kos pengkomputeran (2) Ganjaran yang dioptimumkan dalam fasa latihan dan penjanaan yang digunakan secara inferens Terdapat perbezaan antara penunjuk. Khususnya, dalam peringkat penjanaan, model dasar π_θ digunakan untuk menjana jujukan yang boleh memaksimumkan purata kemungkinan log, ditakrifkan seperti berikut:

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Sangat sukar untuk memaksimumkan penunjuk ini secara langsung semasa penyahkodan. proses , pelbagai strategi penyahkodan boleh digunakan untuk ini, seperti penyahkodan tamak, carian rasuk, pensampelan kernel dan pensampelan top-k. Selain itu, metrik ini sering digunakan untuk menentukan kedudukan pilihan apabila model bahasa melaksanakan tugas berbilang pilihan. Dalam DPO, untuk mana-mana triplet (x, y_w, y_l), memenuhi kedudukan ganjaran r (x, y_w) > Malah, apabila berlatih dengan DPO, hanya kira-kira 50% daripada kembar tiga dalam set penahanan memenuhi syarat ini (lihat Rajah 4b). Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat Membina ganjaran dinormalkan panjangnya. Sememangnya, kami akan mempertimbangkan untuk menggunakan p_θ dalam (3) untuk menggantikan pembinaan ganjaran dalam DPO supaya ia sejajar dengan metrik kemungkinan yang dijana bootstrap. Ini menghasilkan ganjaran dinormalkan panjangnya:

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat di mana β ialah pemalar yang mengawal saiz perbezaan ganjaran. Pasukan mendapati bahawa menormalkan ganjaran berdasarkan panjang tindak balas adalah kritikal, mengalih keluar jangka penormalan panjang daripada formula ganjaran menyebabkan model cenderung menjana urutan yang lebih panjang tetapi lebih rendah. Ini menghapuskan keperluan untuk model rujukan dalam membina ganjaran, menghasilkan memori yang lebih besar dan kecekapan pengiraan daripada algoritma yang bergantung pada model rujukan.

Sasaran SimPO

Perbezaan Ganjaran Sasaran. Di samping itu, pasukan juga memperkenalkan istilah perbezaan ganjaran sasaran γ > 0 untuk objektif Bradley-Terry untuk memastikan bahawa ganjaran r (x, y_w) bagi respons yang menang melebihi ganjaran r (x, y_l) bagi respons yang gagal; oleh sekurang-kurangnya γ:

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat Perbezaan antara dua kelas diketahui mempengaruhi keupayaan generalisasi pengelas. Dalam tetapan latihan standard menggunakan permulaan model rawak, meningkatkan margin sasaran biasanya meningkatkan prestasi generalisasi. Dalam pengoptimuman keutamaan, kedua-dua kategori ini menang atau kalah respons kepada satu input.

Dalam amalan, pasukan memerhatikan bahawa apabila perbezaan sasaran meningkat, kualiti penjanaan pada mulanya bertambah baik, tetapi apabila perbezaan menjadi terlalu besar, kualiti penjanaan menurun. Satu varian DPO, IPO, juga membina margin ganjaran sasaran yang serupa dengan SimPO, tetapi sasaran keseluruhannya kurang berkesan daripada SimPO.

Matlamat. Akhir sekali, dengan menggantikan persamaan (4) kepada persamaan (5), sasaran SimPO boleh diperolehi:

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Ringkasnya, SimPO mengguna pakai borang ganjaran tersirat yang sejajar secara langsung dengan penunjuk yang dihasilkan, dengan itu menghapuskan keperluan untuk keperluan model rujukan. Selain itu, ia memperkenalkan perbezaan ganjaran sasaran γ untuk memisahkan jawapan menang dan kalah.

Persediaan eksperimen

Persediaan model dan latihan. Percubaan pasukan menggunakan dua jenis model, Llama3-8B dan Mistral-7B, dalam kedua-dua tetapan Base dan Instruct.

Penanda aras penilaian. Pasukan ini menggunakan tiga daripada penanda aras pematuhan terbuka yang paling biasa digunakan: MT-Bench, AlpacaEval 2 dan Arena-Hard v0.1. Penanda aras ini menilai keupayaan perbualan yang pelbagai model pada pelbagai pertanyaan dan telah diterima pakai secara meluas oleh komuniti. Jadual 2 memberikan beberapa butiran.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Kaedah asas. Jadual 3 menyenaraikan kaedah pengoptimuman keutamaan luar talian yang lain berbanding dengan SimPO.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Hasil eksperimen

Hasil utama dan kajian ablasi

.SimPO sentiasa menunjukkan prestasi yang lebih baik daripada kaedah keutamaan sedia ada sebelum ini Seperti yang ditunjukkan dalam Jadual 4, walaupun semua algoritma pengoptimuman keutamaan berprestasi lebih baik daripada model SFT, SimPO mudah mencapai prestasi terbaik pada semua penanda aras dan tetapan. Peneraju besar sedemikian merentasi papan menunjukkan keteguhan dan keberkesanan SimPO.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Kualiti penanda aras berbeza-beza. Dapat diperhatikan bahawa kadar kemenangan di Arena-Hard jauh lebih rendah daripada kadar kemenangan di AlpacaEval 2, menunjukkan bahawa Arena-Hard adalah penanda aras yang lebih sukar.

Tetapan arahan akan membawa peningkatan prestasi yang ketara. Seperti yang dapat dilihat, persediaan Arahan mengatasi persediaan Pangkalan di seluruh papan pada semua penanda aras. Ini mungkin disebabkan oleh penggunaan model SFT berkualiti tinggi untuk pemulaan oleh model ini dan kualiti data keutamaan yang lebih tinggi yang dihasilkan oleh model ini.

Dua reka bentuk utama SimPO adalah penting. Jadual 5 menunjukkan keputusan eksperimen ablasi bagi setiap reka bentuk utama SimPO. (1) Alih keluar normalisasi panjang dalam (4) (iaitu w/o LN); (2) Tetapkan perbezaan ganjaran sasaran dalam (6) kepada 0 (iaitu γ = 0).

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Mengalih keluar normalisasi panjang mempunyai kesan terbesar pada hasil. Penyelidikan pasukan mendapati bahawa ini menyebabkan model menghasilkan corak yang panjang dan berulang, yang mengurangkan kualiti keseluruhan output dengan teruk. Menetapkan γ kepada 0 juga membawa kepada kemerosotan prestasi SimPO, menunjukkan bahawa 0 bukanlah margin ganjaran sasaran yang optimum.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Lihat kertas asal untuk analisis yang lebih mendalam tentang dua pilihan reka bentuk ini. . ) Ketepatan ganjaran, (4) Kecekapan algoritma. Keputusan menunjukkan bahawa SimPO mengatasi DPO dari segi ketepatan dan kecekapan.

Ganjaran DPO secara tersirat menggalakkan penormalan panjang.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Walaupun ungkapan ganjaran DPO Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat (tanpa fungsi partition) tidak mempunyai istilah yang jelas untuk normalisasi panjang, nisbah log antara model dasar dan model rujukan boleh secara tersirat untuk mengimbangi berat sebelah panjang. Seperti yang ditunjukkan dalam Jadual 6 dan Rajah 4a, menggunakan DPO mengurangkan pekali korelasi Spearman antara purata log-kemungkinan dan panjang tindak balas berbanding kaedah tanpa sebarang normalisasi panjang (ditandakan sebagai SimPO w/o LN). Walau bagaimanapun, ia masih menunjukkan korelasi positif yang lebih kukuh jika dibandingkan dengan SimPO.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Ganjaran DPO tidak sepadan dengan kemungkinan yang dijana.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Terdapat perbezaan antara ganjaran DPO dan purata metrik kemungkinan log, yang memberi kesan secara langsung kepada penjanaan. Seperti yang ditunjukkan dalam Rajah 4b, dalam contoh pada set latihan UltraFeedback, di mana Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat , hampir separuh daripada pasangan data mempunyai . Sebaliknya, SimPO secara langsung menggunakan purata log-kemungkinan (diskalakan oleh β) sebagai ungkapan ganjaran, dengan itu menghapuskan perbezaan sepenuhnya.

DPO tidak sebaik SimPO dari segi ketepatan ganjaran.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Rajah 4c membandingkan ketepatan ganjaran SimPO dan DPO, yang menilai sejauh mana ganjaran pembelajaran terakhir mereka sejajar dengan label keutamaan pada set penahanan. Dapat diperhatikan bahawa ketepatan ganjaran SimPO adalah lebih tinggi daripada DPO, yang menunjukkan bahawa reka bentuk ganjaran SimPO membantu mencapai generalisasi yang lebih berkesan dan penjanaan kualiti yang lebih tinggi.

SimPO lebih cekap memori dan cekap dari segi pengiraan berbanding DPO.

Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat

Satu lagi kelebihan besar SimPO ialah kecekapan, lagipun, ia tidak menggunakan model rujukan. Rajah 4d menunjukkan keseluruhan masa jalanan dan penggunaan memori puncak bagi setiap GPU untuk SimPO dan DPO apabila menggunakan persediaan Llama3-Base pada GPU 8×H100. SimPO mengurangkan masa jalan sebanyak kira-kira 20% dan penggunaan memori GPU sebanyak kira-kira 10% berbanding dengan pelaksanaan DPO asal, terima kasih kepada penghapusan hantaran hadapan menggunakan model rujukan.

Untuk butiran lanjut, sila baca artikel asal.

Atas ialah kandungan terperinci Melebihi DPO secara menyeluruh: Pasukan Chen Danqi mencadangkan pengoptimuman pilihan mudah SimPO, dan turut memperhalusi model sumber terbuka 8B terkuat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!