


Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token'

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Dalam proses pembangunan bidang kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini Berkhidmat kepada masyarakat manusia dengan kuat dan selamat. Usaha awal tertumpu pada mengurus model ini melalui kaedah pembelajaran pengukuhan dengan maklum balas manusia (RLHF), dengan hasil yang mengagumkan menandakan langkah penting ke arah AI yang lebih mirip manusia.
Walaupun kejayaannya hebat, RLHF sangat intensif sumber semasa latihan. Oleh itu, sejak kebelakangan ini, para sarjana terus meneroka laluan pengoptimuman dasar yang lebih mudah dan cekap berdasarkan asas kukuh yang diletakkan oleh RLHF, yang melahirkan pengoptimuman keutamaan langsung (DPO). DPO memperoleh pemetaan langsung antara fungsi ganjaran dan strategi optimum melalui penaakulan matematik, menghapuskan proses latihan model ganjaran, mengoptimumkan model strategi secara langsung pada data keutamaan, dan mencapai lonjakan intuitif daripada "maklum balas kepada strategi". Ini bukan sahaja mengurangkan kerumitan, tetapi juga meningkatkan keteguhan algoritma, dengan cepat menjadi kegemaran baharu dalam industri.
Walau bagaimanapun, DPO tertumpu terutamanya pada pengoptimuman dasar di bawah kekangan perbezaan songsang KL. DPO sangat baik dalam meningkatkan prestasi penjajaran disebabkan sifat pencarian mod bagi perbezaan songsang KL, tetapi sifat ini juga cenderung untuk mengurangkan kepelbagaian semasa proses penjanaan, yang berpotensi mengehadkan keupayaan model. Sebaliknya, walaupun DPO mengawal perbezaan KL dari perspektif peringkat ayat, proses penjanaan model pada asasnya adalah token-by-token. Mengawal perbezaan KL pada peringkat ayat secara intuitif menunjukkan bahawa DPO mempunyai batasan dalam kawalan halus dan mempunyai keupayaan yang lemah untuk melaraskan perbezaan KL, yang mungkin menjadi salah satu faktor utama penurunan pesat dalam kepelbagaian generatif LLM semasa latihan DPO.
Untuk tujuan ini, pasukan Wang Jun dan Zhang Haifeng dari Chinese Academy of Sciences dan University College London mencadangkan algoritma penjajaran model besar yang dimodelkan daripada perspektif peringkat token: TDPO.
Tajuk kertas: Pengoptimuman Keutamaan Langsung peringkat Token
Alamat kertas: https://arxiv.org/abs/2404.11999
- alamat Cohub /Token-level-Direct-Preference-Optimization
- Kaedah pemodelan peringkat token: TDPO memodelkan masalah dari perspektif peringkat Token dan menjalankan analisis RLHF yang lebih terperinci
- Fine-grained; kekangan perbezaan: Kekangan perbezaan KL ke hadapan secara teorinya diperkenalkan pada setiap token, membenarkan kaedah untuk mengekang pengoptimuman model dengan lebih baik
- Kelebihan prestasi yang jelas: berbanding DPO , TTDPO mampu mencapai prestasi penjajaran yang lebih baik dan menjana hadapan Pareto yang pelbagai.
Rajah 2: Kaedah pengoptimuman penjajaran TDPO. Model TDPO dari perspektif tahap token dan memperkenalkan kekangan perbezaan KL hadapan tambahan pada setiap token, seperti yang ditunjukkan dalam bahagian merah dalam rajah, yang bukan sahaja mengawal tahap mengimbangi model, tetapi juga berfungsi sebagai garis dasar untuk penjajaran model
Proses terbitan khusus kedua-dua kaedah diperkenalkan di bawah.
Latar Belakang: Pengoptimuman Keutamaan Langsung (DPO) DPO memperoleh pemetaan langsung antara fungsi ganjaran dan dasar optimum melalui derivasi matematik, menghapuskan peringkat pemodelan ganjaran dalam proses RLHF:
() () digantikan ke dalam model keutamaan Bradley-Terry (BT) untuk mendapatkan fungsi kehilangan pengoptimuman dasar langsung (DPO):
di mana ialah pasangan keutamaan yang terdiri daripada respons segera, menang dan kalah daripada set data keutamaan D. . abjad (Glosari).
Apabila penjanaan teks dimodelkan sebagai proses keputusan Markov, keadaan ditakrifkan sebagai gabungan gesaan dan token yang telah dijana sehingga langkah semasa, diwakili oleh , manakala tindakan sepadan dengan token yang dijana seterusnya, diwakili oleh ialah , ganjaran peringkat token ditakrifkan sebagai
.Berdasarkan takrifan yang diberikan di atas, TDPO menetapkan fungsi tindakan keadaan , fungsi nilai keadaan
dan fungsi kelebihan untuk polisi :
mewakili faktor diskaun. Pembelajaran Peneguhan Maklum Balas Manusia daripada Perspektif Peringkat Token
TDPO secara teorinya mengubah suai fasa pemodelan ganjaran dan fasa penalaan halus RL RLHF, memanjangkannya kepada matlamat pengoptimuman yang dipertimbangkan dari perspektif peringkat token.
Untuk peringkat pemodelan ganjaran, TDPO mewujudkan korelasi antara model Bradley-Terry dan fungsi kelebihan:
Bermula dari objektif (4), TDPO memperoleh hubungan pemetaan antara strategi optimum dan fungsi tindakan keadaan
Di mana, mewakili fungsi partition.
Menggantikan persamaan (5) ke dalam persamaan (3), kita dapat:
di mana, mewakili perbezaan dalam fungsi ganjaran tersirat yang diwakili oleh model dasar
dan model rujukan
, dinyatakan sebagai
manakala
dan , ditimbang dengan
, dinyatakan sebagai
Berdasarkan Persamaan (8), fungsi kemungkinan kehilangan maksimum TDPO boleh dimodelkan sebagai:
Memandangkan bahawa dalam amalan, kehilangan cenderung meningkat
dan .
Di sini,
bermaksud Hentikan pengendali perambatan kecerunan.
Dapat dilihat bahawa TDPO memperkenalkan kawalan divergence KL hadapan ini pada setiap token, membolehkan kawalan KL yang lebih baik semasa proses pengoptimuman berubah tanpa menjejaskan prestasi penjajaran , dengan itu mencapai bahagian hadapan Pareto yang lebih baik.
Tetapan percubaan
TDPO menjalankan eksperimen pada set data IMDb, Anthropic/hh-rlhf, MT-Bench.
Pada set data IMDb, pasukan menggunakan GPT-2 sebagai model asas, dan kemudian menggunakan siebert/sentiment-roberta-large-english sebagai model ganjaran untuk menilai output model dasar Hasil percubaan ditunjukkan dalam Rajah 3. . TTDPO berprestasi sangat baik dalam kawalan divergence KL, yang jauh lebih baik daripada keupayaan kawalan divergence KL bagi algoritma DPO.
Anthropic HH
Untuk kaedah penilaian pertama, pasukan menilai pertukaran dalam prestasi penjajaran (Ketepatan) dan kepelbagaian penjanaan (Entropi) model yang dilatih dengan algoritma berbeza, seperti ditunjukkan dalam Jadual 1.
Dapat dilihat bahawa algoritma TDPO bukan sahaja lebih baik daripada DPO dan f-DPO dalam prestasi penjajaran (Ketepatan), tetapi juga mempunyai kelebihan dalam kepelbagaian penjanaan (Entropi), yang merupakan penunjuk utama tindak balas dihasilkan oleh kedua-dua model besar ini.
Untuk kaedah penilaian kedua, pasukan menilai ketekalan antara model yang dilatih oleh algoritma yang berbeza dan keutamaan manusia, dan membandingkannya dengan respons yang menang dalam set data, seperti yang ditunjukkan dalam Rajah 4.
Algoritma DPO, TDPO1 dan TDPO2 semuanya mampu mencapai kadar kemenangan lebih tinggi daripada 50% untuk memenangi tindak balas pada pekali suhu 0.75, yang lebih baik sejajar dengan pilihan manusia.
MT-Bench
Di MT-Bench, TDPO mampu mencapai kebarangkalian kemenangan yang lebih tinggi daripada algoritma lain, yang menunjukkan sepenuhnya kualiti respons yang lebih tinggi yang dihasilkan oleh model yang dilatih oleh algoritma TDPO.
Selain itu, terdapat kajian berkaitan membandingkan algoritma DPO, TDPO, dan SimPO Sila rujuk pautan: https://www.zhihu.com/question/651021172/answer/3513696851
Jadual 2: DPO, Perbandingan prestasi algoritma TTDPO dan SimPO
Untuk hasil lebih lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang
