Rumah Peranti teknologi AI Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token'

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token'

Jun 24, 2024 pm 03:04 PM
projek algoritma penjajaran TDPO

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Dalam proses pembangunan bidang kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini Berkhidmat kepada masyarakat manusia dengan kuat dan selamat. Usaha awal tertumpu pada mengurus model ini melalui kaedah pembelajaran pengukuhan dengan maklum balas manusia (RLHF), dengan hasil yang mengagumkan menandakan langkah penting ke arah AI yang lebih mirip manusia.

Walaupun kejayaannya hebat, RLHF sangat intensif sumber semasa latihan. Oleh itu, sejak kebelakangan ini, para sarjana terus meneroka laluan pengoptimuman dasar yang lebih mudah dan cekap berdasarkan asas kukuh yang diletakkan oleh RLHF, yang melahirkan pengoptimuman keutamaan langsung (DPO). DPO memperoleh pemetaan langsung antara fungsi ganjaran dan strategi optimum melalui penaakulan matematik, menghapuskan proses latihan model ganjaran, mengoptimumkan model strategi secara langsung pada data keutamaan, dan mencapai lonjakan intuitif daripada "maklum balas kepada strategi". Ini bukan sahaja mengurangkan kerumitan, tetapi juga meningkatkan keteguhan algoritma, dengan cepat menjadi kegemaran baharu dalam industri.

Walau bagaimanapun, DPO tertumpu terutamanya pada pengoptimuman dasar di bawah kekangan perbezaan songsang KL. DPO sangat baik dalam meningkatkan prestasi penjajaran disebabkan sifat pencarian mod bagi perbezaan songsang KL, tetapi sifat ini juga cenderung untuk mengurangkan kepelbagaian semasa proses penjanaan, yang berpotensi mengehadkan keupayaan model. Sebaliknya, walaupun DPO mengawal perbezaan KL dari perspektif peringkat ayat, proses penjanaan model pada asasnya adalah token-by-token. Mengawal perbezaan KL pada peringkat ayat secara intuitif menunjukkan bahawa DPO mempunyai batasan dalam kawalan halus dan mempunyai keupayaan yang lemah untuk melaraskan perbezaan KL, yang mungkin menjadi salah satu faktor utama penurunan pesat dalam kepelbagaian generatif LLM semasa latihan DPO.

Untuk tujuan ini, pasukan Wang Jun dan Zhang Haifeng dari Chinese Academy of Sciences dan University College London mencadangkan algoritma penjajaran model besar yang dimodelkan daripada perspektif peringkat token: TDPO.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

  • Tajuk kertas: Pengoptimuman Keutamaan Langsung peringkat Token

  • Alamat kertas: https://arxiv.org/abs/2404.11999

  • alamat Cohub /Token-level-Direct-Preference-Optimization

Untuk menangani penurunan ketara dalam kepelbagaian penjanaan model, TTDPO mentakrifkan semula fungsi objektif keseluruhan proses penjajaran daripada perspektif peringkat token, dan mengubah Bradley -Model Terry ke dalam Menukarkannya ke dalam bentuk fungsi kelebihan membolehkan keseluruhan proses penjajaran akhirnya dianalisis dan dioptimumkan dari tahap peringkat Token. Berbanding dengan DPO, sumbangan utama TDPO adalah seperti berikut:

  • Kaedah pemodelan peringkat token: TDPO memodelkan masalah dari perspektif peringkat Token dan menjalankan analisis RLHF yang lebih terperinci

  • Fine-grained; kekangan perbezaan: Kekangan perbezaan KL ke hadapan secara teorinya diperkenalkan pada setiap token, membenarkan kaedah untuk mengekang pengoptimuman model dengan lebih baik

  • Kelebihan prestasi yang jelas: berbanding DPO , TTDPO mampu mencapai prestasi penjajaran yang lebih baik dan menjana hadapan Pareto yang pelbagai.

Perbezaan utama antara DPO dan TDPO ditunjukkan dalam rajah di bawah:                                                                                                                        Penjajaran TDPO TDPO untuk dioptimumkan seperti ditunjukkan di bawah. DPO dimodelkan daripada perspektif peringkat ayat

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Rajah 2: Kaedah pengoptimuman penjajaran TDPO. Model TDPO dari perspektif tahap token dan memperkenalkan kekangan perbezaan KL hadapan tambahan pada setiap token, seperti yang ditunjukkan dalam bahagian merah dalam rajah, yang bukan sahaja mengawal tahap mengimbangi model, tetapi juga berfungsi sebagai garis dasar untuk penjajaran model

Proses terbitan khusus kedua-dua kaedah diperkenalkan di bawah. Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Latar Belakang: Pengoptimuman Keutamaan Langsung (DPO) DPO memperoleh pemetaan langsung antara fungsi ganjaran dan dasar optimum melalui derivasi matematik, menghapuskan peringkat pemodelan ganjaran dalam proses RLHF:

(

) (

) digantikan ke dalam model keutamaan Bradley-Terry (BT) untuk mendapatkan fungsi kehilangan pengoptimuman dasar langsung (DPO):

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

di mana Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token ialah pasangan keutamaan yang terdiri daripada respons segera, menang dan kalah daripada set data keutamaan D. . abjad (Glosari).

Apabila penjanaan teks dimodelkan sebagai proses keputusan Markov, keadaan ditakrifkan sebagai gabungan gesaan dan token yang telah dijana sehingga langkah semasa, diwakili oleh , manakala tindakan sepadan dengan token yang dijana seterusnya, diwakili oleh ialah , ganjaran peringkat token ditakrifkan sebagai

.

Berdasarkan takrifan yang diberikan di atas, TDPO menetapkan fungsi tindakan keadaan , fungsi nilai keadaan

dan fungsi kelebihan

untuk polisi : Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

di mana

mewakili faktor diskaun. Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenPembelajaran Peneguhan Maklum Balas Manusia daripada Perspektif Peringkat Token

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenTDPO secara teorinya mengubah suai fasa pemodelan ganjaran dan fasa penalaan halus RL RLHF, memanjangkannya kepada matlamat pengoptimuman yang dipertimbangkan dari perspektif peringkat token. Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenUntuk peringkat pemodelan ganjaran, TDPO mewujudkan korelasi antara model Bradley-Terry dan fungsi kelebihan: Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Untuk peringkat penalaan halus RL, TDPO mentakrifkan fungsi objektif berikut:

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Bermula dari objektif (4), TDPO memperoleh hubungan pemetaan antara strategi optimum Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token dan fungsi tindakan keadaan

pada setiap token:

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Di mana, Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token mewakili fungsi partition.

Menggantikan persamaan (5) ke dalam persamaan (3), kita dapat:

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

di mana, Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token mewakili perbezaan dalam fungsi ganjaran tersirat yang diwakili oleh model dasar Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token dan model rujukan Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token, dinyatakan sebagai

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token manakala

ialah Menandakan perbezaan jujukan peringkat hadapan KL bagi perbezaan

dan Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token, ditimbang dengan Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token, dinyatakan sebagai Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token Berdasarkan Persamaan (8), fungsi kemungkinan kehilangan maksimum TDPO boleh dimodelkan sebagai:

Memandangkan bahawa dalam amalan, kehilangan Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token cenderung meningkat

, menguatkan perbezaan antara

dan Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token. Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDi sini, Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token bermaksud Hentikan pengendali perambatan kecerunan. Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Kami meringkaskan fungsi kehilangan TTDO dan DPO seperti berikut:

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenDapat dilihat bahawa TDPO memperkenalkan kawalan divergence KL hadapan ini pada setiap token, membolehkan kawalan KL yang lebih baik semasa proses pengoptimuman berubah tanpa menjejaskan prestasi penjajaran , dengan itu mencapai bahagian hadapan Pareto yang lebih baik.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenTetapan percubaan

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenTDPO menjalankan eksperimen pada set data IMDb, Anthropic/hh-rlhf, MT-Bench.

IMDb

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Pada set data IMDb, pasukan menggunakan GPT-2 sebagai model asas, dan kemudian menggunakan siebert/sentiment-roberta-large-english sebagai model ganjaran untuk menilai output model dasar Hasil percubaan ditunjukkan dalam Rajah 3. . TTDPO berprestasi sangat baik dalam kawalan divergence KL, yang jauh lebih baik daripada keupayaan kawalan divergence KL bagi algoritma DPO.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenAnthropic HH

Pada set data Anthropic/hh-rlhf, pasukan menggunakan Pythia 2.8B sebagai model asas dan menggunakan dua kaedah untuk menilai kualiti penjanaan model: 1) menggunakan penunjuk sedia ada; GPT-4.

Untuk kaedah penilaian pertama, pasukan menilai pertukaran dalam prestasi penjajaran (Ketepatan) dan kepelbagaian penjanaan (Entropi) model yang dilatih dengan algoritma berbeza, seperti ditunjukkan dalam Jadual 1.

Dapat dilihat bahawa algoritma TDPO bukan sahaja lebih baik daripada DPO dan f-DPO dalam prestasi penjajaran (Ketepatan), tetapi juga mempunyai kelebihan dalam kepelbagaian penjanaan (Entropi), yang merupakan penunjuk utama tindak balas dihasilkan oleh kedua-dua model besar ini.

Untuk kaedah penilaian kedua, pasukan menilai ketekalan antara model yang dilatih oleh algoritma yang berbeza dan keutamaan manusia, dan membandingkannya dengan respons yang menang dalam set data, seperti yang ditunjukkan dalam Rajah 4. Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Algoritma DPO, TDPO1 dan TDPO2 semuanya mampu mencapai kadar kemenangan lebih tinggi daripada 50% untuk memenangi tindak balas pada pekali suhu 0.75, yang lebih baik sejajar dengan pilihan manusia.

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat tokenMT-Bench

Dalam percubaan terakhir dalam kertas kerja, pasukan menggunakan model Pythia 2.8B yang dilatih pada set data Anthropic HH untuk menggunakannya secara langsung untuk penilaian set data MT-Bench 5 Tunjukkan.

Di MT-Bench, TDPO mampu mencapai kebarangkalian kemenangan yang lebih tinggi daripada algoritma lain, yang menunjukkan sepenuhnya kualiti respons yang lebih tinggi yang dihasilkan oleh model yang dilatih oleh algoritma TDPO.

Selain itu, terdapat kajian berkaitan membandingkan algoritma DPO, TDPO, dan SimPO Sila rujuk pautan: https://www.zhihu.com/question/651021172/answer/3513696851Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Berdasarkan skrip eval yang disediakan oleh. eurus, penilaian Prestasi model asas qwen-4b, mistral-0.1, dan deepseek-math-base diperoleh dengan latihan penalaan halus berdasarkan algoritma penjajaran berbeza DPO, TDPO dan SimPO Berikut adalah keputusan eksperimen:

Jadual 2: DPO, Perbandingan prestasi algoritma TTDPO dan SimPODaripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun peringkat token

Untuk hasil lebih lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1674
14
Tutorial PHP
1278
29
Tutorial C#
1257
24
Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles