Kertas penskoran tinggi ICML 2024 |-AI-php.cn

Rumah

Peranti teknologi

Kertas penskoran tinggi ICML 2024 |

王林

Jul 16, 2024 am 03:17 AM

projek Pengoptimum pesanan sifar

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Mengenai pengarang bersama pertama artikel ini: Zhang Yihua: pelajar kedoktoran tahun ketiga di Jabatan Sains Komputer di Michigan State University, sedang belajar di bawah Profesor Sijia Liu, hala tuju penyelidikan utamanya ialah isu keselamatan, privasi dan kecekapan model besar. Li Pingzhi: Beliau lulus dari Universiti Sains dan Teknologi China dengan ijazah sarjana muda Beliau akan memasuki Universiti North Carolina di Chapel Hill sebagai Ph.D pada 2024 Fall, belajar di bawah kepentingan penyelidikan utama beliau fokus pada bidang pembelajaran mesin yang cekap dan AI4Science. Hong Junyuan: Felo pasca doktoral di Universiti Texas di Austin, dibimbing oleh Profesor Zhangyang Wang. Lulus dari Michigan State University dengan Ph.D di bawah bimbingan Profesor Jiayu Zhou hala tuju penyelidikan utama beliau adalah model bahasa besar yang boleh dipercayai dan aplikasi perubatan kecerdasan buatan. Li Jiaxiang: Felo pasca doktoral di Universiti Minnesota, sedang menjalankan penyelidikan tentang teori pengoptimuman berangka, teori pembelajaran mesin dan masalah pengoptimuman pembelajaran mesin berskala besar di bawah bimbingan Profesor Hong Mingyi dan Profesor Zhang Shuzhong.

Model bahasa besar (LLM) sumber terbuka berkembang pesat Untuk menyesuaikannya dengan pelbagai tugas hiliran, penalaan halus adalah kaedah asas yang paling meluas. Walaupun pengoptimum tertib pertama (SGD, Adam, dsb.) berdasarkan teknologi pembezaan automatik (SGD, Adam, dsb.) menduduki arus perdana dalam penalaan halus model, apabila model menjadi lebih besar dan lebih besar, ia membawa tekanan yang meningkat pada memori video. Oleh itu, cara untuk mengurangkan memori grafik dengan cekap semasa penalaan halus supaya satu kad dapat memenuhi keperluan penalaan halus telah menjadi isu penyelidikan yang hangat. Perlu diingat bahawa walaupun perambatan belakang adalah asas pengoptimum tertib pertama ini dan digunakan untuk mengira kecerunan setiap berat rangkaian saraf, ia juga merupakan pembunuh ingatan yang disebabkan oleh penjimatan graf pengiraan yang besar juga adalah besar. Era model ditonjolkan khususnya. Pada masa yang sama, Zeroth-Order Optimization tidak perlu menyimpan graf pengiraan sama sekali, dan sebaliknya menggunakan perbezaan terhingga untuk menganggarkan kecerunan rangkaian, mengurangkan rangkaian saraf dengan mengelak sepenuhnya perambatan belakang (BP). overhed dalam kemas kini rangkaian.

Serupa dengan pelbagai variasi keturunan kecerunan stokastik dalam pengoptimum tertib pertama, pengoptimum tertib sifar juga mempunyai pelbagai algoritma yang dipertingkatkan yang belum diterokai sebelum ini. Baru-baru ini, ramai penyelidik dari Michigan State University, University of North Carolina di Chapel Hill, University of Texas di Austin, University of Minnesota Twin Cities, Pusat Penyelidikan IBM, Princeton University dan Alibaba Damo Academy bersama-sama melancarkan artikel penilaian komprehensif (penanda aras): Mengulas Semula Pengoptimuman Pesanan Sifar untuk Penalaan Halus LLM Cekap Memori: Penanda Aras. Artikel ini merangkumi enam jenis pengoptimum yang tidak memerlukan perambatan belakang (bebas BP), lima jenis model besar, tugasan tiga tahap kerumitan, empat jenis skema penalaan halus dan tiga algoritma baharu yang meningkatkan pengoptimum tertib sifar. Pada masa ini, kertas berkaitan telah diterima oleh ICML 2024 dengan markah yang tinggi, dan kod tersebut adalah sumber terbuka adalah seperti berikut.

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

Alamat kertas: https://arxiv.org/abs/2402.11592
Alamat kod: https://github.com/
/ZO-LL Alamat nota kuliah pengoptimuman pesanan sifar (Tutorial AAAI 2024): https://sites.google.com/view/zo-tutorial-aaai-2024/

Apakah itu pengoptimum pesanan sifar? Mengapa ia sangat penting?

Zeroth-Order Optimization hanya bergantung pada output rangkaian saraf untuk anggaran kecerunan, dan terkenal kerana tidak perlu mengira perambatan balik sama sekali dan memerlukan penggunaan latihan dalaman yang sangat sedikit. Walaupun terdapat kaedah penganggaran kecerunan yang berbeza dalam bidang pengoptimum tertib sifar, artikel ini secara khusus merujuk kepada siri algoritma berdasarkan Penganggar Kecerunan Rawak (RGE). Ringkasnya, perbezaan terhingga dikira dengan gangguan rawak yang diambil daripada taburan Gaussian dan digunakan sebagai anggaran anggaran kecerunan Rumus matematik RGE adalah seperti berikut.

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

Sebelum ini, pengoptimuman tertib sifar telah digunakan secara meluas dalam masalah pembelajaran mesin, seperti penjanaan sampel dan pertahanan musuh, tafsiran model kotak hitam, pembelajaran pengukuhan dan pembelajaran mesin automatik untuk pengenalan algoritma dan aplikasi terperinci, sila lihat [1] . Dalam bidang model besar, MeZO [2] mula-mula mencadangkan penggunaan keturunan kecerunan stokastik tertib sifar (ZO-SGD) sebagai penalaan halus untuk model besar dan menunjukkan potensi pengoptimum pesanan sifar tanpa had. Pada masa yang sama, ZO-SGD ialah pengoptimum bebas BP yang paling mudah dan asas Sama ada banyak variannya yang lebih maju [3] boleh membawa kita lebih banyak kejutan dalam bidang penalaan halus model besar merupakan topik yang memerlukan penyelidikan segera. Artikel ini secara sistematik menilai prestasi, kecekapan dan keserasian algoritma pengoptimuman berikut tanpa perambatan belakang (bebas BP) pada tugas penalaan halus model besar Tujuannya adalah untuk menunjukkan kepada komuniti keluasan pengoptimum tertib sifar pada pelbagai tugas model besar.

ZO-SGD-MMT: Susunan kecerunan stokastik tertib sifar dengan momentum [6]

ZO-SGD-Cons: Susunan kecerunan stokastik tertib sifar dengan kemas kini kecerunan konservatif [7]
Pengoptimum Adam tertib sifar [8]
Kajian ini juga termasuk kaedah Hadapan-Grad [9], yang anggaran kecerunan tidak berat sebelah adalah berdasarkan terbitan arah sepanjang vektor arah rawak. Perlu diingat bahawa walaupun Forward-Grad tidak secara langsung menggunakan perambatan belakang kecerunan, ia masih menggunakan algoritma pembezaan automatik, jadi ia adalah algoritma tanpa BP pesanan pertama.
Ringkasnya, penilaian artikel ini merangkumi lima pengoptimum tertib sifar di atas dan kaedah Forward-Grad, sambil membandingkan pengoptimum tertib pertama yang paling biasa digunakan, FO-SGD dan FO-Adam. Dari segi bentuk penalaan halus khusus, penilaian secara menyeluruh meliputi 5 seni bina LLM (RoBERTa, OPT, LLaMA, Vicuna, Mistral), 3 tugasan yang berbeza kerumitan (SST2, COPA, WinoGrande) dan 4 penyelesaian penalaan halus (penuh- penalaan , LoRA, penalaan segera, penalaan awalan).

Penilaian ketepatan penalaan halus model besar

Pengarang menegaskan bahawa untuk menggunakan pengoptimum tertib sifar dengan berkesan untuk memperhalusi model besar pada tugas hiliran, templat input mesti digunakan secara rasional supaya tugas hiliran dapat diselaraskan dengan tugasan yang telah dilatih. Contohnya, untuk SST2, menggunakan templat "

AYAT. Ia [terrible|hebat].

" boleh membawa peningkatan prestasi sebanyak 10% pada ZO-SGD. Walau bagaimanapun, untuk pengoptimum pesanan pertama (seperti FO-SGD), perbezaan prestasi adalah tidak ketara sama ada templat digunakan atau tidak, yang menyerlahkan keunikan pengoptimum pesanan sifar.

SST2 Sebagai tugas yang lebih asas, keputusan percubaannya boleh menyokong kesimpulan berikut:

ZO-Adam nampaknya merupakan pengoptimum pesanan sifar yang paling berkesan: 4 daripada 8 tetapan yang ditala halus Prestasi terbaik dalam.

Forward-grad ialah kaedah yang kompetitif tetapi sebelum ini diabaikan, terutamanya dalam penalaan halus sepenuhnya.

ZO-SGD-Cons dan ZO-SGD-MMT juga menunjukkan prestasi yang kukuh, manakala ZO-SGD-Sign, sebagai pengoptimum pesanan sifar yang paling mudah, selalunya merupakan kaedah yang paling lemah.

Selanjutnya, kajian menggunakan model OPT-13B yang lebih besar untuk menjalankan eksperimen ke atas tugas yang lebih kompleks dan sukar (COPA dan WinoGrande) dan mencapai kesimpulan berikut:

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存 perbezaan prestasi antara pengoptimum yang berbeza diperkuatkan lagi.

ZO-Adam dan ZO-SGD-MMT menunjukkan kestabilan yang sangat baik di bawah pelbagai eksperimen, yang mungkin dikaitkan dengan reka bentuk varians yang dikurangkan.

Penalaan halus LoRA sentiasa menunjukkan keteguhan yang kukuh kepada algoritma tertib sifar, dan stabil serta boleh dipercayai dalam pelbagai persekitaran eksperimen.
Penilaian dan penjelasan terperinci mengenai overhed memori penalaan halus model besar

Mengambil penalaan halus model OPT-13B pada set data MultiRC sebagai contoh, penulis membandingkan dan menganalisis memori dan masa dengan lebih lanjut kos pengoptimum pesanan sifar dan urutan pertama yang berbeza. Seperti yang ditunjukkan dalam jadual berikut: Pertama, dari perspektif kecekapan memori, ZO-SGD, ZO-SGD-Cons dan ZO-SGD-Sign menunjukkan kecekapan memori tinggi yang serupa, hanya memerlukan satu GPU A100 untuk penalaan halus model bahasa besar . Ini tidak menghairankan, kerana pengoptimum tertib sifar ini menggunakan langkah pengoptimuman yang agak mudah, bergantung terutamanya pada penggunaan penganggar kecerunan tertib sifar RGE. Kedua, Forward-Grad nampaknya merupakan titik permulaan di mana kaedah pengoptimuman tertib sifar mengatasi kaedah tertib pertama dari segi kecekapan ingatan (mis. berbanding ZO-Adam). Akhir sekali, berbanding dengan kaedah pesanan pertama, kos masa berjalan bagi setiap lelaran pengoptimuman pesanan sifar dikurangkan sebanyak kira-kira 41.9% (mengambil ZO-SGD lwn. FO-SGD sebagai contoh).

Pengarang membandingkan lagi kecekapan ingatan ZO-SGD dan FO-SGD di bawah panjang jujukan yang berbeza. Ia boleh dilihat bahawa penggunaan memori ZO-SGD kekal konsisten kerana penggunaan memori puncaknya hanya ditentukan oleh saiz parameter model Sebaliknya, apabila panjang jujukan meningkat, penggunaan memori puncak FO-SGD mula-mula kekal tidak berubah dan kemudian. mula meningkat. Oleh itu, dalam penetapan panjang konteks yang panjang, ZO-SGD akan mempamerkan kelebihan kecekapan ingatan yang lebih baik. Untuk nilai teoretikal ingatan dan nilai eksperimen tertentu, sila rujuk kertas asal.

Tiga algoritma yang dipertingkatkan untuk meningkatkan pengoptimum tertib sifar

Pengoptimum tertib sifar mempunyai kecekapan penumpuan terhad apabila digunakan pada LLM, terutamanya kerana varians anggaran yang besar dalam kecerunan. Untuk meningkatkan lagi pengoptimuman tertib sifar, penulis mencadangkan tiga algoritma lanjutan dari perspektif mengurangkan varians anggaran kecerunan, termasuk: penalaan halus ZO dari segi blok, penalaan halus hibrid tertib sifar dan urutan pertama ( penalaan halus ZO dan FO hibrid), anggaran kecerunan tertib sifar yang memperkenalkan kezatan (anggaran kecerunan ZO yang disebabkan oleh kezatan).

Penalaan halus ZO dari segi blokTitik permulaan utama kaedah ini ialah jika pengoptimum tertib sifar mengganggu blok parameter dalam LLM secara berasingan apabila menganggarkan kecerunan, dengan mengurangkan Saiz masalah digunakan untuk mengambil kira varians setiap anggaran kecerunan, dengan itu meningkatkan prestasi pengoptimuman. Kelebihan kaedah ini ialah ia boleh menganggarkan kecerunan model dengan lebih tepat, tetapi bilangan perambatan ke hadapan yang diperlukan untuk melengkapkan anggaran kecerunan akan meningkat. Contohnya, OPT-1.3B boleh dibahagikan kepada 26 blok parameter (24 lapisan Transformers, lapisan benam dan kepala pengelasan LM), jadi pengoptimum tertib sifar akan mengira 26 hantaran hadapan setiap kali ia mengira kecerunan model. Untuk membandingkan secara adil ZO-SGD dan ZO-SGD-Block, penulis juga membandingkan prestasi varian ZO-SGD yang lain, yang melakukan gangguan parameter pada model lengkap setiap kali dan menganggarkan kecerunan selepas beberapa gangguan Hitung purata (. contohnya, 26 kali untuk OPT-1.3B) untuk memastikan bilangan perambatan ke hadapan semasa perbandingan adalah sama. Keputusan percubaan pada OPT-1.3B menunjukkan bahawa ZO-SGD-Block dengan ketara mengatasi dua ZO-SGD.

Penalaan halus ZO dan FO HibridBackpropagation (BP) mengira kecerunan berat dari rangkaian neural dalam ke cetek dalam urutan. Memandangkan pengoptimum tertib sifar mempunyai kelebihan yang jauh lebih besar dalam penggunaan memori berbanding pengoptimum tertib pertama tradisional, prestasi pengoptimum tertib pertama selalunya lebih baik. Oleh itu, menggunakan gabungan pengoptimum tertib sifar dan urutan pertama akan mencapai pertukaran antara penggunaan memori dan prestasi. Khususnya, untuk rangkaian yang lebih dalam, pengoptimum tertib pertama boleh digunakan untuk mengira kecerunan dengan tepat melalui perambatan belakang, untuk rangkaian cetek, pengoptimum tertib sifar boleh digunakan untuk anggaran kecerunan. Keputusan percubaan menunjukkan bahawa menggunakan pengoptimum tertib sifar di bahagian cetek (seperti 8/24 lapisan pertama OPT-1.3B) dan menggunakan pengoptimum tertib pertama di bahagian dalam yang selebihnya boleh menjimatkan kira-kira satu pertiga daripada video memori Pada masa yang sama, tahap prestasi yang sama seperti menggunakan pengoptimum tertib pertama sepenuhnya dicapai.

Pengoptimum tertib sifar menggunakan kecerunan jarang (ZO dengan pemangkasan kecerunan)Dalam pengoptimum tertib pertama, pemangkasan kecerunan biasanya digunakan untuk mempercepatkan proses latihan manakala dalam pengoptimum tertib sifar, kecerunan jarang yang diperkenalkan melalui pemangkasan kecerunan boleh seterusnya Mengurangkan varians anggaran kecerunan, dengan itu meningkatkan prestasi. Kertas kerja ini mengkaji aplikasi strategi pemangkasan berasaskan amplitud dalam pengoptimum tertib sifar untuk mendapatkan kadar kecerunan setiap lapisan, dan kemudian menjana topeng kecerunan jarang rawak (topeng) berdasarkan kadar kecerunan ini, dan menggunakannya pada anggaran kecerunan stokastik. Gangguan pada. Keputusan eksperimen menunjukkan bahawa kecerunan sederhana (kira-kira 20%) boleh membawa tahap peningkatan prestasi tertentu kepada pengoptimum tertib sifar.

Kesimpulan

Dalam kertas kerja ini, kami menunjukkan penggunaan berkesan pengoptimum tertib sifar dalam memperhalusi model bahasa besar. Dengan menggunakan perbezaan kehilangan untuk menganggarkan kecerunan, kaedah pengoptimuman tertib sifar mengelakkan keperluan untuk perambatan belakang dan penyimpanan pengaktifan, dengan sangat menjimatkan sumber memori. Dengan mengembangkan skop penyelidikan sedia ada, kami memasukkan kaedah pengoptimuman tertib sifar yang berbeza, jenis tugas dan penunjuk penilaian ke dalam penilaian ini, dan menjalankan kajian penanda aras sistematik pertama bagi teknologi pengoptimuman pesanan sifar. Kajian kami bukan sahaja mendedahkan prestasi kaedah ini dari segi ketepatan dan kecekapan, tetapi juga memberikan pandangan tentang peranan penting penjajaran tugas dan kecerunan ke hadapan. Dengan menggunakan analisis percubaan ini, kami mencadangkan teknik seperti pengoptimuman blok, latihan hibrid pesanan sifar dan urutan pertama, dan sparsifikasi kecerunan untuk meningkatkan lagi penalaan halus model besar berdasarkan pengoptimuman pesanan sifar. Penambahbaikan ini direka untuk meningkatkan ketepatan penalaan halus sambil mengekalkan kecekapan memori.

Kami amat percaya bahawa aplikasi penemuan dan teknologi ini boleh mengurangkan keperluan sumber perkakasan untuk penyelidikan model besar, menjadikan penalaan halus model besar mungkin pada GPU rendah, seterusnya mempromosikan penyelidikan akademik dan menghasilkan praktikal dan hasil praktikal dalam industri. Kami menggalakkan penyelidik dan pembangun teknologi untuk memberi perhatian kepada hasil penyelidikan kami dan meneroka lebih banyak kemungkinan menggunakan pengoptimuman ZO. Penyelidikan masa depan akan terus meneroka isu mendalam dalam bidang ini untuk membuka lebih banyak potensi dalam penalaan halus LLM.

Untuk maklumat lanjut, sila rujuk kertas dan repositori GitHub untuk mendapatkan maklumat dan sumber lanjut.

^Rujukan:
^{[1] Liu, et al,. 2020): 43-54.}
^{[2] Malladi, et al., "Model Bahasa Penalaan Halus dengan Hantaran Hadapan Sahaja." 2023 al. al., "A Primer on Zeroth-Order Optimization dalam Pemprosesan Isyarat dan Pembelajaran Mesin." untuk Pengaturcaraan Stochastic Nonconvex."}
^{[5] Liu, et al., "tandatangani SGD melalui Zeroth-Order Oracle." ICLR' 2019.}
^{. ", et al. Kaedah Zeroth -Pesanan dan Momentum Pesanan Pertama daripada Pengoptimuman Mini kepada Minimax." , et al., "ZO-AdaMM: Kaedah Momentum Adaptif Zeroth-Order untuk Pengoptimuman Kotak Hitam."}
^{[9] Baydin, et al., "Kecerunan tanpa Rambatan Balik."}

Atas ialah kandungan terperinci Kertas penskoran tinggi ICML 2024 |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

4 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1670

Tutorial CakePHP

1428

Tutorial Laravel

1329

Tutorial PHP

1276

Tutorial C#

1256

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

See all articles