Kertas penskoran tinggi ICML 2024 |

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Mengenai pengarang bersama pertama artikel ini: Zhang Yihua: pelajar kedoktoran tahun ketiga di Jabatan Sains Komputer di Michigan State University, sedang belajar di bawah Profesor Sijia Liu, hala tuju penyelidikan utamanya ialah isu keselamatan, privasi dan kecekapan model besar. Li Pingzhi: Beliau lulus dari Universiti Sains dan Teknologi China dengan ijazah sarjana muda Beliau akan memasuki Universiti North Carolina di Chapel Hill sebagai Ph.D pada 2024 Fall, belajar di bawah kepentingan penyelidikan utama beliau fokus pada bidang pembelajaran mesin yang cekap dan AI4Science. Hong Junyuan: Felo pasca doktoral di Universiti Texas di Austin, dibimbing oleh Profesor Zhangyang Wang. Lulus dari Michigan State University dengan Ph.D di bawah bimbingan Profesor Jiayu Zhou hala tuju penyelidikan utama beliau adalah model bahasa besar yang boleh dipercayai dan aplikasi perubatan kecerdasan buatan. Li Jiaxiang: Felo pasca doktoral di Universiti Minnesota, sedang menjalankan penyelidikan tentang teori pengoptimuman berangka, teori pembelajaran mesin dan masalah pengoptimuman pembelajaran mesin berskala besar di bawah bimbingan Profesor Hong Mingyi dan Profesor Zhang Shuzhong.
Alamat kertas: https://arxiv.org/abs/2402.11592 Alamat kod: https://github.com/ - /ZO-LL Alamat nota kuliah pengoptimuman pesanan sifar (Tutorial AAAI 2024): https://sites.google.com/view/zo-tutorial-aaai-2024/
- ZO-SGD-Cons: Susunan kecerunan stokastik tertib sifar dengan kemas kini kecerunan konservatif [7]
Pengoptimum Adam tertib sifar [8] - Kajian ini juga termasuk kaedah Hadapan-Grad [9], yang anggaran kecerunan tidak berat sebelah adalah berdasarkan terbitan arah sepanjang vektor arah rawak. Perlu diingat bahawa walaupun Forward-Grad tidak secara langsung menggunakan perambatan belakang kecerunan, ia masih menggunakan algoritma pembezaan automatik, jadi ia adalah algoritma tanpa BP pesanan pertama.
Ringkasnya, penilaian artikel ini merangkumi lima pengoptimum tertib sifar di atas dan kaedah Forward-Grad, sambil membandingkan pengoptimum tertib pertama yang paling biasa digunakan, FO-SGD dan FO-Adam. Dari segi bentuk penalaan halus khusus, penilaian secara menyeluruh meliputi 5 seni bina LLM (RoBERTa, OPT, LLaMA, Vicuna, Mistral), 3 tugasan yang berbeza kerumitan (SST2, COPA, WinoGrande) dan 4 penyelesaian penalaan halus (penuh- penalaan , LoRA, penalaan segera, penalaan awalan).
ZO-SGD-Cons dan ZO-SGD-MMT juga menunjukkan prestasi yang kukuh, manakala ZO-SGD-Sign, sebagai pengoptimum pesanan sifar yang paling mudah, selalunya merupakan kaedah yang paling lemah.
- Selanjutnya, kajian menggunakan model OPT-13B yang lebih besar untuk menjalankan eksperimen ke atas tugas yang lebih kompleks dan sukar (COPA dan WinoGrande) dan mencapai kesimpulan berikut:
perbezaan prestasi antara pengoptimum yang berbeza diperkuatkan lagi.
- Penalaan halus LoRA sentiasa menunjukkan keteguhan yang kukuh kepada algoritma tertib sifar, dan stabil serta boleh dipercayai dalam pelbagai persekitaran eksperimen.
-
Penilaian dan penjelasan terperinci mengenai overhed memori penalaan halus model besar Mengambil penalaan halus model OPT-13B pada set data MultiRC sebagai contoh, penulis membandingkan dan menganalisis memori dan masa dengan lebih lanjut kos pengoptimum pesanan sifar dan urutan pertama yang berbeza. Seperti yang ditunjukkan dalam jadual berikut: Pertama, dari perspektif kecekapan memori, ZO-SGD, ZO-SGD-Cons dan ZO-SGD-Sign menunjukkan kecekapan memori tinggi yang serupa, hanya memerlukan satu GPU A100 untuk penalaan halus model bahasa besar . Ini tidak menghairankan, kerana pengoptimum tertib sifar ini menggunakan langkah pengoptimuman yang agak mudah, bergantung terutamanya pada penggunaan penganggar kecerunan tertib sifar RGE. Kedua, Forward-Grad nampaknya merupakan titik permulaan di mana kaedah pengoptimuman tertib sifar mengatasi kaedah tertib pertama dari segi kecekapan ingatan (mis. berbanding ZO-Adam). Akhir sekali, berbanding dengan kaedah pesanan pertama, kos masa berjalan bagi setiap lelaran pengoptimuman pesanan sifar dikurangkan sebanyak kira-kira 41.9% (mengambil ZO-SGD lwn. FO-SGD sebagai contoh). Pengarang membandingkan lagi kecekapan ingatan ZO-SGD dan FO-SGD di bawah panjang jujukan yang berbeza. Ia boleh dilihat bahawa penggunaan memori ZO-SGD kekal konsisten kerana penggunaan memori puncaknya hanya ditentukan oleh saiz parameter model Sebaliknya, apabila panjang jujukan meningkat, penggunaan memori puncak FO-SGD mula-mula kekal tidak berubah dan kemudian. mula meningkat. Oleh itu, dalam penetapan panjang konteks yang panjang, ZO-SGD akan mempamerkan kelebihan kecekapan ingatan yang lebih baik. Untuk nilai teoretikal ingatan dan nilai eksperimen tertentu, sila rujuk kertas asal. Tiga algoritma yang dipertingkatkan untuk meningkatkan pengoptimum tertib sifar Pengoptimum tertib sifar mempunyai kecekapan penumpuan terhad apabila digunakan pada LLM, terutamanya kerana varians anggaran yang besar dalam kecerunan. Untuk meningkatkan lagi pengoptimuman tertib sifar, penulis mencadangkan tiga algoritma lanjutan dari perspektif mengurangkan varians anggaran kecerunan, termasuk: penalaan halus ZO dari segi blok, penalaan halus hibrid tertib sifar dan urutan pertama ( penalaan halus ZO dan FO hibrid), anggaran kecerunan tertib sifar yang memperkenalkan kezatan (anggaran kecerunan ZO yang disebabkan oleh kezatan). Penalaan halus ZO dari segi blokTitik permulaan utama kaedah ini ialah jika pengoptimum tertib sifar mengganggu blok parameter dalam LLM secara berasingan apabila menganggarkan kecerunan, dengan mengurangkan Saiz masalah digunakan untuk mengambil kira varians setiap anggaran kecerunan, dengan itu meningkatkan prestasi pengoptimuman. Kelebihan kaedah ini ialah ia boleh menganggarkan kecerunan model dengan lebih tepat, tetapi bilangan perambatan ke hadapan yang diperlukan untuk melengkapkan anggaran kecerunan akan meningkat. Contohnya, OPT-1.3B boleh dibahagikan kepada 26 blok parameter (24 lapisan Transformers, lapisan benam dan kepala pengelasan LM), jadi pengoptimum tertib sifar akan mengira 26 hantaran hadapan setiap kali ia mengira kecerunan model. Untuk membandingkan secara adil ZO-SGD dan ZO-SGD-Block, penulis juga membandingkan prestasi varian ZO-SGD yang lain, yang melakukan gangguan parameter pada model lengkap setiap kali dan menganggarkan kecerunan selepas beberapa gangguan Hitung purata (. contohnya, 26 kali untuk OPT-1.3B) untuk memastikan bilangan perambatan ke hadapan semasa perbandingan adalah sama. Keputusan percubaan pada OPT-1.3B menunjukkan bahawa ZO-SGD-Block dengan ketara mengatasi dua ZO-SGD. Penalaan halus ZO dan FO HibridBackpropagation (BP) mengira kecerunan berat dari rangkaian neural dalam ke cetek dalam urutan. Memandangkan pengoptimum tertib sifar mempunyai kelebihan yang jauh lebih besar dalam penggunaan memori berbanding pengoptimum tertib pertama tradisional, prestasi pengoptimum tertib pertama selalunya lebih baik. Oleh itu, menggunakan gabungan pengoptimum tertib sifar dan urutan pertama akan mencapai pertukaran antara penggunaan memori dan prestasi. Khususnya, untuk rangkaian yang lebih dalam, pengoptimum tertib pertama boleh digunakan untuk mengira kecerunan dengan tepat melalui perambatan belakang, untuk rangkaian cetek, pengoptimum tertib sifar boleh digunakan untuk anggaran kecerunan. Keputusan percubaan menunjukkan bahawa menggunakan pengoptimum tertib sifar di bahagian cetek (seperti 8/24 lapisan pertama OPT-1.3B) dan menggunakan pengoptimum tertib pertama di bahagian dalam yang selebihnya boleh menjimatkan kira-kira satu pertiga daripada video memori Pada masa yang sama, tahap prestasi yang sama seperti menggunakan pengoptimum tertib pertama sepenuhnya dicapai. Pengoptimum tertib sifar menggunakan kecerunan jarang (ZO dengan pemangkasan kecerunan)Dalam pengoptimum tertib pertama, pemangkasan kecerunan biasanya digunakan untuk mempercepatkan proses latihan manakala dalam pengoptimum tertib sifar, kecerunan jarang yang diperkenalkan melalui pemangkasan kecerunan boleh seterusnya Mengurangkan varians anggaran kecerunan, dengan itu meningkatkan prestasi. Kertas kerja ini mengkaji aplikasi strategi pemangkasan berasaskan amplitud dalam pengoptimum tertib sifar untuk mendapatkan kadar kecerunan setiap lapisan, dan kemudian menjana topeng kecerunan jarang rawak (topeng) berdasarkan kadar kecerunan ini, dan menggunakannya pada anggaran kecerunan stokastik. Gangguan pada. Keputusan eksperimen menunjukkan bahawa kecerunan sederhana (kira-kira 20%) boleh membawa tahap peningkatan prestasi tertentu kepada pengoptimum tertib sifar. Kesimpulan Dalam kertas kerja ini, kami menunjukkan penggunaan berkesan pengoptimum tertib sifar dalam memperhalusi model bahasa besar. Dengan menggunakan perbezaan kehilangan untuk menganggarkan kecerunan, kaedah pengoptimuman tertib sifar mengelakkan keperluan untuk perambatan belakang dan penyimpanan pengaktifan, dengan sangat menjimatkan sumber memori. Dengan mengembangkan skop penyelidikan sedia ada, kami memasukkan kaedah pengoptimuman tertib sifar yang berbeza, jenis tugas dan penunjuk penilaian ke dalam penilaian ini, dan menjalankan kajian penanda aras sistematik pertama bagi teknologi pengoptimuman pesanan sifar. Kajian kami bukan sahaja mendedahkan prestasi kaedah ini dari segi ketepatan dan kecekapan, tetapi juga memberikan pandangan tentang peranan penting penjajaran tugas dan kecerunan ke hadapan. Dengan menggunakan analisis percubaan ini, kami mencadangkan teknik seperti pengoptimuman blok, latihan hibrid pesanan sifar dan urutan pertama, dan sparsifikasi kecerunan untuk meningkatkan lagi penalaan halus model besar berdasarkan pengoptimuman pesanan sifar. Penambahbaikan ini direka untuk meningkatkan ketepatan penalaan halus sambil mengekalkan kecekapan memori. Kami amat percaya bahawa aplikasi penemuan dan teknologi ini boleh mengurangkan keperluan sumber perkakasan untuk penyelidikan model besar, menjadikan penalaan halus model besar mungkin pada GPU rendah, seterusnya mempromosikan penyelidikan akademik dan menghasilkan praktikal dan hasil praktikal dalam industri. Kami menggalakkan penyelidik dan pembangun teknologi untuk memberi perhatian kepada hasil penyelidikan kami dan meneroka lebih banyak kemungkinan menggunakan pengoptimuman ZO. Penyelidikan masa depan akan terus meneroka isu mendalam dalam bidang ini untuk membuka lebih banyak potensi dalam penalaan halus LLM. Untuk maklumat lanjut, sila rujuk kertas dan repositori GitHub untuk mendapatkan maklumat dan sumber lanjut. Rujukan: [1] Liu, et al,. 2020): 43-54. [2] Malladi, et al., "Model Bahasa Penalaan Halus dengan Hantaran Hadapan Sahaja." 2023 al. al., "A Primer on Zeroth-Order Optimization dalam Pemprosesan Isyarat dan Pembelajaran Mesin." untuk Pengaturcaraan Stochastic Nonconvex." [5] Liu, et al., "tandatangani SGD melalui Zeroth-Order Oracle." ICLR' 2019. . ", et al. Kaedah Zeroth -Pesanan dan Momentum Pesanan Pertama daripada Pengoptimuman Mini kepada Minimax." , et al., "ZO-AdaMM: Kaedah Momentum Adaptif Zeroth-Order untuk Pengoptimuman Kotak Hitam." [9] Baydin, et al., "Kecerunan tanpa Rambatan Balik."
Atas ialah kandungan terperinci Kertas penskoran tinggi ICML 2024 |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang
