


Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf
Pembelajaran mendalam telah dapat mencapai pencapaian tersebut berkat keupayaannya untuk menyelesaikan masalah pengoptimuman bukan cembung berskala besar dengan relatif mudah. Walaupun pengoptimuman bukan cembung adalah NP-keras, beberapa algoritma mudah, biasanya varian keturunan kecerunan stokastik (SGD), telah menunjukkan keberkesanan yang mengejutkan dalam memasang rangkaian saraf yang besar.
Dalam artikel ini, beberapa sarjana dari University of Washington menulis artikel "Git Re-Basin: Merging Models Modulo Permutation Symmetries" Mereka mengkaji algoritma SGD dalam bukan dimensi tinggi. pengoptimuman cembung dalam pembelajaran mendalam Keberkesanan yang tidak munasabah pada isu ini. Mereka diilhamkan oleh tiga soalan:
1 Mengapakah SGD berprestasi baik dalam pengoptimuman landskap kehilangan pembelajaran mendalam bukan cembung berdimensi tinggi, manakala dalam tetapan pengoptimuman bukan cembung yang lain, seperti pembelajaran dasar, Kekukuhan pengoptimuman trajektori dan sistem pengesyoran dikurangkan dengan ketara?
Di manakah minima tempatan? Mengapa kehilangan berkurangan dengan lancar dan monoton apabila interpolasi secara linear antara pemberat permulaan dan pemberat latihan akhir?
3 Mengapakah dua model yang dilatih secara bebas dengan pemulaan rawak dan susunan batching data yang berbeza mencapai prestasi yang hampir sama? Di samping itu, mengapa keluk kehilangan latihan mereka kelihatan sama pdf
Kenapa ni? Pada tahun 2019, Brea et al mendapati bahawa unit tersembunyi dalam rangkaian saraf mempunyai simetri susunan. Ringkasnya: kita boleh menukar mana-mana dua unit dalam lapisan tersembunyi rangkaian, dan fungsi rangkaian akan kekal sama. Entezari et al. 2021 membuat spekulasi bahawa simetri pilih atur ini mungkin membolehkan kami menyambungkan titik dalam ruang berat secara linear tanpa menjejaskan kerugian.
Di bawah ini kami menggunakan contoh daripada salah seorang pengarang kertas kerja untuk menggambarkan tujuan utama artikel tersebut, supaya semua orang akan mengetahui dengan lebih jelas.
Andaikata anda melatih model A dan rakan anda melatih model B, data latihan kedua-dua model itu mungkin berbeza. Tidak mengapa, menggunakan Git Re-Basin yang dicadangkan dalam artikel ini, anda boleh menggabungkan dua model A+B dalam ruang berat tanpa merosakkan kehilangan.
Pengarang kertas menyatakan bahawa Git Re-Basin boleh digunakan pada mana-mana rangkaian saraf (NN), dan mereka menunjukkannya buat kali pertama Sambungan linear penghalang sifar boleh dilakukan antara dua model terlatih secara bebas (tanpa pra-latihan) (ResNets).
Mereka mendapati bahawa keupayaan penggabungan adalah hak milik latihan SGD, penggabungan tidak berfungsi pada permulaan, tetapi perubahan fasa berlaku, jadi penggabungan akan menjadi mungkin dari semasa ke semasa.
Mereka juga mendapati bahawa lebar model berkait rapat dengan kebolehcantuman, iaitu lebih luas adalah lebih baik.
Selain itu, tidak semua seni bina boleh digabungkan: VGG nampaknya lebih sukar untuk digabungkan berbanding ResNets.
Kaedah penggabungan ini mempunyai kelebihan lain, anda boleh melatih model pada set data bercabang dan berat sebelah dan kemudian menggabungkannya bersama-sama dalam ruang pemberat. Sebagai contoh, anda mempunyai beberapa data di AS dan beberapa di EU. Atas sebab tertentu data tidak boleh dicampur. Anda boleh melatih model yang berasingan terlebih dahulu, kemudian menggabungkan pemberat, dan akhirnya membuat generalisasi kepada set data yang digabungkan.
Oleh itu, model terlatih boleh dicampur tanpa memerlukan pra-latihan atau penalaan halus. Penulis menyatakan bahawa dia berminat untuk mengetahui arah pembangunan masa depan sambungan mod linear dan tampalan model, yang mungkin digunakan untuk bidang seperti pembelajaran bersekutu, latihan teragih dan pengoptimuman pembelajaran mendalam.
Akhir sekali, disebutkan bahawa algoritma pemadanan berat dalam Bab 3.2 hanya mengambil masa kira-kira 10 saat untuk dijalankan, jadi ia menjimatkan banyak masa. Bab 3 kertas kerja juga memperkenalkan tiga kaedah untuk memadankan unit model A dan model B Rakan yang tidak jelas tentang algoritma pemadanan boleh menyemak kertas asal.
Komen netizen dan soalan pengarang
Kertas kerja ini mencetuskan perbincangan hangat di Twitter, Soumith Chintala, pengasas bersama PyTorch, berkata jika penyelidikan ini boleh dipindahkan ke lagi Lebih besar tetapan, lebih baik arah yang boleh diambil. Menggabungkan dua model (termasuk pemberat) boleh mengembangkan pembangunan model ML dan mungkin memainkan peranan besar dalam pembangunan bersama model sumber terbuka.
Orang lain percaya bahawa jika invarian pilih atur boleh menangkap kebanyakan kesetaraan dengan begitu cekap, ia akan memberikan inspirasi untuk penyelidikan teori mengenai rangkaian saraf.
Samuel Ainsworth, pengarang pertama kertas kerja dan Ph.D dari Universiti Washington, turut menjawab beberapa soalan yang dibangkitkan oleh netizen.
Pertama sekali seseorang bertanya, "Adakah terdapat sebarang petua dalam kertas kerja tentang menyasarkan lembangan unik dalam latihan? Jika terdapat cara untuk mengabstrak pilih atur, latihan mungkin lebih pantas. "
Ainsworth menjawab bahawa dia tidak memikirkan perkara ini. Dia benar-benar berharap untuk dapat berlatih lebih cepat entah bagaimana, tetapi setakat ini ia terbukti sangat sukar. Masalahnya ialah SGD pada asasnya adalah carian tempatan, jadi tidak semudah itu untuk mengeksploitasi geometri peringkat tinggi. Mungkin latihan yang diedarkan adalah cara untuk pergi.
Ada juga yang bertanya sama ada ia boleh digunakan untuk RNN dan Transformers? Ainsworth berkata ia berfungsi pada dasarnya, tetapi dia belum mencubanya lagi. Masa akan menentukan.
Akhirnya seseorang mencadangkan, "Ini nampaknya sangat penting untuk latihan yang diedarkan untuk "menjadi kenyataan"? Mungkinkah adakah DDPM ( Denoising diffusion probability model) tidak menggunakan blok sisa ResNet 》
Ainsworth menjawab bahawa walaupun dia tidak begitu biasa dengan DDPM, dia secara terus terang menyatakan bahawa ia akan digunakan? untuk Latihan yang diedarkan akan menjadi sangat menarik.
Atas ialah kandungan terperinci Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

GO Pointer Syntax dan menangani masalah dalam penggunaan perpustakaan Viper semasa pengaturcaraan dalam bahasa Go, adalah penting untuk memahami sintaks dan penggunaan petunjuk, terutama dalam ...

Mengapa lelaran peta di GO menyebabkan semua nilai menjadi elemen terakhir? Dalam bahasa Go, ketika berhadapan dengan beberapa soalan wawancara, anda sering menemui peta ...

Tidak ada XML percuma yang mudah dan langsung ke alat PDF di mudah alih. Proses visualisasi data yang diperlukan melibatkan pemahaman dan rendering data yang kompleks, dan kebanyakan alat yang dipanggil "percuma" di pasaran mempunyai pengalaman yang buruk. Adalah disyorkan untuk menggunakan alat sampingan komputer atau menggunakan perkhidmatan awan, atau membangunkan aplikasi sendiri untuk mendapatkan kesan penukaran yang lebih dipercayai.

Dalam pembangunan bahasa Go, dengan betul memperkenalkan pakej tersuai adalah langkah penting. Artikel ini akan menyasarkan "Golang ...

Pengindahan XML pada dasarnya meningkatkan kebolehbacaannya, termasuk lekukan yang munasabah, rehat garis dan organisasi tag. Prinsipnya adalah untuk melintasi pokok XML, tambah lekukan mengikut tahap, dan mengendalikan tag dan tag kosong yang mengandungi teks. Perpustakaan XML.Etree.ElementTree Python menyediakan fungsi Pretty_XML yang mudah yang dapat melaksanakan proses pengindahan di atas.

Mengapa menggunakan kunci menyebabkan panik sekali -sekala? Mari kita lihat soalan yang menarik: mengapa pergi, walaupun kunci ditambah dalam kod, kadang -kadang ...

Pengesahan format XML melibatkan memeriksa struktur dan pematuhannya dengan DTD atau skema. Parser XML diperlukan, seperti ElementTree (pemeriksaan sintaks asas) atau LXML (pengesahan yang lebih kuat, sokongan XSD). Proses pengesahan melibatkan parsing fail XML, memuatkan skema XSD, dan melaksanakan kaedah AssertValid untuk membuang pengecualian apabila ralat dikesan. Mengesahkan format XML juga memerlukan pengendalian pelbagai pengecualian dan mendapat gambaran mengenai bahasa skema XSD.

Arus char menyimpan urutan watak dalam bahasa C dan diisytiharkan sebagai array_name char [saiz]. Unsur akses diluluskan melalui pengendali subskrip, dan elemen berakhir dengan terminator null '\ 0', yang mewakili titik akhir rentetan. Bahasa C menyediakan pelbagai fungsi manipulasi rentetan, seperti strlen (), strcpy (), strcat () dan strcmp ().
