Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf-AI-php.cn

Jadual Kandungan

Rumah

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

王林

Apr 09, 2023 pm 03:41 PM

ai Model

Pembelajaran mendalam telah dapat mencapai pencapaian tersebut berkat keupayaannya untuk menyelesaikan masalah pengoptimuman bukan cembung berskala besar dengan relatif mudah. Walaupun pengoptimuman bukan cembung adalah NP-keras, beberapa algoritma mudah, biasanya varian keturunan kecerunan stokastik (SGD), telah menunjukkan keberkesanan yang mengejutkan dalam memasang rangkaian saraf yang besar.

Dalam artikel ini, beberapa sarjana dari University of Washington menulis artikel "Git Re-Basin: Merging Models Modulo Permutation Symmetries" Mereka mengkaji algoritma SGD dalam bukan dimensi tinggi. pengoptimuman cembung dalam pembelajaran mendalam Keberkesanan yang tidak munasabah pada isu ini. Mereka diilhamkan oleh tiga soalan:

1 Mengapakah SGD berprestasi baik dalam pengoptimuman landskap kehilangan pembelajaran mendalam bukan cembung berdimensi tinggi, manakala dalam tetapan pengoptimuman bukan cembung yang lain, seperti pembelajaran dasar, Kekukuhan pengoptimuman trajektori dan sistem pengesyoran dikurangkan dengan ketara?

Di manakah minima tempatan? Mengapa kehilangan berkurangan dengan lancar dan monoton apabila interpolasi secara linear antara pemberat permulaan dan pemberat latihan akhir?

3 Mengapakah dua model yang dilatih secara bebas dengan pemulaan rawak dan susunan batching data yang berbeza mencapai prestasi yang hampir sama? Di samping itu, mengapa keluk kehilangan latihan mereka kelihatan sama pdf

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Artikel ini percaya bahawa terdapat beberapa invarian dalam latihan model, supaya latihan yang berbeza akan menunjukkan hampir sama prestasi.

Kenapa ni? Pada tahun 2019, Brea et al mendapati bahawa unit tersembunyi dalam rangkaian saraf mempunyai simetri susunan. Ringkasnya: kita boleh menukar mana-mana dua unit dalam lapisan tersembunyi rangkaian, dan fungsi rangkaian akan kekal sama. Entezari et al. 2021 membuat spekulasi bahawa simetri pilih atur ini mungkin membolehkan kami menyambungkan titik dalam ruang berat secara linear tanpa menjejaskan kerugian.

Di bawah ini kami menggunakan contoh daripada salah seorang pengarang kertas kerja untuk menggambarkan tujuan utama artikel tersebut, supaya semua orang akan mengetahui dengan lebih jelas.

Andaikata anda melatih model A dan rakan anda melatih model B, data latihan kedua-dua model itu mungkin berbeza. Tidak mengapa, menggunakan Git Re-Basin yang dicadangkan dalam artikel ini, anda boleh menggabungkan dua model A+B dalam ruang berat tanpa merosakkan kehilangan.

Pengarang kertas menyatakan bahawa Git Re-Basin boleh digunakan pada mana-mana rangkaian saraf (NN), dan mereka menunjukkannya buat kali pertama Sambungan linear penghalang sifar boleh dilakukan antara dua model terlatih secara bebas (tanpa pra-latihan) (ResNets).

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf Mereka mendapati bahawa keupayaan penggabungan adalah hak milik latihan SGD, penggabungan tidak berfungsi pada permulaan, tetapi perubahan fasa berlaku, jadi penggabungan akan menjadi mungkin dari semasa ke semasa.

Mereka juga mendapati bahawa lebar model berkait rapat dengan kebolehcantuman, iaitu lebih luas adalah lebih baik.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Selain itu, tidak semua seni bina boleh digabungkan: VGG nampaknya lebih sukar untuk digabungkan berbanding ResNets.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf Kaedah penggabungan ini mempunyai kelebihan lain, anda boleh melatih model pada set data bercabang dan berat sebelah dan kemudian menggabungkannya bersama-sama dalam ruang pemberat. Sebagai contoh, anda mempunyai beberapa data di AS dan beberapa di EU. Atas sebab tertentu data tidak boleh dicampur. Anda boleh melatih model yang berasingan terlebih dahulu, kemudian menggabungkan pemberat, dan akhirnya membuat generalisasi kepada set data yang digabungkan.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Oleh itu, model terlatih boleh dicampur tanpa memerlukan pra-latihan atau penalaan halus. Penulis menyatakan bahawa dia berminat untuk mengetahui arah pembangunan masa depan sambungan mod linear dan tampalan model, yang mungkin digunakan untuk bidang seperti pembelajaran bersekutu, latihan teragih dan pengoptimuman pembelajaran mendalam.

Akhir sekali, disebutkan bahawa algoritma pemadanan berat dalam Bab 3.2 hanya mengambil masa kira-kira 10 saat untuk dijalankan, jadi ia menjimatkan banyak masa. Bab 3 kertas kerja juga memperkenalkan tiga kaedah untuk memadankan unit model A dan model B Rakan yang tidak jelas tentang algoritma pemadanan boleh menyemak kertas asal.

Komen netizen dan soalan pengarang

Kertas kerja ini mencetuskan perbincangan hangat di Twitter, Soumith Chintala, pengasas bersama PyTorch, berkata jika penyelidikan ini boleh dipindahkan ke lagi Lebih besar tetapan, lebih baik arah yang boleh diambil. Menggabungkan dua model (termasuk pemberat) boleh mengembangkan pembangunan model ML dan mungkin memainkan peranan besar dalam pembangunan bersama model sumber terbuka.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Orang lain percaya bahawa jika invarian pilih atur boleh menangkap kebanyakan kesetaraan dengan begitu cekap, ia akan memberikan inspirasi untuk penyelidikan teori mengenai rangkaian saraf.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Samuel Ainsworth, pengarang pertama kertas kerja dan Ph.D dari Universiti Washington, turut menjawab beberapa soalan yang dibangkitkan oleh netizen.

Pertama sekali seseorang bertanya, "Adakah terdapat sebarang petua dalam kertas kerja tentang menyasarkan lembangan unik dalam latihan? Jika terdapat cara untuk mengabstrak pilih atur, latihan mungkin lebih pantas. "

Ainsworth menjawab bahawa dia tidak memikirkan perkara ini. Dia benar-benar berharap untuk dapat berlatih lebih cepat entah bagaimana, tetapi setakat ini ia terbukti sangat sukar. Masalahnya ialah SGD pada asasnya adalah carian tempatan, jadi tidak semudah itu untuk mengeksploitasi geometri peringkat tinggi. Mungkin latihan yang diedarkan adalah cara untuk pergi.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Ada juga yang bertanya sama ada ia boleh digunakan untuk RNN dan Transformers? Ainsworth berkata ia berfungsi pada dasarnya, tetapi dia belum mencubanya lagi. Masa akan menentukan.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Akhirnya seseorang mencadangkan, "Ini nampaknya sangat penting untuk latihan yang diedarkan untuk "menjadi kenyataan"? Mungkinkah adakah DDPM ( Denoising diffusion probability model) tidak menggunakan blok sisa ResNet 》

Ainsworth menjawab bahawa walaupun dia tidak begitu biasa dengan DDPM, dia secara terus terang menyatakan bahawa ia akan digunakan? untuk Latihan yang diedarkan akan menjadi sangat menarik.

Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf

Atas ialah kandungan terperinci Menggabungkan dua model dengan sifar halangan, sambungan linear model ResNet yang besar mengambil masa hanya beberapa saat, memberi inspirasi kepada penyelidikan baharu pada rangkaian saraf. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7696

Tutorial Java

1640

Tutorial CakePHP

1393

Tutorial Laravel

1287

Tutorial PHP

1229

Tunjukkan Lagi

Related knowledge

Platform Perdagangan Web3 Ranking_Web3 Global Exchanges Top Ten Ringkasan Apr 21, 2025 am 10:45 AM

Binance adalah tuan rumah ekosistem perdagangan aset digital global, dan ciri -cirinya termasuk: 1. Jumlah dagangan harian purata melebihi $ 150 bilion, menyokong 500 pasangan perdagangan, yang meliputi 98% mata wang arus perdana; 2. Matriks inovasi meliputi pasaran Derivatif, susun atur Web3 dan sistem pendidikan; 3. Kelebihan teknikal adalah enjin yang sepadan dengan milisaat, dengan jumlah pemprosesan puncak sebanyak 1.4 juta transaksi sesaat; 4. Kemajuan pematuhan memegang lesen 15 negara dan menetapkan entiti yang mematuhi di Eropah dan Amerika Syarikat.

Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD) menonjol dalam pasaran cryptocurrency dengan mekanisme pengesahan biometrik dan perlindungan privasi yang unik, menarik perhatian banyak pelabur. WLD telah melakukan yang luar biasa di kalangan altcoin dengan teknologi inovatifnya, terutamanya dalam kombinasi dengan teknologi kecerdasan buatan terbuka. Tetapi bagaimanakah aset digital akan berkelakuan dalam beberapa tahun akan datang? Mari kita meramalkan harga masa depan WLD bersama -sama. Ramalan harga WLD 2025 dijangka mencapai pertumbuhan yang signifikan di WLD pada tahun 2025. Analisis pasaran menunjukkan bahawa harga WLD purata boleh mencapai $ 1.31, dengan maksimum $ 1.36. Walau bagaimanapun, dalam pasaran beruang, harga mungkin jatuh ke sekitar $ 0.55. Harapan pertumbuhan ini disebabkan terutamanya oleh WorldCoin2.

Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Apr 21, 2025 pm 11:24 PM

Platform yang mempunyai prestasi cemerlang dalam perdagangan, keselamatan dan pengalaman pengguna yang dimanfaatkan pada tahun 2025 adalah: 1. Okx, sesuai untuk peniaga frekuensi tinggi, menyediakan sehingga 100 kali leverage; 2. Binance, sesuai untuk peniaga berbilang mata wang di seluruh dunia, memberikan 125 kali leverage tinggi; 3. Gate.io, sesuai untuk pemain derivatif profesional, menyediakan 100 kali leverage; 4. Bitget, sesuai untuk orang baru dan peniaga sosial, menyediakan sehingga 100 kali leverage; 5. Kraken, sesuai untuk pelabur mantap, menyediakan 5 kali leverage; 6. Bybit, sesuai untuk penjelajah altcoin, menyediakan 20 kali leverage; 7. Kucoin, sesuai untuk peniaga kos rendah, menyediakan 10 kali leverage; 8. Bitfinex, sesuai untuk bermain senior

Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apr 21, 2025 pm 11:39 PM

Pertukaran yang menyokong urus niaga rantaian: 1. Binance, 2. Uniswap, 3 Sushiswap, 4. Kewangan Curve, 5. Thorchain, 6. 1 inci Pertukaran, 7.

'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency Apr 21, 2025 pm 02:48 PM

Jatuh di pasaran cryptocurrency telah menyebabkan panik di kalangan pelabur, dan Dogecoin (Doge) telah menjadi salah satu kawasan terkena paling sukar. Harganya jatuh dengan ketara, dan jumlah nilai kunci kewangan yang terdesentralisasi (DEFI) (TVL) juga menyaksikan penurunan yang ketara. Gelombang jualan "Black Monday" menyapu pasaran cryptocurrency, dan Dogecoin adalah yang pertama dipukul. Defitvlnya jatuh ke tahap 2023, dan harga mata wang jatuh 23.78% pada bulan lalu. Defitvl Dogecoin jatuh ke tahap rendah $ 2.72 juta, terutamanya disebabkan oleh penurunan 26.37% dalam indeks nilai SOSO. Platform defi utama lain, seperti DAO dan Thorchain yang membosankan, TVL juga menurun sebanyak 24.04% dan 20.

Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Apr 21, 2025 am 08:57 AM

Faktor kenaikan harga mata wang maya termasuk: 1. Peningkatan permintaan pasaran, 2. Menurunkan bekalan, 3. Berita positif yang dirangsang, 4. Sentimen pasaran optimis, 5. Persekitaran makroekonomi; Faktor penurunan termasuk: 1. Mengurangkan permintaan pasaran, 2. Peningkatan bekalan, 3.

Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Apr 21, 2025 pm 01:03 PM

Dalam dunia kriptografi yang ramai, peluang baru selalu muncul. Pada masa ini, aktiviti udara Kerneldao (kernel) menarik banyak perhatian dan menarik perhatian banyak pelabur. Jadi, apakah asalnya projek ini? Apakah faedah yang boleh diperoleh oleh pemegang BNB? Jangan risau, perkara berikut akan mendedahkannya satu demi satu untuk anda.

Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Apr 21, 2025 pm 06:24 PM

Aavenomics adalah cadangan untuk mengubah token protokol AAVE dan memperkenalkan repos token, yang telah melaksanakan kuorum untuk Aavedao. Marc Zeller, pengasas Rantaian Projek AAVE (ACI), mengumumkan ini pada X, dengan menyatakan bahawa ia menandakan era baru untuk perjanjian itu. Marc Zeller, pengasas Inisiatif Rantaian AAVE (ACI), mengumumkan pada X bahawa cadangan aavenomik termasuk mengubah token protokol AAVE dan memperkenalkan repos token, telah mencapai kuorum untuk Aavedao. Menurut Zeller, ini menandakan era baru untuk perjanjian itu. Ahli -ahli Aavedao mengundi untuk menyokong cadangan itu, yang 100 seminggu pada hari Rabu

See all articles