Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang artikel ini semuanya daripada pasukan Profesor Madya Huang Lei, Sekolah Kepintaran Buatan, Universiti Beihang dan Makmal Utama Kebangsaan Perisian Kritikal Kompleks Persekitaran. Pengarang pertama, Ni Yunhao, ialah pelajar siswazah tahun pertama, pengarang kedua, Guo Yuxin, ialah pelajar siswazah tahun ketiga, dan pengarang ketiga, Jia Junlong, ialah pelajar siswazah tahun kedua Pengarang yang sepadan ialah Profesor Madya Huang Lei (Laman utama: https://huangleibuaa.github.io/)
Rangkaian saraf biasanya terdiri daripada tiga Sebahagian terdiri: lapisan linear, lapisan tak linear (fungsi pengaktifan) dan lapisan normalisasi. Lapisan linear ialah lokasi utama di mana parameter rangkaian wujud Lapisan bukan linear meningkatkan keupayaan ekspresif rangkaian saraf, manakala lapisan normalisasi (Normalization) digunakan terutamanya untuk menstabilkan dan mempercepatkan latihan rangkaian saraf kebolehan. Contohnya, dengan Penormalan Kelompok Ia boleh dianggap sebagai transformasi linear dalam peringkat ramalan dan tidak memperkenalkan bukan linear dalam ekspresi. Oleh itu, penyelidik secara amnya percaya bahawa Normalisasi tidak dapat meningkatkan keupayaan ekspresif model. Walau bagaimanapun, kertas kerja "On the Nonlinearity of Layer Normalization" baru-baru ini diterbitkan di ICML2024 oleh pasukan Profesor Huang Lei dari School of Artificial Intelligence of Beihang University menegaskan bahawa normalisasi lapisan (Layer Normlization, LN) dan versi pengiraannya yang terdegradasi RMSNorm ialah keupayaan Ungkapan tak linear, dan keupayaan klasifikasi anggaran universal LN dibincangkan secara terperinci.
- Alamat kertas: https://arxiv.org/abs/2406.01255
Kertas ini membuktikan secara bukan linear kertas ini. Dan rangkaian neural ringkas LN-Net yang mengandungi hanya lapisan linear dan LN dicadangkan Jika ia cukup dalam, secara teori, sampel dan kategori sampel yang diberikan boleh dikelaskan secara sewenang-wenangnya. Penemuan ini memecahkan inersia orang yang menganggap pelbagai Normalisasi sebagai transformasi linear tanpa keupayaan pemasangan, dan lapisan tak linear dan lapisan normalisasi bukan lagi modul rangkaian saraf yang tidak bersambung. Pada masa ini, dengan penggunaan transformer yang meluas, LN, sebagai komponen tetap, telah menjadi teknologi yang biasa digunakan adalah penting. Penemuan matematik bagi ketaklinieran LNUntuk penyelidikan bukan linear, artikel itu tidak membincangkan secara langsung sifat analitikal LN itu sendiri, tetapi menerokai hubungan yang lebih praktikal dan interaksi data antara LN itu sendiri. . Pengarang pertama kali mencadangkan statistik SSR (Nisbah Jumlah Kuasa Dua) untuk menerangkan kebolehpisahan linear sampel di bawah dua kategori. Apabila sampel diubah secara linear, SSR juga berubah. Oleh itu, SSR minimum yang sepadan dengan sampel di bawah semua transformasi linear ditakrifkan sebagai LSSR. Artikel tersebut menunjukkan bahawa apabila LSSR lebih kecil, kebolehpisahan linear antara sampel adalah lebih kuat. Namun, apabila perubahan linear yang dikenakan ke atas sampel digantikan dengan struktur "transformasi linear-LN-transformasi linear", didapati bahawa SSR baharu yang diperolehi mungkin lebih rendah daripada LSSR, yang mengesahkan bukan linear. ungkapan LN— —Jika LN adalah linear, maka "transformasi linear-LN-transformasi linear" juga adalah linear, dan SSR baharu yang terhasil tidak boleh lebih rendah daripada LSSR. Kebolehpisahan sewenang-wenangnya LN dalam masalah klasifikasiUntuk penyelidikan lanjut, penulis membahagikan LN kepada dua langkah: pemusatan dan penskalaan. Pemusatan secara matematik adalah transformasi linear, jadi ketaklinearan LN wujud terutamanya dalam operasi penskalaan skala (juga dipanggil unjuran sfera dalam artikel, iaitu operasi yang dilakukan oleh RMSNorm). Penulis mengambil data XOR tidak boleh dipisahkan secara linear yang paling mudah sebagai contoh, dan mengklasifikasikan empat titik ini dengan betul melalui transformasi linear dan unjuran sfera.
Secara umum, pengarang mencadangkan algoritma untuk mengklasifikasikan sebarang bilangan sampel dengan betul menggunakan LN dan lapisan linear, meneroka keupayaan penghampiran universal LN-Net. Dengan membina langkah algoritma, transformasi lapisan demi lapisan rangkaian saraf ditukar menjadi masalah penggabungan sampel yang serupa, dan masalah pengelasan anggaran universal ditukar kepada masalah penggabungan sampel, dan menunjukkan bahawa - untuk m sampel dengan sebarang label, Adalah mungkin untuk membina lapisan O(m) LN-Net untuk mengklasifikasikan sampel m ini dengan betul. Kaedah pembinaan ini juga menyediakan idea baharu untuk mengira dimensi VC bagi rangkaian saraf. Penulis menegaskan bahawa atas dasar ini, boleh disimpulkan bahawa LN-Net dengan lapisan normalisasi L mempunyai dimensi VC sekurang-kurangnya L+2. . G). Penulis meramalkan secara matematik bahawa pengelompokan boleh mengukuhkan ketaklinieran LN dari perspektif matriks Hessian, dan terlebih dahulu meneroka keupayaan ekspresif LN-G secara eksperimen. Pengarang menunjukkan bahawa pada set data label rawak CIFAR-10, untuk model lapisan linear biasa, ketepatannya tidak melebihi 20% semasa menggunakan rangkaian saraf yang terdiri daripada lapisan linear dan LN-G (tanpa memperkenalkan fungsi Pengaktifan tradisional sebagai unit tak linear) boleh mencapai ketepatan 55.85%. Pengarang meneroka lebih lanjut kesan klasifikasi LN-G dalam rangkaian saraf konvolusi tanpa fungsi pengaktifan, dan secara eksperimen membuktikan bahawa rangkaian saraf tanpa fungsi pengaktifan ini mempunyai keupayaan pemasangan yang kuat. Di samping itu, penulis mencadangkan LN-G-Position dengan analogi dengan MLP di mana GN bertindak pada keseluruhan sampel (meregangkan sampel tunggal ke dalam vektor satu dimensi dan kemudian melakukan GN). Menggunakan kaedah LN-G-Position pada rangkaian ResNet tanpa lapisan tak linear boleh mencapai ketepatan 86.66% pada set data CIFAR-10, yang mencerminkan keupayaan ekspresi berkuasa LN-G-Position.
Pengarang kemudian menjalankan kajian eksperimen mengenai Transformer, menggantikan LN asal dengan LN-G Menurut keputusan eksperimen, didapati bahawa penyeragaman lapisan kumpulan dapat meningkatkan prestasi rangkaian Transformer dengan berkesan, membuktikan bahawa dalam. rangkaian sebenar, kebolehlaksanaan teori ini.
Kesimpulan dan TinjauanDalam makalah "On the Nonlinearity of Layer Normalization", penulis secara teorinya membuktikan buat pertama kalinya keupayaan pengelasan universal model yang mengandungi hanya lapisan linear dan LN yang diberikan kedalaman tertentu Batas bawah model VC Kepentingan yang paling penting di sini ialah analisis keupayaan ekspresif rangkaian saraf dalam tradisional telah mengambil langkah besar ke arah rangkaian sebenar moden yang digunakan secara meluas idea reka bentuk struktur rangkaian saraf. Atas ialah kandungan terperinci Rangkaian saraf mungkin tidak lagi memerlukan fungsi pengaktifan? Normalisasi Lapisan juga mempunyai ungkapan bukan linear!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!