Penormalan sering digunakan untuk menyelesaikan masalah kecerunan yang meletup atau hilang dalam rangkaian saraf. Ia berfungsi dengan memetakan nilai ciri ke dalam julat [0,1] supaya semua nilai berada dalam skala atau pengedaran yang sama. Ringkasnya, normalisasi menormalkan input kepada rangkaian saraf dan meningkatkan kelajuan latihan.
Terdapat terutamanya dua jenis teknik normalisasi, iaitu:
Penormalan Kelompok (Penormalan Kelompok)
keluaran tersembunyi untuk mendapatkan lapisan kami biasanya menggunakan fungsi pengaktifan tak linear untuk memproses input. Dan untuk setiap neuron dalam lapisan tertentu, kita boleh praaktifkannya supaya ia mempunyai min sifar dan sisihan piawai unit. Ini boleh dicapai dengan melakukan penolakan min dan pembahagian sisihan piawai pada kumpulan mini ciri input.
Walau bagaimanapun, memaksa semua pra-pengaktifan kepada sifar dan sisihan piawai unit untuk semua kelompok mungkin terlalu ketat, jadi memperkenalkan taburan turun naik tertentu boleh membantu rangkaian belajar dengan lebih baik.
Untuk menyelesaikan masalah ini, penormalan kelompok memperkenalkan dua parameter: gamma faktor skala (γ) dan beta mengimbangi (β), yang kedua-duanya adalah parameter yang boleh dipelajari.
Dalam penormalan batch, kita perlu memberi perhatian kepada penggunaan statistik kelompok. Apabila saiz kelompok kecil, min sampel dan sisihan piawai tidak mencukupi untuk mewakili taburan sebenar, yang mengakibatkan rangkaian gagal mempelajari sesuatu yang bermakna. Oleh itu, kita perlu memastikan bahawa saiz kelompok cukup besar untuk mendapatkan statistik yang lebih tepat, seterusnya meningkatkan prestasi dan pembelajaran model.
Layer Normalization (Layer Normalization)
Layer Normalization ialah kaedah yang dicadangkan oleh penyelidik Jimmy Lei Ba, Jamie Ryan Kiros, dan Geoffrey E. Hinton. Idea teras kaedah ini adalah untuk mempunyai pengedaran yang sama untuk semua ciri input yang diberikan ke atas semua neuron dalam lapisan tertentu. Berbeza daripada normalisasi kelompok, normalisasi lapisan melakukan operasi normalisasi pada dimensi ciri setiap sampel. Ia menormalkan output lapisan ini dengan mengira min dan varians setiap neuron pada ciri input. Kaedah ini boleh membantu model menyesuaikan diri dengan kumpulan kecil data dan meningkatkan keupayaan generalisasi model. Kelebihan normalisasi lapisan ialah ia tidak bergantung pada kelompok untuk menormalkan semua ciri, tetapi menormalkan setiap input kepada lapisan tertentu, menghapuskan pergantungan pada kelompok. Ini menjadikan normalisasi lapisan sangat sesuai untuk model jujukan seperti Transformer dan Rangkaian Neural Berulang (RNN) yang popular.
Perbezaan utama antara penormalan kelompok dan penormalan lapisan
2 Memandangkan penormalan batch bergantung pada saiz batch, ia tidak berkesan untuk kumpulan kecil. Normalisasi lapisan adalah saiz kelompok bebas, jadi ia boleh digunakan pada saiz kelompok saiz yang lebih kecil juga.
3 Penormalan kelompok memerlukan pemprosesan yang berbeza semasa latihan dan inferens. Memandangkan penormalan lapisan dilakukan sepanjang input panjang lapisan tertentu, set operasi yang sama boleh digunakan pada masa latihan dan inferens.
Atas ialah kandungan terperinci Perbezaan antara normalisasi kelompok dan normalisasi lapisan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!