Apabila kita membincangkan proses pembelajaran ciri rangkaian saraf, salah satu soalan paling asas ialah: Apakah ciri yang akan dipelajari oleh rangkaian saraf daripada data input? Dari perspektif matlamat, pembelajaran ciri rangkaian saraf ialah "produk sampingan" yang didorong oleh tugas, dan tujuannya adalah untuk meminimumkan ralat latihan. Oleh itu, kami secara intuitif berfikir bahawa rangkaian saraf harus mengekstrak ciri "berkaitan tugas" daripada data, manakala ciri "tidak berkaitan tugas" yang selebihnya adalah bersamaan dengan hingar data. Kemudian, kerana rangkaian saraf mempunyai ciri "tidak belajar melainkan perlu" (lebih tepat, bias kesederhanaan), rangkaian saraf harus cenderung untuk tidak mempelajarinya. Ini juga merupakan pandangan biasa dalam kesusasteraan semasa. Walau bagaimanapun, dalam kerja terbaru kami yang diterima oleh ICML 2024, kami mendapati bahawa kognisi intuitif tersebut sebenarnya salah
! Secara khusus, kami mendapati bahawa apabila rangkaian saraf tak linear mempelajari ciri berkaitan tugas, mereka juga cenderung untuk mempelajari ciritugas-tidak berkaitan
(kami memanggilnya "cemaran ciri"), dan kecenderungan ini akan membawa kepada saraf. Sukar untuk rangkaian untuk digeneralisasikan kepada senario dengan anjakan pengedaran. Secara teorinya, kami membuktikan bahawa pencemaran ciri berlaku walaupun dalam rangkaian ReLU dua lapisan yang mudah dan berkait rapat dengan kategori asimetri pengaktifan neuron dalam rangkaian saraf secara eksperimen, kami juga memberikan satu siri bukti bahawa ciri Pencemaran juga wujud secara mendalam rangkaian seperti ResNet dan pengubah Visi, dan akan memberi kesan buruk kepada generalisasi mereka. Perlu dinyatakan bahawa mod kegagalan yang kami temui adalah benar-benar ortogon kepada analisis arus perdana berdasarkan korelasi palsu dalam literatur generalisasi luar pengedaran (OOD) semasa. Oleh itu, dari perspektif yang lebih besar, penemuan kami menunjukkan kepentingan bias induktif rangkaian saraf itu sendiri untuk generalisasi OOD Ia juga menunjukkan bahawa banyak kajian kami mengenai pembelajaran dan generalisasi ciri rangkaian saraf telah Intuisi juga mungkin perlu difikirkan semula. Seterusnya, mari kita perkenalkan kandungan khusus artikel:
Latar belakang penyelidikan
Keupayaan generalisasi dalam senario di mana perubahan pengagihan data (iaitu, keupayaan generalisasi OOD) ialah ukuran sama ada sistem pembelajaran mesin boleh berprestasi dalam realiti Salah satu petunjuk utama penggunaan dalam persekitaran. Walau bagaimanapun, rangkaian saraf semasa sering mengalami kehilangan prestasi yang ketara dalam senario generalisasi OOD. Mengenai sebab mengapa generalisasi OOD gagal, kenyataan yang lebih arus perdana dalam literatur ialah korelasi palsu wujud dalam perwakilan, iaitu, model akan mempelajari ciri-ciri yang berkaitan dengan matlamat tugasan tetapi tidak mempunyai hubungan sebab akibat. Oleh itu, apabila korelasi antara ciri ini dan objektif tugas berubah disebabkan oleh peralihan pengedaran, model yang bergantung pada ciri ini untuk ramalan tidak dapat menjamin prestasi asal.Penjelasan teori di atas agak intuitif dan semula jadi, dan juga telah menjadi garis panduan utama penyelidikan algoritma OOD dalam beberapa tahun kebelakangan ini, iaitu, dengan mereka bentuk fungsi objektif pengoptimuman yang lebih baik dan istilah biasa, model boleh mempelajari perwakilan yang lebih baik tanpa korelasi palsu. Untuk mendapatkan prestasi generalisasi yang lebih kukuh. Dalam tahun-tahun kebelakangan ini, terdapat banyak kerja di sepanjang baris utama ini cuba untuk meningkatkan generalisasi OOD model melalui reka bentuk algoritma. Walau bagaimanapun, kerja baru-baru ini menunjukkan bahawa banyak algoritma dengan jaminan teori terbina dalam mempunyai peningkatan prestasi yang sangat terhad pada tugas generalisasi OOD berdasarkan data sebenar.
Kenapa ini berlaku? Kami percaya bahawa kesukaran semasa dalam penyelidikan generalisasi OOD mungkin berpunca daripadadua batasan analisis sedia ada:
Dalam erti kata lain, penjelasan semasa dan model teori generalisasi OOD mungkin tidak menggambarkan senario peralihan pengedaran dunia sebenar dengan tepat. Oleh itu, kami percaya bahawa mempertimbangkan bias induktif rangkaian saraf dan SGD adalah sangat diperlukan untuk memahami generalisasi OOD berdasarkan rangkaian saraf dalam.
Eksperimen
Pertama, kami cuba menganggarkan "had atas prestasi" yang boleh dicapai oleh algoritma generalisasi OOD semasa yang direka berdasarkan matlamat pembelajaran perwakilan melalui reka bentuk eksperimen. Di bawah bimbingan teori korelasi palsu, kerja sedia ada terutamanya cuba mengekang model untuk mempelajari perwakilan yang boleh digeneralisasikan oleh OOD dengan mereka bentuk fungsi objektif pembelajaran perwakilan tambahan. Untuk mengkaji sama ada mengoptimumkan objektif sedemikian sebenarnya boleh mengekstrak perwakilan yang diingini, kami mereka bentuk senario yang ideal:
Hasil eksperimen ditunjukkan dalam gambar di atas. Daripada rajah tersebut kami mempunyai dua dapatan utama:
Jadi kita secara semula jadi bertanya: Memandangkan kita telah memasang representasi model guru secara langsung, dari manakah datangnya jurang generalisasi antara model pelajar dan model guru? Kami mendapati bahawa sukar untuk menerangkan secara langsung fenomena eksperimen ini dengan penjelasan teori yang sedia ada:
Ringkasnya, kami percaya bahawa analisis sedia ada tidak mencukupi untuk menjelaskan jurang dalam keupayaan generalisasi OOD yang sebenarnya kami perhatikan dalam eksperimen kami. Pada masa yang sama, memandangkan "perwakilan yang sesuai secara langsung yang boleh digeneralisasikan oleh OOD" tidak dapat menjamin model yang boleh digeneralisasikan oleh OOD, kita perlu mempertimbangkan "proses" pembelajaran perwakilan sebagai tambahan kepada "matlamat" daripada pembelajaran perwakilan. ", iaitu bias induktif yang disebabkan oleh dinamik pembelajaran ciri rangkaian saraf. Walaupun sangat sukar untuk secara langsung menganalisis proses pembelajaran ciri rangkaian saraf dalam secara teori, kami mendapati bahawa walaupun rangkaian ReLU dua lapisan akan menunjukkan kecenderungan pembelajaran ciri yang menarik, iaitu, "pencemaran ciri", dan kecenderungan ini Ia adalah juga berkaitan secara langsung dengan generalisasi OOD bagi rangkaian saraf.
Teori
Dalam bahagian ini, kami membuktikan kewujudan fenomena "pencemaran ciri" pada masalah pengelasan binari berdasarkan rangkaian ReLU dua lapisan, dan menganalisis sumber fenomena ini. Secara khusus, kami menganggap bahawa input kepada rangkaian terdiri daripada gabungan linear dua ciri: "ciri teras" dan "ciri latar belakang". Antaranya, pengedaran ciri teras bergantung kepada label kategori (boleh divisualisasikan sebagai objek yang akan dikelaskan dalam masalah pengelasan imej), manakala pengedaran ciri latar belakang tidak ada kena mengena dengan label (boleh digambarkan sebagai latar belakang gambar dan elemen lain dalam masalah pengelasan imej). Untuk menghapuskan gangguan faktor lain, kami juga membuat andaian berikut tentang dua jenis ciri ini:
Kami mendapati bahawa walaupun di bawah keadaan di atas, rangkaian saraf masih akan mempelajari ciri latar belakang yang sama sekali tidak berkaitan dengan tugas sambil mempelajari ciri teras. Disebabkan gandingan kedua-dua ciri ini dalam ruang berat rangkaian, anjakan pengedaran dalam ciri latar belakang juga akan membawa kepada peningkatan dalam ralat rangkaian saraf, dengan itu mengurangkan generalisasi OOD rangkaian. Oleh itu, kami memanggil keutamaan pembelajaran ciri ini bagi rangkaian saraf "pencemaran ciri". Di bawah, kami memperkenalkan secara terperinci punca pencemaran ciri. Gambarajah skematik idea analisis keseluruhan adalah seperti berikut:
titik utama dalam analisis kami ialah pencemaran ciri sebenarnya berkaitan dengan fakta bahawa neuron dalam rangkaian saraf selalunya mempunyai asymmetric activation(asymmetric activation) untuk kategori yang berbeza. Secara khusus, kami boleh menunjukkan bahawa selepas lelaran SGD yang mencukupi, sekurang-kurangnya sebahagian besar neuron dalam rangkaian akan cenderung untuk berkorelasi secara positif dengan sampel kategori (kami memanggil mereka sampel positif neuron ini, dan menggunakan ypos mewakili kategorinya), sambil mengekalkan korelasi negatif dengan sampel kategori lain (kami memanggilnya sampel negatif neuron ini, dan yneg mewakili kategorinya). Ini akan membawa kepada asimetri kategori dalam pengaktifan neuron ini, seperti yang ditunjukkan dalam Teorem 4.1:
Bagaimanakah asimetri kategori tersebut mempengaruhi proses pembelajaran ciri rangkaian saraf? Kami mula-mula perhatikan bahawa untuk neuron k-th dalam lapisan tersembunyi rangkaian, vektor beratnya wk boleh dipecahkan selepas lelaran ke-t:
Dalam formula di atas, Score dan S bg mewakili set ciri teras dan ciri latar belakang masing-masing, di mana setiap mj sepadan dengan ciri teras atau ciri latar belakang. Daripada formula ini, kita dapat melihat bahawa berat neuron boleh diuraikan kepada unjurannya pada ciri yang berbeza (di sini kita menganggap bahawa mj yang berbeza ialah vektor unit ortogon). Selanjutnya, kita boleh membuktikan bahawa unjuran kecerunan negatif wk pada setiap ciri latar belakang mj, j adalah milik Sbg memenuhi:
Untuk neuron dengan kategori pengaktifan asimetrik, 4.1, kita dapati bahawa kecerunannya bergantung terutamanya pada sampel positif y=ypos neuron dan hampir tiada kaitan dengan sampel negatif y=yneg. Ini menyebabkan ciri teras dan ciri latar belakang yang sedia ada dalam sampel positif mendapat unjuran kecerunan positif pada masa yang sama, dan proses ini tiada kaitan dengan korelasi antara ciri dan label. Seperti yang ditunjukkan dalam Teorem 4.2, kami membuktikan bahawa selepas lelaran SGD yang mencukupi, pengumpulan unjuran kecerunan di atas akan menyebabkan ciri yang dipelajari oleh neuron mengandungi kedua-dua ciri teras dan ciri latar belakang yang digabungkan:
Disebabkan gandingan ciri teras dan ciri latar belakang dalam pemberat neuron, anjakan pengedaran negatif ciri latar belakang akan mengurangkan pengaktifan neuron, mengakibatkan ralat OOD tambahan. Seperti yang ditunjukkan dalam Teorem 4.3, kami menerangkan secara kuantitatif kesan pencemaran ciri ke atas risiko generalisasi ID dan OOD:
Pada masa yang sama, untuk menggambarkan lebih lanjut hubungan antara pencemaran ciri yang berpunca daripada fungsi pengaktifan tak linear bagi rangkaian saraf, kami membuktikan Selepas mengalih keluar ketaklinearan rangkaian saraf, pencemaran ciri tidak akan berlaku lagi:
Seperti yang ditunjukkan dalam rajah di bawah, kami mengesahkan keputusan teori kami melalui eksperimen berangka. Pada masa yang sama, sebagai tambahan kepada rangkaian ReLU dua lapisan + SGD, kami juga melanjutkan kesimpulan kami kepada tetapan yang lebih umum, termasuk jenis fungsi pengaktifan lain, pengoptimum dengan saiz langkah penyesuaian, dsb. Hasilnya ditunjukkan dalam Rajah 3( d) ), menunjukkan bahawa pencemaran ciri juga berleluasa dalam tetapan yang lebih umum.
Pada masa yang sama, kami juga menyediakan lebih banyak bukti eksperimen dan visualisasi ciri untuk menunjukkan bahawa dalam rangkaian dalam seperti ResNet dan pengubah Visi yang kami gunakan setiap hari, fenomena pencemaran ciri juga berlaku, dan boleh menjelaskan pemerhatian dalam eksperimen kami Jurang generalisasi OOD dicapai. Sesiapa yang berminat dengan bahagian ini boleh merujuk Bab 5 kertas asal kami. . :Walaupun Kami telah membuktikan secara eksperimen bahawa rangkaian dalam juga mempunyai masalah pencemaran ciri, tetapi setakat ini analisis teori kami hanya melakukan rangkaian ReLU dua lapisan. Kami mengesyaki bahawa pencemaran ciri mungkin merupakan konsep yang lebih umum, dan asimetri pengaktifan neuron untuk kategori mungkin hanya salah satu sebab kejadiannya. Dengan menganalisis rangkaian yang lebih dalam atau struktur rangkaian yang lebih kompleks (seperti memperkenalkan lapisan normalisasi, dll.), kami mungkin dapat menemui lebih banyak punca pencemaran ciri dan menyediakan penyelesaian yang disasarkan.
Peranan pra-latihan: Analisis teori dalam artikel ini hanya mempertimbangkan kes kereta api dari awal, tetapi model yang sebenarnya kami gunakan selalunya adalah model pra-latihan. Terdapat banyak bukti eksperimen bahawa pra-latihan boleh membantu meningkatkan pengitlakan OOD model. Jadi, adakah intipati peningkatan dalam generalisasi ini berkaitan dengan mengurangkan masalah pencemaran ciri? Bagaimanakah pra-latihan melakukan ini?
Cara menyelesaikan masalah pencemaran ciri:Atas ialah kandungan terperinci ICML 2024 |. Pencemaran ciri: Rangkaian saraf mempelajari ciri yang tidak berkaitan dan gagal untuk digeneralisasikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!