Pembelajaran penyeliaan kendiri (SSL) telah mencapai kemajuan yang besar dalam beberapa tahun kebelakangan ini dan hampir mencapai tahap kaedah pembelajaran terselia pada banyak tugas hiliran. Walau bagaimanapun, disebabkan kerumitan model dan kekurangan set data latihan beranotasi, sukar untuk memahami perwakilan yang dipelajari dan mekanisme kerja asasnya. Tambahan pula, tugasan dalih yang digunakan dalam pembelajaran penyeliaan kendiri selalunya tidak berkaitan secara langsung dengan tugas hiliran tertentu, yang meningkatkan lagi kerumitan mentafsir perwakilan yang dipelajari. Dalam klasifikasi yang diselia, struktur perwakilan yang dipelajari selalunya sangat mudah.
Berbanding dengan tugas pengelasan tradisional (matlamatnya adalah untuk mengelaskan sampel dengan tepat ke dalam kategori tertentu), matlamat algoritma SSL moden biasanya untuk meminimumkan fungsi kehilangan yang mengandungi dua komponen utama: Pertama, Kelompokkan sampel yang dipertingkatkan (kekangan invarian), dan yang kedua adalah untuk mengelakkan keruntuhan perwakilan (kekangan penyelarasan). Sebagai contoh, untuk sampel yang sama selepas peningkatan yang berbeza, matlamat kaedah pembelajaran kontrastif adalah untuk menjadikan keputusan klasifikasi sampel ini sama, dan pada masa yang sama dapat membezakan sampel yang berbeza selepas peningkatan. Sebaliknya, kaedah bukan kontrastif menggunakan regularizer untuk mengelakkan keruntuhan perwakilan.
Pembelajaran kendiri boleh menggunakan tugas tambahan (dalih) data tanpa pengawasan untuk melombong maklumat penyeliaannya sendiri, dan melatih rangkaian melalui maklumat penyeliaan yang dibina ini, supaya ia boleh belajar ke hiliran Perwakilan bahawa tugas itu berharga. Baru-baru ini, beberapa penyelidik, termasuk pemenang Anugerah Turing Yann LeCun, mengeluarkan kajian yang mendakwa mempunyai pembelajaran penyeliaan kendiri rekaan terbalik, membolehkan kami memahami tingkah laku dalaman proses latihannya.
Alamat kertas: https://arxiv.org/abs/2305.15614v2
Kertas kerja ini menyediakan analisis mendalam tentang pembelajaran perwakilan menggunakan SLL melalui satu siri eksperimen yang direka dengan teliti untuk membantu orang ramai memahami proses pengelompokan semasa latihan. Secara khusus, kami mendedahkan bahawa sampel ditambah mempamerkan gelagat yang sangat berkelompok, yang membentuk centroid di sekitar pembenaman makna sampel ditambah yang berkongsi imej yang sama. Lebih tidak disangka-sangka, para penyelidik memerhatikan bahawa sampel berkelompok berdasarkan label semantik walaupun tanpa adanya maklumat yang jelas tentang tugas sasaran. Ini menunjukkan keupayaan SSL untuk mengumpulkan sampel berdasarkan persamaan semantik.
Memandangkan pembelajaran penyeliaan kendiri (SSL) sering digunakan untuk pra-latihan untuk menyediakan model untuk menyesuaikan diri dengan tugas hiliran, ini membawa satu kunci soalan: Apakah kesan latihan SSL terhadap perwakilan yang dipelajari? Secara khususnya, bagaimanakah SSL berfungsi di bawah hud semasa latihan, dan apakah kategori yang boleh dipelajari oleh fungsi perwakilan ini?
Untuk menyiasat isu ini, penyelidik melatih rangkaian SSL pada berbilang tetapan dan menganalisis tingkah laku mereka menggunakan teknik yang berbeza.
Data dan penambahan: Semua percubaan yang disebut dalam artikel ini menggunakan set data pengelasan imej CIFAR100. Untuk melatih model, para penyelidik menggunakan protokol peningkatan imej yang dicadangkan dalam SimCLR. Setiap sesi latihan SSL dilaksanakan selama 1000 zaman, menggunakan pengoptimum SGD dengan momentum.
Seni bina tulang belakang: Semua eksperimen menggunakan seni bina RES-L-H sebagai tulang belakang, ditambah dengan dua lapisan kepala unjuran multi-layer perceptron (MLP).
Penyelidikan linear: Untuk menilai keberkesanan mengekstrak fungsi diskret tertentu (cth. kategori) daripada fungsi perwakilan, kaedah yang digunakan di sini ialah probing linear. Ini memerlukan latihan pengelas linear (juga dipanggil probe linear) berdasarkan perwakilan ini, yang memerlukan beberapa sampel latihan.
Klasifikasi peringkat sampel: Untuk menilai kebolehpisahan peringkat sampel, penyelidik mencipta set data baharu khusus.
di mana set data latihan mengandungi 500 imej rawak daripada set latihan CIFAR-100. Setiap imej mewakili kategori tertentu dan dipertingkatkan dalam 100 cara berbeza. Oleh itu, set data latihan mengandungi sejumlah 50,000 sampel 500 kategori. Set ujian masih menggunakan 500 imej ini, tetapi menggunakan 20 peningkatan berbeza, semuanya daripada pengedaran yang sama. Oleh itu, keputusan dalam set ujian terdiri daripada 10,000 sampel. Untuk mengukur ketepatan linear atau NCC (pusat kelas terdekat/pusat kelas terdekat) bagi fungsi perwakilan yang diberikan pada peringkat sampel, kaedah yang digunakan di sini ialah menggunakan data latihan terlebih dahulu untuk mengira pengelas yang berkaitan, dan kemudian mengiranya pada set ujian yang sepadan Nilaikan ketepatannya.
Proses pengelompokan sentiasa memainkan peranan penting dalam membantu menganalisis model pembelajaran mendalam. Untuk memahami latihan SSL secara intuitif, Rajah 1 menggambarkan ruang pembenaman sampel latihan rangkaian melalui UMAP, yang merangkumi situasi sebelum dan selepas latihan dan dibahagikan kepada tahap yang berbeza.
Rajah 1: Pengelompokan semantik yang disebabkan oleh latihan SSL
Seperti yang dijangkakan, proses latihan berjaya mengelompokkan sampel pada tahap sampel, memetakan peningkatan yang berbeza bagi imej yang sama (seperti yang ditunjukkan dalam baris pertama Rajah Tunjukkan). Keputusan ini tidak dijangka memandangkan fungsi objektif itu sendiri menggalakkan tingkah laku ini (melalui istilah kehilangan invarian). Walau bagaimanapun, lebih ketara, proses latihan ini juga berkelompok berdasarkan "kategori semantik" asal bagi set data CIFAR-100 standard, walaupun terdapat kekurangan label semasa proses latihan. Menariknya, tahap yang lebih tinggi (superkategori) juga boleh dikelompokkan dengan berkesan. Contoh ini menunjukkan bahawa walaupun proses latihan secara langsung menggalakkan pengelompokan pada peringkat sampel, perwakilan data yang dilatih oleh SSL juga dikelompokkan mengikut kategori semantik pada tahap yang berbeza.
Untuk mengukur lagi proses pengelompokan ini, para penyelidik menggunakan VICReg untuk melatih RES-10-250. Para penyelidik mengukur ketepatan latihan NCC, kedua-duanya pada peringkat sampel dan berdasarkan kategori asal. Perlu diingat bahawa perwakilan terlatih SSL mempamerkan keruntuhan saraf pada tahap sampel (ketepatan latihan NCC hampir 1.0), tetapi pengelompokan dari segi kategori semantik juga penting (kira-kira 1.0 pada sasaran asal) 0.41).
Seperti yang ditunjukkan dalam gambar kiri Rajah 2, kebanyakan proses pengelompokan yang melibatkan penambahan (di mana rangkaian dilatih secara langsung) berlaku pada peringkat awal proses latihan dan kemudian datang terhenti; manakala dalam semantik Pengelompokan mengikut kategori (tidak dinyatakan dalam objektif latihan) akan terus bertambah baik semasa latihan.
Rajah 2: Algoritma SSL mengelompokkan data mengikut pasangan sasaran semantik
Penyelidik terdahulu telah memerhatikan bahawa pembenaman peringkat atas sampel latihan yang diselia akan bertumpu secara beransur-ansur ke arah struktur seperti centroid. Untuk lebih memahami sifat pengelompokan fungsi perwakilan terlatih SSL, kami menyiasat situasi yang sama semasa SSL. Pengelas NCCnya ialah pengelas linear dan tidak berprestasi lebih baik daripada pengelas linear terbaik. Pengelasan data boleh dikaji pada tahap kebutiran yang berbeza dengan menilai ketepatan pengelas NCC berbanding dengan pengelas linear yang dilatih pada data yang sama. Panel tengah Rajah 2 menunjukkan evolusi nisbah ini merentas kategori peringkat sampel dan kategori sasaran asal, dengan nilai dinormalkan kepada nilai yang dimulakan. Apabila latihan SSL diteruskan, jurang antara ketepatan NCC dan ketepatan linear menjadi lebih kecil, menunjukkan bahawa sampel ditambah secara beransur-ansur meningkatkan tahap pengelompokan berdasarkan identiti sampel dan sifat semantik mereka.
Tambahan pula, angka tersebut juga menggambarkan bahawa nisbah peringkat sampel pada mulanya lebih tinggi, menunjukkan bahawa sampel yang ditambah dikelompokkan mengikut identiti mereka sehingga ia menumpu kepada centroid (NCC tepat Nisbah ketepatan dan ketepatan linear ialah ≥ 0.9 pada 100 zaman). Walau bagaimanapun, apabila latihan berterusan, nisbah peringkat sampel menjadi tepu, manakala nisbah peringkat kelas terus berkembang dan menumpu kepada sekitar 0.75. Ini menunjukkan bahawa sampel yang dipertingkatkan terlebih dahulu akan dikelompokkan mengikut identiti sampel, dan selepas pelaksanaan, ia akan dikelompokkan mengikut kategori semantik peringkat tinggi.
Mampatan maklumat tersirat dalam latihan SSL
Jika pemampatan boleh dilakukan dengan berkesan, representasi yang bermanfaat dan berguna boleh diperolehi. Walau bagaimanapun, sama ada pemampatan sedemikian berlaku semasa latihan SSL masih menjadi topik yang telah dipelajari oleh beberapa orang.
Untuk memahami perkara ini, penyelidik menggunakan Mutual Information Neural Estimation (MINE), kaedah yang boleh menganggarkan hubungan antara input dan perwakilan terbenam yang sepadan semasa latihan. Metrik ini boleh digunakan untuk mengukur tahap kerumitan perwakilan dengan berkesan dengan menunjukkan berapa banyak maklumat (bilangan bit) yang dikodkan.
Panel tengah Rajah 3 melaporkan purata maklumat bersama yang dikira pada 5 benih permulaan MINE yang berbeza. Seperti yang ditunjukkan dalam rajah, terdapat pemampatan yang ketara semasa proses latihan, menghasilkan perwakilan latihan yang sangat padat.
Carta di sebelah kiri menunjukkan regularisasi dan invarian model latihan SSL semasa proses latihan Perubahan dalam kehilangan dan ketepatan ujian lineariti sasaran asal. (Pusat) Pemampatan maklumat bersama antara input dan perwakilan semasa latihan. (Kanan) Latihan SSL mempelajari perwakilan kelompok.
Peranan kehilangan regularisasi
Fungsi objektif mengandungi dua item: invarian dan Regularisasi. Fungsi utama istilah invarian adalah untuk mengukuhkan persamaan antara perwakilan yang dipertingkatkan secara berbeza bagi sampel yang sama. Matlamat istilah penyelarasan adalah untuk membantu mencegah keruntuhan perwakilan.
Untuk meneroka peranan komponen ini dalam proses pengelompokan, penyelidik menguraikan fungsi objektif kepada istilah invarian dan istilah regularisasi dan memerhati tingkah laku mereka semasa proses latihan. Keputusan perbandingan ditunjukkan dalam panel kiri Rajah 3, di mana evolusi istilah kehilangan pada sasaran semantik asal dan ketepatan ujian linear diberikan. Bertentangan dengan kepercayaan popular, istilah kehilangan invarian tidak bertambah baik dengan ketara semasa latihan. Sebaliknya, peningkatan dalam kerugian (dan ketepatan semantik hiliran) dicapai dengan mengurangkan kerugian regularisasi.
Boleh disimpulkan bahawa kebanyakan proses latihan SSL adalah untuk meningkatkan ketepatan semantik dan pengelompokan perwakilan yang dipelajari, bukannya ketepatan pengelasan peringkat sampel dan jenis pengelompokan.
Pada asasnya, dapatan di sini menunjukkan bahawa walaupun matlamat langsung pembelajaran penyeliaan kendiri ialah pengelasan peringkat sampel, kebanyakan masa latihan sebenarnya dibelanjakan pada tahap kategori semantik yang berbeza berkelompok. Pemerhatian ini menunjukkan keupayaan kaedah SSL untuk menjana perwakilan bermakna secara semantik melalui pengelompokan, yang juga membolehkan kami memahami mekanisme asasnya.
Perbandingan pembelajaran diselia dan pengelompokan SSL
Pengkelas rangkaian dalam selalunya berdasarkan kategori sampel latihan. Mereka dikelompokkan kepada centroid individu. Walau bagaimanapun, agar fungsi yang dipelajari benar-benar berkelompok, sifat ini mesti masih sah untuk sampel ujian ini adalah kesan yang kami jangkakan, tetapi kesannya akan menjadi lebih teruk.
Persoalan yang menarik di sini: sejauh manakah SSL boleh melakukan pengelompokan berdasarkan kategori semantik sampel berbanding pengelompokan melalui pembelajaran diselia? Panel kanan Rajah 3 melaporkan nisbah ketepatan latihan dan ujian NCC pada penghujung latihan untuk senario yang berbeza (dengan dan tanpa pembelajaran diselia yang dipertingkatkan dan SSL).
Walaupun ketepatan latihan NCC pengelas diselia ialah 1.0, yang jauh lebih tinggi daripada ketepatan latihan NCC model terlatih SSL, ketepatan ujian NCC model SSL adalah sedikit. ketepatan ujian NCC yang lebih tinggi untuk model yang diselia. Ini menunjukkan bahawa gelagat pengelompokan kedua-dua model mengikut kategori semantik adalah serupa pada tahap tertentu. Menariknya, menggunakan sampel tambahan untuk melatih model yang diselia mengurangkan sedikit ketepatan latihan NCC, tetapi meningkatkan ketepatan ujian NCC dengan ketara.
Kategori semantik mentakrifkan hubungan antara input dan sasaran berdasarkan corak intrinsik input. Sebaliknya, jika anda memetakan input kepada sasaran rawak, anda akan melihat kekurangan corak yang boleh dilihat, yang menyebabkan hubungan antara input dan sasaran kelihatan sewenang-wenangnya.
Para penyelidik juga meneroka kesan rawak ke atas kecekapan sasaran yang diperlukan untuk pembelajaran model. Untuk melakukan ini, mereka membina satu siri sistem sasaran dengan pelbagai peringkat rawak dan kemudian mengkaji kesan rawak pada perwakilan yang dipelajari. Mereka melatih pengelas rangkaian saraf pada set data yang sama yang digunakan untuk pengelasan dan kemudian menggunakan ramalan sasarannya dari zaman yang berbeza sebagai sasaran dengan darjah rawak yang berbeza. Pada zaman 0, rangkaian adalah rawak sepenuhnya dan mendapat label deterministik tetapi nampaknya sewenang-wenangnya. Semasa latihan diteruskan, kerawak fungsinya berkurangan, dan akhirnya sasaran diperoleh yang sejajar dengan sasaran kebenaran tanah (yang boleh dianggap sebagai bukan rawak sepenuhnya). Tahap rawak dinormalisasi di sini untuk berjulat daripada 0 (tidak sama sekali rawak, pada akhir latihan) hingga 1 (rawak sepenuhnya, pada permulaan).
Rajah 4 Graf kiri menunjukkan ketepatan ujian linear untuk sasaran rawak yang berbeza. Setiap baris sepadan dengan ketepatan peringkat latihan SSL yang berbeza dengan darjah rawak yang berbeza. Ia boleh dilihat bahawa semasa latihan, model akan lebih cekap menangkap kategori yang lebih dekat dengan sasaran "semantik" (rawak rendah), sambil tidak menunjukkan peningkatan prestasi yang ketara pada sasaran rawak tinggi.
Rajah 4: SSL secara berterusan mempelajari sasaran semantik dan bukannya sasaran rawak
Isu utama dalam pembelajaran mendalam ialah memahami peranan dan kesan lapisan perantaraan dalam mengklasifikasikan jenis kategori yang berbeza. Sebagai contoh, adakah lapisan berbeza akan mempelajari jenis kategori yang berbeza? Penyelidik juga telah meneroka isu ini dengan menilai ketepatan ujian linear bagi perwakilan lapisan yang berbeza pada akhir latihan pada tahap rawak sasaran yang berbeza. Seperti yang ditunjukkan dalam panel tengah Rajah 4, ketepatan ujian linear terus bertambah baik apabila rawak berkurangan, dengan lapisan yang lebih dalam menunjukkan prestasi yang lebih baik merentas semua jenis kategori, dan jurang prestasi menjadi lebih besar untuk klasifikasi yang hampir dengan kategori semantik.
Para penyelidik juga menggunakan beberapa metrik lain untuk menilai kualiti pengelompokan: ketepatan NCC, CDNV, purata varians setiap kelas dan purata jarak kuasa dua antara min kelas. Untuk mengukur bagaimana perwakilan bertambah baik dengan latihan, penyelidik mengira nisbah metrik ini untuk sasaran semantik dan rawak. Panel kanan Rajah 4 menggambarkan nisbah ini, yang menunjukkan bahawa perwakilan lebih mengutamakan pengelompokan data berdasarkan matlamat semantik dan bukannya matlamat rawak. Menariknya, seseorang boleh melihat bahawa CDNV (varian dibahagikan dengan jarak kuasa dua) berkurangan hanya dengan penurunan jarak kuasa dua. Nisbah varians agak stabil semasa latihan. Ini menggalakkan jarak yang lebih besar antara kluster, fenomena yang telah ditunjukkan membawa kepada peningkatan prestasi.
Penyelidikan terdahulu telah membuktikan bahawa dalam pembelajaran diselia, lapisan perantaraan secara beransur-ansur menangkap ciri pada tahap abstraksi yang berbeza. Lapisan awal cenderung kepada ciri peringkat rendah, manakala lapisan yang lebih dalam menangkap lebih banyak ciri abstrak. Seterusnya, penyelidik meneroka sama ada rangkaian SSL boleh mempelajari atribut hierarki pada tahap yang lebih tinggi dan tahap yang lebih baik dikaitkan dengan atribut ini.
Dalam percubaan, mereka mengira ketepatan ujian linear pada tiga tahap: tahap sampel, 100 kategori asal dan 20 kategori super. Panel kanan Rajah 2 memberikan kuantiti yang dikira untuk tiga set kategori yang berbeza ini. Dapat diperhatikan bahawa semasa proses latihan, peningkatan prestasi pada peringkat kategori asal dan kategori super adalah lebih ketara daripada peringkat sampel.
Yang berikut ialah gelagat lapisan perantaraan model terlatih SSL dan keupayaannya untuk menangkap objektif pada tahap yang berbeza. Panel kiri dan tengah Rajah 5 memberikan ketepatan ujian linear pada semua lapisan perantaraan pada peringkat latihan yang berbeza, di mana sasaran asal dan sasaran super diukur. Panel kanan Rajah 5 memberikan nisbah antara superkategori dan kategori asal. Rajah 5: SSL boleh berkesan dalam keseluruhan lapisan tengah Pelajari kategori semantik
Para penyelidik membuat beberapa kesimpulan berdasarkan keputusan ini. Pertama, dapat diperhatikan bahawa apabila lapisan semakin dalam, kesan pengelompokan akan terus bertambah baik. Tambahan pula, sama seperti kes pembelajaran yang diselia, penyelidik mendapati bahawa ketepatan linear setiap lapisan rangkaian bertambah baik semasa latihan SSL. Terutama, mereka mendapati bahawa lapisan akhir bukanlah lapisan optimum untuk kelas asal. Beberapa penyelidikan SSL baru-baru ini menunjukkan bahawa tugas hiliran boleh memberi kesan tinggi kepada prestasi algoritma yang berbeza. Kerja kami memanjangkan pemerhatian ini dan mencadangkan bahawa bahagian rangkaian yang berlainan mungkin sesuai untuk tugas hiliran dan tahap tugas yang berbeza. Menurut panel kanan Rajah 5, dapat dilihat bahawa dalam lapisan rangkaian yang lebih dalam, ketepatan kategori super bertambah baik daripada kategori asal.
Atas ialah kandungan terperinci Hasil penyelidikan baharu daripada pasukan Yann LeCun: Kejuruteraan songsang pembelajaran penyeliaan kendiri, ternyata pengelompokan dilaksanakan seperti ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!