Pembelajaran penyeliaan kendiri (SSL) ialah kaedah pembelajaran tanpa pengawasan yang menggunakan data tidak berlabel untuk melatih model. Idea teras adalah untuk membiarkan model mempelajari perwakilan data tanpa label manusia. Sebaik sahaja model belajar cara mewakili data, ia boleh digunakan pada tugas hiliran dengan data yang kurang berlabel dan mencapai prestasi yang lebih baik daripada model tanpa pembelajaran diselia sendiri. Melalui pembelajaran penyeliaan kendiri, model boleh menggunakan maklumat tersirat dalam data untuk belajar, contohnya, dengan meramalkan putaran data, perubahan warna, dsb. Kaedah ini boleh menyediakan kaedah pembelajaran yang berkesan tanpa adanya data berlabel, dan sangat penting untuk menyelesaikan masalah latihan data berskala besar.
1 Menjana data input dan label daripada data tidak berlabel berdasarkan pemahaman data
2: Latih model menggunakan data/label dari langkah sebelumnya
3. Penalaan halus: Gunakan model pra-latihan sebagai pemberat awal untuk melatih tugas yang diminati
Pembelajaran penyeliaan kendiri dalam pelbagai bidang seperti teks, imej/video , ucapan dan grafik Kejayaan yang luar biasa telah dicapai dalam semua aspek. Ia boleh membantu kami memahami maklumat struktur dan atribut dalam data graf dan mendapatkan maklumat berguna daripada data tidak berlabel. Oleh itu, pembelajaran penyeliaan kendiri adalah baik dalam melombong data tidak berlabel.
1. Kaedah penjanaan: Pulihkan maklumat asal
maklumat bukan autoregresif: penanda topeng/piksel dan ramalkan penanda/piksel bertopeng (cth., pemodelan bahasa bertopeng (MLM)
). Autoregresif: Ramalkan penanda/piksel seterusnya
2. Tugasan ramalan: Reka bentuk label berdasarkan pemahaman, pengelompokan atau penambahan data
a: Ramalkan konteks (cth. ramalkan kedudukan relatif tampalan imej, ramalkan sama ada serpihan seterusnya adalah ayat seterusnya)
b: Ramalkan id setiap sampel dalam kelompok
c: Ramalkan sudut putaran imej
3 Pembelajaran kontrastif (aka diskriminasi contoh kontras): Wujudkan perduaan berdasarkan pasangan sampel positif dan negatif yang dicipta. dengan peningkatan Masalah klasifikasi
4 Kaedah Bootstrap: gunakan dua rangkaian yang serupa tetapi berbeza untuk mempelajari perwakilan yang sama daripada pasangan tambahan sampel yang sama
5 Penyelarasan: tambah istilah kerugian dan penyelarasan berdasarkan andaian/intuisi:
a : Pasangan positif harus serupa
b: Output sampel yang berbeza dalam kelompok yang sama harus berbeza
Atas ialah kandungan terperinci Perbincangan mendalam tentang kaedah pembelajaran penyeliaan sendiri SSL. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!