Pembelajaran Zero-Shot memfokuskan pada mengklasifikasikan kategori yang belum muncul semasa proses latihan Zero-shot berdasarkan penerangan semantik dilaksanakan melalui maklumat semantik peringkat tinggi yang telah ditetapkan untuk setiap kategori pemindahan Pengetahuan kelas ke kelas ghaib. Pembelajaran pukulan sifar tradisional hanya perlu mengenal pasti kelas ghaib dalam fasa ujian, manakala pembelajaran pukulan sifar umum (GZSL) perlu mengenal pasti kedua-dua kelas yang boleh dilihat dan tidak dilihat ialah ketepatan purata kelas yang boleh dilihat dan purata ketepatan yang tidak dilihat kelas purata ketepatan harmoni.
Strategi pembelajaran sifar pukulan umum ialah menggunakan sampel kelas dan semantik yang boleh dilihat untuk melatih model penjanaan bersyarat daripada ruang semantik kepada ruang sampel visual, dan kemudian menggunakan semantik kelas yang tidak kelihatan untuk menghasilkan yang tidak kelihatan kelas pseudo-sampel, dan akhirnya menggunakan sampel kelas yang boleh dilihat dan sampel pseudo kelas yang tidak kelihatan untuk melatih rangkaian pengelasan. Walau bagaimanapun, mempelajari hubungan pemetaan yang baik antara dua modaliti (modaliti semantik dan modaliti visual) biasanya memerlukan sejumlah besar sampel (rujuk CLIP), yang tidak boleh dicapai dalam persekitaran pembelajaran sifar pukulan tradisional. Oleh itu, taburan sampel visual yang dijana menggunakan semantik kelas ghaib biasanya menyimpang daripada taburan sampel sebenar, yang bermaksud dua perkara berikut: 1. Kejituan kelas ghaib yang diperoleh melalui kaedah ini adalah terhad. 2. Apabila purata bilangan sampel pseudo yang dijana bagi setiap kelas untuk kelas ghaib adalah bersamaan dengan purata bilangan sampel untuk setiap kelas untuk kelas yang boleh dilihat, terdapat perbezaan yang besar antara ketepatan kelas ghaib dan ketepatan kelas yang boleh dilihat, kerana ditunjukkan dalam Jadual 1 di bawah.
Kami mendapati bahawa walaupun kami hanya mempelajari pemetaan semantik kepada titik pusat kategori, kami juga memetakan semantik kelas ghaib Menyalin satu titik sampel beberapa kali dan kemudian mengambil bahagian dalam latihan pengelas juga boleh mencapai kesan yang hampir dengan menggunakan model generatif. Ini bermakna ciri pseudo-sampel ghaib yang dihasilkan oleh model generatif adalah agak homogen kepada pengelas.
Kaedah sebelumnya biasanya memenuhi metrik penilaian GZSL dengan menjana sejumlah besar sampel pseudo kelas yang tidak kelihatan (walaupun bilangan sampel yang banyak tidak membantu untuk yang tidak kelihatan diskriminasi antara kelas ). Walau bagaimanapun, strategi pensampelan semula ini telah dibuktikan dalam bidang pembelajaran ekor panjang menyebabkan pengelas terlalu sesuai pada beberapa ciri, iaitu pseudo-ghaib yang menyimpang daripada ciri kelas sampel sebenar. Keadaan ini tidak kondusif untuk mengenal pasti sampel sebenar kelas yang dilihat dan tidak kelihatan. Jadi, bolehkah kita meninggalkan strategi pensampelan semula ini dan sebaliknya menggunakan offset dan kehomogenan menjana sampel pseudo kelas ghaib (atau ketidakseimbangan kelas antara kelas dilihat dan kelas ghaib) sebagai bias induktif?
Berdasarkan perkara ini, kami mencadangkan modul pengelas plug-and-play yang boleh meningkatkan pembelajaran sifar pukulan generatif dengan hanya mengubah suai satu baris kod Kesan kaedah. Hanya 10 sampel pseudo dijana setiap kelas ghaib untuk mencapai tahap SOTA. Berbanding dengan kaedah sampel sifar generatif yang lain, kaedah baharu ini mempunyai kelebihan besar dalam kerumitan pengiraan. Ahli penyelidikan adalah dari Universiti Sains dan Teknologi Nanjing dan Universiti Oxford.
Artikel ini menggunakan matlamat latihan dan ujian yang konsisten sebagai panduan untuk memperoleh sempadan bawah variasi indeks penilaian pembelajaran sifar pukulan umum. Pengelas yang dimodelkan dengan cara ini boleh mengelak daripada menggunakan strategi pakai semula dan menghalang pengelas daripada terlampau padat pada sampel pseudo yang dijana dan menjejaskan pengiktirafan sampel sebenar. Kaedah yang dicadangkan boleh menjadikan pengelas berasaskan benam berkesan dalam rangka kerja kaedah generatif dan mengurangkan pergantungan pengelas terhadap kualiti sampel pseudo yang dihasilkan.
Kami memutuskan untuk memulakan dengan fungsi kehilangan pengelas. Dengan mengandaikan bahawa ruang kelas telah dilengkapkan oleh sampel pseudo-sampel kelas yang tidak kelihatan, pengelas sebelumnya dioptimumkan dengan matlamat memaksimumkan ketepatan global:
di mana ialah ketepatan global, mewakili output pengelas, mewakili pengedaran sampel, ialah label sampel X yang sepadan. Penunjuk penilaian GZSL ialah:
antaranya dan Masing-masing mewakili koleksi kelas yang boleh dilihat dan kelas yang tidak kelihatan. Ketidakselarasan antara objektif latihan dan objektif ujian bermakna strategi latihan pengelas sebelum ini tidak mengambil kira perbezaan antara kelas yang dilihat dan tidak dilihat. Sememangnya, kami cuba mencapai keputusan yang konsisten dengan matlamat latihan dan ujian dengan memperoleh . Selepas terbitan, kita mendapat sempadan bawahnya:
di mana mewakili kelas yang boleh dilihat - kelas yang tidak kelihatan sebelumnya, Ia tiada kaitan dengan data dan dilaraskan sebagai hiperparameter dalam eksperimen mewakili dalaman sebelum kelas kelihatan atau kelas tidak kelihatan, yang digantikan dengan kekerapan kelas kelihatan. sampel atau pengagihan seragam semasa proses pelaksanaan. Dengan memaksimumkan sempadan bawah , kami mendapat matlamat pengoptimuman akhir:
Oleh itu, klasifikasi kami Permodelan matlamat telah berubah seperti berikut berbanding sebelum ini:
Pastikan kebarangkalian posterior dengan menggunakan cross-entropy, kami dapatkan kehilangan pengelas sebagai:
Ini serupa dengan Pelarasan Logit dalam pembelajaran ekor panjang, jadi kami memanggilnya pelarasan logistik sampel sifar (ZLA). Setakat ini, kami telah melaksanakan pengenalan prior parameter untuk menanam ketidakseimbangan kategori antara kelas yang dilihat dan kelas yang tidak kelihatan sebagai bias induktif ke dalam latihan pengelas, dan hanya perlu menambah istilah bias tambahan pada logit asal dalam pelaksanaan kod kesan.
Setakat ini, teras pemindahan sifar adalah semantik terdahulu (semantik prior) ) hanya memainkan peranan dalam penjana latihan dan peringkat penjanaan pseudo-sampel Pengenalpastian kelas ghaib bergantung sepenuhnya pada kualiti sampel pseudo kelas ghaib yang dihasilkan. Jelas sekali, jika prior semantik boleh diperkenalkan dalam peringkat latihan pengelas, ia akan membantu untuk mengenal pasti kelas yang tidak kelihatan. Dalam bidang pembelajaran sifar pukulan, terdapat kelas kaedah berasaskan benam yang boleh mencapai fungsi ini. Walau bagaimanapun, kaedah jenis ini adalah serupa dengan pengetahuan yang dipelajari oleh model generatif, iaitu, hubungan antara semantik dan penglihatan (pautan semantik-visual), yang membawa kepada pengenalan langsung kerangka generatif sebelumnya (rujuk kertas f -CLSWGAN) berdasarkan Pengelas terbenam tidak boleh mencapai hasil yang lebih baik daripada yang asal (melainkan pengelas itu sendiri mempunyai prestasi sifar pukulan yang lebih baik). Melalui strategi ZLA yang dicadangkan dalam kertas kerja ini, kami dapat mengubah peranan yang dimainkan oleh sampel pseudo kelas yang tidak kelihatan dalam latihan pengelas. Daripada peruntukan asal maklumat kelas halimunan kepada pelarasan semasa sempadan keputusan antara kelas halimunan dan kelas kelihatan, kami boleh memperkenalkan semantik prior dalam peringkat latihan pengelas. Secara khusus, kami menggunakan kaedah pembelajaran prototaip untuk memetakan semantik setiap kategori ke dalam prototaip visual (iaitu, berat pengelas), dan kemudian memodelkan kebarangkalian posterior yang diselaraskan sebagai persamaan kosinus antara sampel dan prototaip visual (kesamaan kosinus). , iaitu
dengan ialah pekali suhu. Dalam fasa ujian, sampel diramalkan sepadan dengan kategori prototaip visual dengan persamaan kosinus terbesar.
Kami menggabungkan pengelas yang dicadangkan dengan WGAN asas untuk menghasilkan 10 sampel dalam setiap kelas yang tidak kelihatan Kesannya setanding dengan SoTA. Di samping itu, kami memasukkannya ke dalam kaedah CE-GZSL yang lebih maju, menambah baik kesan awal tanpa mengubah parameter lain (termasuk bilangan sampel yang dihasilkan).
Dalam eksperimen ablasi, kami membandingkan pelajar prototaip berasaskan generasi dengan pelajar prototaip tulen. Kami mendapati bahawa lapisan ReLU terakhir adalah penting untuk kejayaan pelajar prototaip tulen kerana menyifar nombor negatif meningkatkan persamaan prototaip kategori dengan ciri kelas yang tidak kelihatan (ciri kelas yang tidak kelihatan juga ReLU diaktifkan). Walau bagaimanapun, menetapkan beberapa nilai kepada sifar juga mengehadkan ekspresi prototaip, yang tidak kondusif untuk prestasi pengiktirafan selanjutnya. Menggunakan sampel kelas pseudo-ghaib untuk mengimbangi maklumat kelas yang tidak kelihatan bukan sahaja boleh mencapai prestasi yang lebih tinggi apabila menggunakan RuLU, tetapi juga mencapai transendensi prestasi selanjutnya tanpa lapisan ReLU.
Dalam kajian ablasi yang lain, kami membandingkan pelajar prototaip dengan pengelas awal. Keputusan menunjukkan bahawa pelajar prototaip tidak mempunyai kelebihan berbanding pengelas awal apabila menjana sejumlah besar sampel kelas yang tidak kelihatan. Apabila menggunakan teknologi ZLA yang dicadangkan dalam artikel ini, pelajar prototaip menunjukkan keunggulannya. Seperti yang dinyatakan sebelum ini, ini kerana kedua-dua pelajar prototaip dan model generatif sedang mempelajari sambungan semantik-visual, jadi maklumat semantik sukar untuk digunakan sepenuhnya. ZLA membolehkan sampel kelas ghaib yang dihasilkan untuk melaraskan sempadan keputusan dan bukannya hanya menyediakan maklumat kelas ghaib, dengan itu mengaktifkan pelajar prototaip.
Atas ialah kandungan terperinci Menggunakan satu baris kod untuk meningkatkan kesan kaedah pembelajaran sifar pukulan, Universiti Teknologi & Oxford Nanjing mencadangkan modul pengelas pasang dan main. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!