


Menggunakan satu baris kod untuk meningkatkan kesan kaedah pembelajaran sifar pukulan, Universiti Teknologi & Oxford Nanjing mencadangkan modul pengelas pasang dan main
Pembelajaran Zero-Shot memfokuskan pada mengklasifikasikan kategori yang belum muncul semasa proses latihan Zero-shot berdasarkan penerangan semantik dilaksanakan melalui maklumat semantik peringkat tinggi yang telah ditetapkan untuk setiap kategori pemindahan Pengetahuan kelas ke kelas ghaib. Pembelajaran pukulan sifar tradisional hanya perlu mengenal pasti kelas ghaib dalam fasa ujian, manakala pembelajaran pukulan sifar umum (GZSL) perlu mengenal pasti kedua-dua kelas yang boleh dilihat dan tidak dilihat ialah ketepatan purata kelas yang boleh dilihat dan purata ketepatan yang tidak dilihat kelas purata ketepatan harmoni.
Strategi pembelajaran sifar pukulan umum ialah menggunakan sampel kelas dan semantik yang boleh dilihat untuk melatih model penjanaan bersyarat daripada ruang semantik kepada ruang sampel visual, dan kemudian menggunakan semantik kelas yang tidak kelihatan untuk menghasilkan yang tidak kelihatan kelas pseudo-sampel, dan akhirnya menggunakan sampel kelas yang boleh dilihat dan sampel pseudo kelas yang tidak kelihatan untuk melatih rangkaian pengelasan. Walau bagaimanapun, mempelajari hubungan pemetaan yang baik antara dua modaliti (modaliti semantik dan modaliti visual) biasanya memerlukan sejumlah besar sampel (rujuk CLIP), yang tidak boleh dicapai dalam persekitaran pembelajaran sifar pukulan tradisional. Oleh itu, taburan sampel visual yang dijana menggunakan semantik kelas ghaib biasanya menyimpang daripada taburan sampel sebenar, yang bermaksud dua perkara berikut: 1. Kejituan kelas ghaib yang diperoleh melalui kaedah ini adalah terhad. 2. Apabila purata bilangan sampel pseudo yang dijana bagi setiap kelas untuk kelas ghaib adalah bersamaan dengan purata bilangan sampel untuk setiap kelas untuk kelas yang boleh dilihat, terdapat perbezaan yang besar antara ketepatan kelas ghaib dan ketepatan kelas yang boleh dilihat, kerana ditunjukkan dalam Jadual 1 di bawah.
Kami mendapati bahawa walaupun kami hanya mempelajari pemetaan semantik kepada titik pusat kategori, kami juga memetakan semantik kelas ghaib Menyalin satu titik sampel beberapa kali dan kemudian mengambil bahagian dalam latihan pengelas juga boleh mencapai kesan yang hampir dengan menggunakan model generatif. Ini bermakna ciri pseudo-sampel ghaib yang dihasilkan oleh model generatif adalah agak homogen kepada pengelas.
Kaedah sebelumnya biasanya memenuhi metrik penilaian GZSL dengan menjana sejumlah besar sampel pseudo kelas yang tidak kelihatan (walaupun bilangan sampel yang banyak tidak membantu untuk yang tidak kelihatan diskriminasi antara kelas ). Walau bagaimanapun, strategi pensampelan semula ini telah dibuktikan dalam bidang pembelajaran ekor panjang menyebabkan pengelas terlalu sesuai pada beberapa ciri, iaitu pseudo-ghaib yang menyimpang daripada ciri kelas sampel sebenar. Keadaan ini tidak kondusif untuk mengenal pasti sampel sebenar kelas yang dilihat dan tidak kelihatan. Jadi, bolehkah kita meninggalkan strategi pensampelan semula ini dan sebaliknya menggunakan offset dan kehomogenan menjana sampel pseudo kelas ghaib (atau ketidakseimbangan kelas antara kelas dilihat dan kelas ghaib) sebagai bias induktif?
Berdasarkan perkara ini, kami mencadangkan modul pengelas plug-and-play yang boleh meningkatkan pembelajaran sifar pukulan generatif dengan hanya mengubah suai satu baris kod Kesan kaedah. Hanya 10 sampel pseudo dijana setiap kelas ghaib untuk mencapai tahap SOTA. Berbanding dengan kaedah sampel sifar generatif yang lain, kaedah baharu ini mempunyai kelebihan besar dalam kerumitan pengiraan. Ahli penyelidikan adalah dari Universiti Sains dan Teknologi Nanjing dan Universiti Oxford.
- Kertas: https://arxiv.org/abs/2204.11822
- Kod: https://github.com/cdb342/IJCAI-2022-ZLA
Artikel ini menggunakan matlamat latihan dan ujian yang konsisten sebagai panduan untuk memperoleh sempadan bawah variasi indeks penilaian pembelajaran sifar pukulan umum. Pengelas yang dimodelkan dengan cara ini boleh mengelak daripada menggunakan strategi pakai semula dan menghalang pengelas daripada terlampau padat pada sampel pseudo yang dijana dan menjejaskan pengiktirafan sampel sebenar. Kaedah yang dicadangkan boleh menjadikan pengelas berasaskan benam berkesan dalam rangka kerja kaedah generatif dan mengurangkan pergantungan pengelas terhadap kualiti sampel pseudo yang dihasilkan.
Kaedah
1. Memperkenalkan parameter sebelumnya
Kami memutuskan untuk memulakan dengan fungsi kehilangan pengelas. Dengan mengandaikan bahawa ruang kelas telah dilengkapkan oleh sampel pseudo-sampel kelas yang tidak kelihatan, pengelas sebelumnya dioptimumkan dengan matlamat memaksimumkan ketepatan global:
di mana ialah ketepatan global,
mewakili output pengelas,
mewakili pengedaran sampel,
ialah label sampel X yang sepadan. Penunjuk penilaian GZSL ialah:
antaranya dan
Masing-masing mewakili koleksi kelas yang boleh dilihat dan kelas yang tidak kelihatan. Ketidakselarasan antara objektif latihan dan objektif ujian bermakna strategi latihan pengelas sebelum ini tidak mengambil kira perbezaan antara kelas yang dilihat dan tidak dilihat. Sememangnya, kami cuba mencapai keputusan yang konsisten dengan matlamat latihan dan ujian dengan memperoleh
. Selepas terbitan, kita mendapat sempadan bawahnya:
di mana mewakili kelas yang boleh dilihat - kelas yang tidak kelihatan sebelumnya, Ia tiada kaitan dengan data dan dilaraskan sebagai hiperparameter dalam eksperimen
mewakili dalaman sebelum kelas kelihatan atau kelas tidak kelihatan, yang digantikan dengan kekerapan kelas kelihatan. sampel atau pengagihan seragam semasa proses pelaksanaan. Dengan memaksimumkan sempadan bawah
, kami mendapat matlamat pengoptimuman akhir:
Oleh itu, klasifikasi kami Permodelan matlamat telah berubah seperti berikut berbanding sebelum ini:
Pastikan kebarangkalian posterior dengan menggunakan cross-entropy, kami dapatkan kehilangan pengelas sebagai:
Ini serupa dengan Pelarasan Logit dalam pembelajaran ekor panjang, jadi kami memanggilnya pelarasan logistik sampel sifar (ZLA). Setakat ini, kami telah melaksanakan pengenalan prior parameter untuk menanam ketidakseimbangan kategori antara kelas yang dilihat dan kelas yang tidak kelihatan sebagai bias induktif ke dalam latihan pengelas, dan hanya perlu menambah istilah bias tambahan pada logit asal dalam pelaksanaan kod kesan.
2. Memperkenalkan semantik sebelum
Setakat ini, teras pemindahan sifar adalah semantik terdahulu (semantik prior) ) hanya memainkan peranan dalam penjana latihan dan peringkat penjanaan pseudo-sampel Pengenalpastian kelas ghaib bergantung sepenuhnya pada kualiti sampel pseudo kelas ghaib yang dihasilkan. Jelas sekali, jika prior semantik boleh diperkenalkan dalam peringkat latihan pengelas, ia akan membantu untuk mengenal pasti kelas yang tidak kelihatan. Dalam bidang pembelajaran sifar pukulan, terdapat kelas kaedah berasaskan benam yang boleh mencapai fungsi ini. Walau bagaimanapun, kaedah jenis ini adalah serupa dengan pengetahuan yang dipelajari oleh model generatif, iaitu, hubungan antara semantik dan penglihatan (pautan semantik-visual), yang membawa kepada pengenalan langsung kerangka generatif sebelumnya (rujuk kertas f -CLSWGAN) berdasarkan Pengelas terbenam tidak boleh mencapai hasil yang lebih baik daripada yang asal (melainkan pengelas itu sendiri mempunyai prestasi sifar pukulan yang lebih baik). Melalui strategi ZLA yang dicadangkan dalam kertas kerja ini, kami dapat mengubah peranan yang dimainkan oleh sampel pseudo kelas yang tidak kelihatan dalam latihan pengelas. Daripada peruntukan asal maklumat kelas halimunan kepada pelarasan semasa sempadan keputusan antara kelas halimunan dan kelas kelihatan, kami boleh memperkenalkan semantik prior dalam peringkat latihan pengelas. Secara khusus, kami menggunakan kaedah pembelajaran prototaip untuk memetakan semantik setiap kategori ke dalam prototaip visual (iaitu, berat pengelas), dan kemudian memodelkan kebarangkalian posterior yang diselaraskan sebagai persamaan kosinus antara sampel dan prototaip visual (kesamaan kosinus). , iaitu
dengan ialah pekali suhu. Dalam fasa ujian, sampel diramalkan sepadan dengan kategori prototaip visual dengan persamaan kosinus terbesar.
Eksperimen
Kami menggabungkan pengelas yang dicadangkan dengan WGAN asas untuk menghasilkan 10 sampel dalam setiap kelas yang tidak kelihatan Kesannya setanding dengan SoTA. Di samping itu, kami memasukkannya ke dalam kaedah CE-GZSL yang lebih maju, menambah baik kesan awal tanpa mengubah parameter lain (termasuk bilangan sampel yang dihasilkan).
Dalam eksperimen ablasi, kami membandingkan pelajar prototaip berasaskan generasi dengan pelajar prototaip tulen. Kami mendapati bahawa lapisan ReLU terakhir adalah penting untuk kejayaan pelajar prototaip tulen kerana menyifar nombor negatif meningkatkan persamaan prototaip kategori dengan ciri kelas yang tidak kelihatan (ciri kelas yang tidak kelihatan juga ReLU diaktifkan). Walau bagaimanapun, menetapkan beberapa nilai kepada sifar juga mengehadkan ekspresi prototaip, yang tidak kondusif untuk prestasi pengiktirafan selanjutnya. Menggunakan sampel kelas pseudo-ghaib untuk mengimbangi maklumat kelas yang tidak kelihatan bukan sahaja boleh mencapai prestasi yang lebih tinggi apabila menggunakan RuLU, tetapi juga mencapai transendensi prestasi selanjutnya tanpa lapisan ReLU.
Dalam kajian ablasi yang lain, kami membandingkan pelajar prototaip dengan pengelas awal. Keputusan menunjukkan bahawa pelajar prototaip tidak mempunyai kelebihan berbanding pengelas awal apabila menjana sejumlah besar sampel kelas yang tidak kelihatan. Apabila menggunakan teknologi ZLA yang dicadangkan dalam artikel ini, pelajar prototaip menunjukkan keunggulannya. Seperti yang dinyatakan sebelum ini, ini kerana kedua-dua pelajar prototaip dan model generatif sedang mempelajari sambungan semantik-visual, jadi maklumat semantik sukar untuk digunakan sepenuhnya. ZLA membolehkan sampel kelas ghaib yang dihasilkan untuk melaraskan sempadan keputusan dan bukannya hanya menyediakan maklumat kelas ghaib, dengan itu mengaktifkan pelajar prototaip.
Atas ialah kandungan terperinci Menggunakan satu baris kod untuk meningkatkan kesan kaedah pembelajaran sifar pukulan, Universiti Teknologi & Oxford Nanjing mencadangkan modul pengelas pasang dan main. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Dalam bidang pembelajaran mesin dan sains data, kebolehtafsiran model sentiasa menjadi tumpuan penyelidik dan pengamal. Dengan aplikasi meluas model yang kompleks seperti kaedah pembelajaran mendalam dan ensemble, memahami proses membuat keputusan model menjadi sangat penting. AI|XAI yang boleh dijelaskan membantu membina kepercayaan dan keyakinan dalam model pembelajaran mesin dengan meningkatkan ketelusan model. Meningkatkan ketelusan model boleh dicapai melalui kaedah seperti penggunaan meluas pelbagai model yang kompleks, serta proses membuat keputusan yang digunakan untuk menerangkan model. Kaedah ini termasuk analisis kepentingan ciri, anggaran selang ramalan model, algoritma kebolehtafsiran tempatan, dsb. Analisis kepentingan ciri boleh menerangkan proses membuat keputusan model dengan menilai tahap pengaruh model ke atas ciri input. Anggaran selang ramalan model

Dalam istilah orang awam, model pembelajaran mesin ialah fungsi matematik yang memetakan data input kepada output yang diramalkan. Secara lebih khusus, model pembelajaran mesin ialah fungsi matematik yang melaraskan parameter model dengan belajar daripada data latihan untuk meminimumkan ralat antara output yang diramalkan dan label sebenar. Terdapat banyak model dalam pembelajaran mesin, seperti model regresi logistik, model pepohon keputusan, model mesin vektor sokongan, dll. Setiap model mempunyai jenis data dan jenis masalah yang berkenaan. Pada masa yang sama, terdapat banyak persamaan antara model yang berbeza, atau terdapat laluan tersembunyi untuk evolusi model. Mengambil perceptron penyambung sebagai contoh, dengan meningkatkan bilangan lapisan tersembunyi perceptron, kita boleh mengubahnya menjadi rangkaian neural yang mendalam. Jika fungsi kernel ditambah pada perceptron, ia boleh ditukar menjadi SVM. yang ini

Artikel ini akan memperkenalkan cara mengenal pasti pemasangan lampau dan kekurangan dalam model pembelajaran mesin secara berkesan melalui keluk pembelajaran. Underfitting dan overfitting 1. Overfitting Jika model terlampau latihan pada data sehingga ia mempelajari bunyi daripadanya, maka model tersebut dikatakan overfitting. Model yang dipasang terlebih dahulu mempelajari setiap contoh dengan sempurna sehingga ia akan salah mengklasifikasikan contoh yang tidak kelihatan/baharu. Untuk model terlampau, kami akan mendapat skor set latihan yang sempurna/hampir sempurna dan set pengesahan/skor ujian yang teruk. Diubah suai sedikit: "Punca overfitting: Gunakan model yang kompleks untuk menyelesaikan masalah mudah dan mengekstrak bunyi daripada data. Kerana set data kecil sebagai set latihan mungkin tidak mewakili perwakilan yang betul bagi semua data. 2. Underfitting Heru

Pada tahun 1950-an, kecerdasan buatan (AI) dilahirkan. Ketika itulah penyelidik mendapati bahawa mesin boleh melakukan tugas seperti manusia, seperti berfikir. Kemudian, pada tahun 1960-an, Jabatan Pertahanan A.S. membiayai kecerdasan buatan dan menubuhkan makmal untuk pembangunan selanjutnya. Penyelidik sedang mencari aplikasi untuk kecerdasan buatan dalam banyak bidang, seperti penerokaan angkasa lepas dan kelangsungan hidup dalam persekitaran yang melampau. Penerokaan angkasa lepas ialah kajian tentang alam semesta, yang meliputi seluruh alam semesta di luar bumi. Angkasa lepas diklasifikasikan sebagai persekitaran yang melampau kerana keadaannya berbeza daripada di Bumi. Untuk terus hidup di angkasa, banyak faktor mesti dipertimbangkan dan langkah berjaga-jaga mesti diambil. Para saintis dan penyelidik percaya bahawa meneroka ruang dan memahami keadaan semasa segala-galanya boleh membantu memahami cara alam semesta berfungsi dan bersedia untuk menghadapi kemungkinan krisis alam sekitar

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Penterjemah |. Disemak oleh Li Rui |. Chonglou Model kecerdasan buatan (AI) dan pembelajaran mesin (ML) semakin kompleks hari ini, dan output yang dihasilkan oleh model ini adalah kotak hitam – tidak dapat dijelaskan kepada pihak berkepentingan. AI Boleh Dijelaskan (XAI) bertujuan untuk menyelesaikan masalah ini dengan membolehkan pihak berkepentingan memahami cara model ini berfungsi, memastikan mereka memahami cara model ini sebenarnya membuat keputusan, dan memastikan ketelusan dalam sistem AI, Amanah dan akauntabiliti untuk menyelesaikan masalah ini. Artikel ini meneroka pelbagai teknik kecerdasan buatan (XAI) yang boleh dijelaskan untuk menggambarkan prinsip asasnya. Beberapa sebab mengapa AI boleh dijelaskan adalah penting Kepercayaan dan ketelusan: Untuk sistem AI diterima secara meluas dan dipercayai, pengguna perlu memahami cara keputusan dibuat

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

MetaFAIR bekerjasama dengan Harvard untuk menyediakan rangka kerja penyelidikan baharu untuk mengoptimumkan bias data yang dijana apabila pembelajaran mesin berskala besar dilakukan. Adalah diketahui bahawa latihan model bahasa besar sering mengambil masa berbulan-bulan dan menggunakan ratusan atau bahkan ribuan GPU. Mengambil model LLaMA270B sebagai contoh, latihannya memerlukan sejumlah 1,720,320 jam GPU. Melatih model besar memberikan cabaran sistemik yang unik disebabkan oleh skala dan kerumitan beban kerja ini. Baru-baru ini, banyak institusi telah melaporkan ketidakstabilan dalam proses latihan apabila melatih model AI generatif SOTA Mereka biasanya muncul dalam bentuk lonjakan kerugian Contohnya, model PaLM Google mengalami sehingga 20 lonjakan kerugian semasa proses latihan. Bias berangka adalah punca ketidaktepatan latihan ini,
