Berbeza daripada masalah pengesanan objek tradisional, pengesanan objek beberapa pukulan (FSOD) mengandaikan bahawa kami mempunyai banyak sampel kelas asas, tetapi hanya sebilangan kecil sampel kelas novel. Matlamatnya adalah untuk mengkaji cara memindahkan pengetahuan daripada kelas asas kepada kelas novel, dengan itu meningkatkan keupayaan pengesan untuk mengenali kelas novel.
FSOD biasanya mengikut paradigma latihan dua peringkat . Pada peringkat pertama, pengesan dilatih menggunakan sampel kelas asas yang kaya untuk mempelajari perwakilan biasa yang diperlukan untuk tugas pengesanan objek, seperti penyetempatan dan pengelasan objek. Pada peringkat kedua, pengesan diperhalusi menggunakan hanya sebilangan kecil (cth. 1, 2, 3...) sampel kelas novel. Walau bagaimanapun, disebabkan ketidakseimbangan dalam bilangan sampel kelas asas dan kelas novel, model yang dipelajari biasanya berat sebelah terhadap kelas asas, yang membawa kepada kekeliruan sasaran kelas novel dengan kelas asas yang serupa. Tambahan pula, memandangkan terdapat hanya beberapa sampel untuk setiap kelas novel, model ini sensitif kepada varians kelas novel. Contohnya, jika anda mencuba sampel kelas novel secara rawak untuk berbilang latihan, hasilnya akan berbeza setiap kali. Oleh itu, adalah sangat perlu untuk meningkatkan keteguhan model di bawah sampel kecil.
Baru-baru ini, Tencent Youtu Lab dan Universiti Wuhan mencadangkan beberapa sampel model pengesanan sasaran VFA berdasarkan pengagregatan ciri variasi. Struktur keseluruhan VFA adalah berdasarkan versi rangka kerja pengesanan sasaran meta-pembelajaran yang dipertingkatkan Meta R-CNN++ dan dua kaedah pengagregatan ciri dicadangkan: Class-Agnostic Aggregation CAA (Class-Agnostic Aggregation) dan Variational Feature Agregation VFA (Variational Feature Agregation) .
Penggabungan ciri ialah reka bentuk utama dalam FSOD, yang mentakrifkan interaksi antara sampel Pertanyaan dan Sokongan. Kaedah sebelumnya seperti Meta R-CNN biasanya menggunakan pengagregatan khusus kelas (CSA), iaitu ciri sampel Pertanyaan dan Sokongan yang serupa untuk pengagregatan ciri. Sebaliknya, CAA yang dicadangkan dalam kertas ini membenarkan pengagregatan ciri antara sampel kelas yang berbeza. Memandangkan CAA menggalakkan model mempelajari perwakilan bebas kelas, ia mengurangkan kecenderungan model terhadap kelas asas. Selain itu, interaksi antara kelas yang berbeza boleh memodelkan hubungan antara kelas dengan lebih baik, dengan itu mengurangkan kekeliruan kelas.
Berdasarkan CAA, artikel ini mencadangkan VFA, yang menggunakan pengekod variasi (VAE) untuk mengekod sampel Sokongan ke dalam pengedaran kelas dan sampel Sokongan baharu daripada pengedaran yang dipelajari . Kerja berkaitan [1] menyatakan bahawa varians dalam kelas (cth., variasi dalam penampilan) adalah serupa merentas kelas dan boleh dimodelkan oleh pengedaran biasa. Oleh itu, kita boleh menggunakan pengagihan kelas asas untuk menganggarkan pengagihan kelas novel, dengan itu meningkatkan keteguhan pengagregatan ciri dalam kes beberapa sampel.
VFA mengatasi model terbaik semasa pada berbilang set data FSOD, Penyelidikan berkaitan telah Diterima sebagai Lisan oleh AAI 2023.
Alamat kertas: https://arxiv.org/abs/2301.13411
Kaedah asas yang lebih kukuh: Meta R-CNN++
Kerja FSOD semasa Ia boleh terutamanya dibahagikan kepada dua kategori: kaedah berdasarkan pembelajaran meta dan kaedah berdasarkan penalaan halus. Beberapa kerja awal menunjukkan bahawa meta-pembelajaran berkesan untuk FSOD, tetapi kaedah berasaskan penalaan halus telah mendapat perhatian yang semakin meningkat baru-baru ini. Kertas kerja ini mula-mula menetapkan kaedah asas Meta R-CNN++ berdasarkan meta-pembelajaran, yang mengecilkan jurang antara kedua-dua kaedah dan malah melebihi kaedah berdasarkan penalaan halus dalam beberapa penunjuk .
Kami mula-mula menganalisis beberapa jurang dalam pelaksanaan antara kedua-dua kaedah, mengambil kaedah meta-pembelajaran Meta R-CNN [2] dan kaedah penalaan halus TFA [3] sebagai contoh. Walaupun kedua-dua kaedah mengikuti paradigma latihan dua peringkat, dengan TFA mengoptimumkan model menggunakan teknik tambahan semasa peringkat penalaan halus:
Memandangkan kejayaan TFA, kami membina Meta R-CNN++. Seperti yang ditunjukkan dalam Jadual 1 di bawah, kaedah meta-pembelajaran juga boleh mencapai keputusan yang baik selagi kita mengendalikan peringkat penalaan halus dengan berhati-hati. Oleh itu, kertas kerja ini memilih Meta R-CNN++ sebagai kaedah asas.
Jadual 1: Perbandingan dan analisis Meta R-CNN dan TFA
Penggabungan ciri bebas kelas CAA
Rajah 1: Gambarajah skematik pengagregatan ciri bebas kategori CAA
Artikel ini mencadangkan kaedah pengagregatan ciri bebas kategori CAA yang mudah dan berkesan. Seperti yang ditunjukkan dalam Rajah 1 di atas, CAA membenarkan pengagregatan ciri antara kelas yang berbeza, dengan itu menggalakkan model untuk mempelajari perwakilan bebas kelas, dengan itu mengurangkan berat sebelah antara kelas dan kekeliruan antara kelas. Khususnya, untuk setiap ciri RoI kelas dan satu set ciri Sokongan , kami secara rawak memilih ciri Sokongan kelas diagregatkan dengan ciri Pertanyaan:
Kami kemudian menyuapkan ciri agregat
ke sub-rangkaian pengesanan
kepada output skor klasifikasi
.
Va Pengagregatan Ciri Variasi
Rajah 2 skema model VFA
Kerja sebelumnya biasanya mengekod sampel Sokongan ke dalam vektor ciri tunggal untuk mewakili pusat kategori. Walau bagaimanapun, apabila sampel kecil dan variansnya besar, sukar untuk kami membuat anggaran tepat pusat kelas. Dalam kertas ini, kami mula-mula menukar ciri Sokongan kepada pengedaran ke atas kelas. Oleh kerana pengagihan kelas yang dianggarkan tidak berat sebelah terhadap sampel tertentu, ciri yang diambil sampel daripada pengedaran adalah agak teguh kepada varians sampel. Rangka kerja VFA ditunjukkan dalam Rajah 2 di atas.
a) Pembelajaran ciri variasi . VFA menggunakan pengekod auto variasi VAE [4] untuk mempelajari pengedaran kategori. Seperti yang ditunjukkan dalam Rajah 2, untuk ciri Sokongan S, kami mula-mula menggunakan pengekod untuk menganggarkan parameter taburan dan , kemudian sampel daripada pengedaran melalui inferens variasi, dan akhirnya dapatkan pembinaan semula melalui penyahkod Ciri sokongan . Apabila mengoptimumkan VAE, sebagai tambahan kepada Kerugian KL biasa dan Kehilangan pembinaan semula, artikel ini juga menggunakan Kehilangan konsistensi untuk menjadikan pengedaran yang dipelajari mengekalkan maklumat kategori:
b) Gabungan ciri variasi . Memandangkan ciri Sokongan ditukar kepada pengedaran mengikut kategori, kami boleh mencuba ciri daripada pengedaran dan mengagregatkannya dengan ciri Pertanyaan. Khususnya, VFA juga menggunakan CAA pengagregatan bebas kelas, tetapi mengagregatkan ciri pertanyaan dan ciri variasi bersama-sama. Memandangkan ciri Pertanyaan kelas dan ciri Sokongan kelas
, kami mula-mula menganggarkan pengedarannya , dan contoh ciri variasi ; kemudian gabungkannya dengan formula berikut:
di mana mewakili pendaraban saluran, dan sig ialah singkatan bagi operasi sigmoid. Dalam fasa latihan, kami secara rawak memilih ciri Sokongan untuk pengagregatan; dalam fasa ujian, kami purata
ciri Sokongan nilai kelas , dan anggaran taburan , di mana .
Klasifikasi - Penyahgandingan tugas Regresi
Biasanya, subrangkaian pengesanan mengandungi pengekstrak ciri dikongsi dan dua rangkaian bebas: subrangkaian pengelasan dan sub-rangkaian regresi . Dalam kerja sebelumnya, ciri agregat telah dimasukkan ke dalam sub-rangkaian pengesanan untuk klasifikasi objek dan regresi kotak sempadan. Tetapi tugas klasifikasi memerlukan ciri terjemahan-invarian, manakala regresi memerlukan ciri terjemahan-kovarian. Memandangkan ciri Sokongan mewakili pusat kategori dan terjemahan tidak berubah, ciri agregat akan membahayakan tugas regresi.
Kertas kerja ini mencadangkan penyahgandingan tugas klasifikasi-regresi yang mudah. Biarkan dan mewakili ciri Pertanyaan asal dan agregat Kaedah sebelumnya menggunakan untuk kedua-dua tugasan, dengan skor Klasifikasi dan ramalan kotak sempadan ditakrifkan sebagai:
Untuk memisahkan tugas ini, kami menggunakan pengekstrak ciri yang berasingan dan menggunakan ciri Sokongan asal untuk regresi kotak sempadan:
Penilaian eksperimen
Set data yang kami gunakan: PASCAL VOC, MS COCO. Penunjuk penilaian: nAP ketepatan purata kelas novel, bAP ketepatan purata kelas asas.
Keputusan Utama
VFA mencapai keputusan yang lebih baik pada kedua-dua set data. Sebagai contoh, pada set data PASCAL VOC (Jadual 2 di bawah), VFA jauh lebih tinggi daripada kaedah sebelumnya, keputusan 1 pukulan VFA adalah lebih tinggi daripada keputusan 10 pukulan beberapa kaedah.
Jadual 2. Kesan VFA pada set data PASCAL VOC
Eksperimen Ablasi
a) Peranan modul yang berbeza . Seperti yang ditunjukkan dalam Jadual 3 di bawah, modul VFA yang berbeza boleh bekerjasama untuk meningkatkan prestasi model.
Jadual 3 Fungsi modul berbeza
b) Analisis visual kaedah pengagregatan ciri yang berbeza . Seperti yang ditunjukkan dalam Rajah 3 di bawah, CAA boleh mengurangkan kekeliruan antara kelas asas dan kelas novel VFA meningkatkan lagi perbezaan antara kelas berdasarkan CAA.
Rajah 3 Visualisasi Matriks Keserupaan
c) Anggaran mata pusat kategori yang lebih tepat . Seperti yang ditunjukkan dalam Rajah 4 di bawah, VFA boleh menganggarkan pusat kategori dengan lebih tepat. Dan apabila bilangan sampel berkurangan, ketepatan anggaran secara beransur-ansur menjadi lebih tinggi daripada kaedah garis dasar. Ini juga menerangkan sebab kaedah kami berprestasi lebih baik apabila terdapat sedikit sampel (K=1).
Rajah 4 Jarak antara anggaran pusat kategori dan pusat kategori sebenar
d) Penggambaran hasil .
Rajah 5 Hasil visualisasi
Artikel ini kembali kepada kaedah pengagregatan ciri dalam FSOD berdasarkan meta-pembelajaran dan mencadangkan pengagregatan ciri bebas kategori CAA dan pengagregatan ciri variasi VFA. CAA boleh mengurangkan berat sebelah dan kekeliruan kelas antara kelas asas dan kelas novel VFA mengubah sampel kepada pengedaran kelas untuk mencapai pengagregatan ciri yang lebih mantap. Eksperimen pada dataset PASCAL VOC dan MS COCO menunjukkan keberkesanan kaedah yang dicadangkan dalam kertas ini.
Atas ialah kandungan terperinci Meta-pembelajaran regresi, pengesanan sasaran beberapa sampel berdasarkan pengagregatan ciri variasi untuk mencapai SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!