Masalah pengesanan domain terbuka merujuk kepada masalah bagaimana untuk melaksanakan pengesanan kategori sewenang-wenang dalam senario hiliran dengan menggunakan sebilangan besar pasangan teks imej yang dirangkak dari Internet atau kategori tertentu data berlabel manual untuk latihan dalam ke hulu. Aplikasi kaedah pengesanan domain terbuka dalam industri terutamanya termasuk pengesanan objek jalan dalam sistem pemanduan autonomi, pengesanan pemandangan penuh awan, dsb.
Alamat kertas: https://arxiv.org/abs/2209.09407
Artikel ini berkongsi kertas pilihan NeurIPS 2022 "DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pra-latihan untuk Pengesanan Dunia Terbuka". Rangka kerja latihan selari, sambil membina pangkalan pengetahuan tambahan untuk menyediakan hubungan tersirat antara kategori. Pada masa yang sama, DetCLIP memenangi tempat pertama dalam trek pengesanan sifar pukulan dengan indeks pengesanan purata 24.9% dalam pertandingan ECCV2022 OdinW (Pengesanan Objek di Alam Liar[1]) yang dianjurkan oleh Microsoft.
Dengan populariti model pra-latihan berbilang modal (seperti CLIP) yang dilatih berdasarkan pasangan imej dan teks yang dirangkak dari Internet, dan penggunaan dalam zero -shot telah menunjukkan prestasi cemerlang dalam bidang pengelasan, dan semakin banyak kaedah cuba memindahkan keupayaan ini kepada ramalan padat domain terbuka (seperti pengesanan kategori arbitrari, segmentasi, dll.). Kaedah sedia ada sering menggunakan model klasifikasi besar yang telah dilatih untuk penyulingan tahap ciri [1] atau belajar dengan kapsyen pelabelan pseudo dan latihan kendiri [2], tetapi ini sering dihadkan oleh prestasi model pengelasan yang besar anotasi kapsyen tidak lengkap.
Model pengesanan domain terbuka SOTA sedia ada GLIP[3] melaksanakan latihan bersama berbilang sumber data dengan menukar format data pengesanan kepada format data Pembumian, memanfaatkan sepenuhnya kelebihan sumber data yang berbeza (Set data pengesanan mempunyai anotasi yang agak lengkap untuk kategori biasa, manakala set data Pembumian mempunyai julat selang liputan kategori yang lebih luas). Walau bagaimanapun, kami mendapati bahawa cara menggabungkan kata nama kategori membawa kepada pengurangan kecekapan pembelajaran keseluruhan model, manakala secara langsung menggunakan kata kategori sebagai input teks tidak dapat memberikan perhubungan a priori yang halus antara kategori.
Rajah 1: Rangkaian model pengesanan domain terbuka pra-latihan bersama sumber berbilang data
Seperti yang ditunjukkan dalam rajah di bawah, berdasarkan model pengesanan satu peringkat ATSS[4], DetCLIP menyertakan pengekod imej untuk mendapatkan ciri imej kotak pengesanan, dan pengekod teks untuk mendapatkan ciri teks kategori. Kemudian berdasarkan ciri imej dan ciri teks di atas, kehilangan penjajaran klasifikasi yang sepadan , kehilangan titik tengah dan kehilangan regresi .
Rajah 2: Rangka kerja model DetCLIP
Seperti yang ditunjukkan di bahagian atas kanan dan kiri atas Rajah 2, inovasi utama artikel ini ialah 1) mencadangkan rangka kerja untuk memproses latihan bersama objek-teks berbilang data dengan input selari untuk mengoptimumkan kecekapan latihan; pangkalan pengetahuan objek untuk membantu latihan Pengesanan domain terbuka.
Berbanding dengan GLIP, yang menukar data pengesanan kepada bentuk pembumian (siri) dengan menyambung kata nama kategori, kami menggunakan Extract frasa nama yang sepadan dalam data asas dan kategori dalam pengesanan sebagai input bebas dan masukkannya ke dalam pengekod teks (sejajar) untuk mengelakkan pengiraan perhatian yang tidak perlu dan mencapai kecekapan latihan yang lebih tinggi.
Rajah 3: Perbandingan antara rangka kerja pra-latihan input selari DetCLIP dan GLIP
Untuk menyelesaikan masalah ruang kategori tidak seragam dalam sumber data yang berbeza (nama kategori yang sama adalah berbeza, atau kategori disertakan, dsb.) dan untuk menyediakan maklumat priori untuk perhubungan antara kategori, kami membina pangkalan pengetahuan objek untuk mencapai latihan yang lebih cekap.
Pembinaan: Kami serentak mensintesis kategori dalam data pengesanan, frasa nama dalam pasangan teks imej dan takrifan yang sepadan untuk membina pangkalan pengetahuan objek.
Penggunaan: 1. Kami menggunakan definisi pangkalan pengetahuan objek untuk mengembangkan perkataan kategori dalam data pengesanan sedia ada untuk memberikan maklumat priori tentang hubungan antara kategori (Pengayaan Konsep) .
Rajah 4: Contoh mengembangkan definisi kata kategori menggunakan pangkalan pengetahuan objek
2. Disebabkan masalah anotasi kapsyen yang tidak lengkap dalam data pembumian dan data kapsyen imej (kategori yang muncul pada imej tidak muncul dalam kapsyen), imej ini boleh digunakan sebagai negatif sampel semasa latihan Bilangan kategori adalah sangat kecil, yang menjadikan model kurang dapat dibezakan untuk beberapa kategori yang tidak biasa. Oleh itu, kami secara rawak memilih kata nama objek daripada pangkalan pengetahuan objek sebagai kategori sampel negatif untuk meningkatkan diskriminasi model ciri kategori jarang (+Sampel Negatif).
Rajah 5: Memperkenalkan kategori dalam pangkalan pengetahuan objek sebagai kategori sampel negatif
3 Untuk data pasangan imej-teks beranotasi tanpa bingkai, kami menggunakan model besar FILIP [5] yang dibangunkan sendiri oleh Huawei Noah dan RPN yang telah dilatih untuk menganotasinya supaya ia boleh diubah Latih pada normal. data pembumian. Pada masa yang sama, untuk mengurangkan masalah anotasi objek yang tidak lengkap dalam gambar dalam kapsyen, kami menggunakan semua frasa kategori dalam pangkalan pengetahuan objek sebagai kategori calon untuk pelabelan pseudo (baris kedua), dan hanya menggunakan kategori kesan anotasi dalam kapsyen (baris pertama) Perbandingannya adalah seperti berikut:
Rajah 6: Memperkenalkan kategori dalam pangkalan pengetahuan objek sebagai kategori calon untuk pelabelan palsu
Kami mengesahkan prestasi pengesanan domain terbuka bagi kaedah yang dicadangkan pada set data pengesanan LVIS hiliran (1203 kategori), seperti yang dapat dilihat Berdasarkan seni bina berasaskan tulang belakang swin-t, DetCLIP telah mencapai peningkatan AP sebanyak 9.9% berbanding model GLIP SOTA sedia ada, dan peningkatan AP sebanyak 12.4% dalam Rare. kategori, walaupun kami hanya menggunakan kurang daripada separuh daripada AP berbanding volum Data GLIP, sila ambil perhatian bahawa set latihan tidak mengandungi sebarang imej dalam LVIS.
Jadual 1: Perbandingan prestasi pemindahan Zero-shot bagi kaedah berbeza pada LVIS
Dari segi kecekapan latihan, berdasarkan keadaan perkakasan yang sama iaitu 32 V100s, masa latihan GLIP-T ialah 5 kali ganda daripada DetCLIP-T (10.7K GPU jam lwn. 2.0K jam GPU). Dari segi kecekapan ujian, berdasarkan V100 tunggal, kecekapan inferens DetCLIP-T sebanyak 2.3 FPS (0.4 saat setiap imej) adalah 20 kali lebih tinggi daripada 0.12 FPS GLIP-T (8.6 saat setiap imej). Kami juga mengkaji secara berasingan kesan inovasi utama DetCLIP (rangka kerja selari dan pangkalan pengetahuan objek) terhadap ketepatan.
Jadual 3: Keputusan kajian ablasi DetCLIP pada dataset LVIS
Seperti yang ditunjukkan dalam rajah di bawah, berdasarkan tulang belakang swin-t yang sama, kesan visualisasi pada set data LVIS telah dipertingkatkan dengan ketara berbanding GLIP, terutamanya dalam anotasi kategori jarang dan Kesempurnaan daripada anotasi.
Rajah 7: Perbandingan visual hasil ramalan DetCLIP dan GLIP pada set data LVIS
Atas ialah kandungan terperinci NeurIPS 2022 |. DetCLIP, kaedah pengesanan domain terbuka baharu, meningkatkan kecekapan penaakulan sebanyak 20 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!