Pengarang penyelidikan mencadangkan Matrix Net (xNet), seni bina dalam baharu untuk pengesanan objek. xNets memetakan objek dengan dimensi saiz dan nisbah bidang yang berbeza ke dalam lapisan rangkaian, di mana objek hampir seragam dalam saiz dan nisbah bidang dalam lapisan. Oleh itu, xNets menyediakan seni bina sedar saiz dan nisbah aspek. Penyelidik menggunakan xNets untuk meningkatkan pengesanan sasaran berasaskan titik kunci. Seni bina baharu mencapai kecekapan masa yang lebih tinggi daripada pengesan satu tangkapan lain, dengan 47.8 mAP pada set data MS COCO, sambil menggunakan separuh parameter dan menjadi 3 kali lebih pantas untuk melatih daripada rangka kerja terbaik seterusnya.
Seperti yang ditunjukkan dalam rajah di atas, parameter dan kecekapan xNet jauh melebihi model lain. Antaranya, FSAF mempunyai kesan terbaik dalam kalangan pengesan berasaskan sauh, mengatasi RetinaNet klasik. Model yang dicadangkan oleh penyelidik mengatasi semua seni bina satu pukulan lain dengan bilangan parameter yang sama.
Pengesanan objek ialah salah satu tugas yang paling banyak dikaji dalam penglihatan komputer, dengan banyak aplikasi untuk tugas penglihatan lain, seperti penjejakan objek, contohnya pembahagian dan kapsyen imej. Struktur pengesanan objek boleh dibahagikan kepada dua kategori: pengesan pukulan tunggal dan pengesan dua peringkat. Pengesan dua peringkat menggunakan rangkaian cadangan rantau untuk mencari bilangan calon objek yang tetap, dan kemudian menggunakan rangkaian kedua untuk meramalkan markah setiap calon dan menambah baik kotak sempadannya.
Pengesan tangkapan tunggal juga boleh dibahagikan kepada dua kategori: pengesan berasaskan sauh dan titik kunci pengesan berasaskan. Pengesan berasaskan anchor mengandungi banyak kotak pembatas anchor dan kemudian meramalkan offset dan kelas setiap templat. Seni bina berasaskan anchor yang paling terkenal ialah RetinaNet, yang mencadangkan fungsi kehilangan fokus untuk membantu membetulkan ketidakseimbangan kelas kotak pembatas anchor. Pengesan berasaskan sauh berprestasi terbaik ialah FSAF. FSAF menyepadukan output berasaskan sauh dengan kepala output tanpa sauh untuk meningkatkan lagi prestasi.
Sebaliknya, pengesan berasaskan titik kekunci meramalkan peta haba untuk penjuru kiri atas dan bawah kanan dan memadankannya menggunakan pembenaman ciri. Pengesan berasaskan titik kekunci asal ialah CornerNet, yang menggunakan lapisan pengumpulan koener khas untuk mengesan objek dengan saiz yang berbeza dengan tepat. Sejak itu, Centerne telah menambah baik seni bina CornerNet dengan meramalkan pusat dan sudut objek.
Rajah di bawah menunjukkan jaring Matriks (xNets), yang menggunakan matriks hierarki untuk memodelkan sasaran dengan saiz yang berbeza dan nisbah melintang plexus, di mana dalam matriks Setiap entri i, j daripada mewakili lapisan li,j Lebar di sudut kiri atas matriks l1,1 diturunkan sampel oleh 2^(i-1), dan ketinggian dikurangkan oleh 2^(j-1). Lapisan pepenjuru ialah lapisan segi empat sama dengan saiz yang berbeza, bersamaan dengan FPN, manakala lapisan luar pepenjuru ialah lapisan segi empat tepat (ini unik untuk xNets). Lapisan l1,1 ialah lapisan terbesar Lebar lapisan dibelah dua untuk setiap langkah ke kanan, dan ketinggian dibelah dua untuk setiap langkah ke kanan.
Contohnya, lapisan l3,4 ialah separuh lebar lapisan l3,3. Lapisan pepenjuru memodelkan objek yang nisbah bidangnya hampir dengan segi empat sama, manakala lapisan bukan pepenjuru memodelkan objek yang nisbah bidangnya tidak hampir dengan segi empat sama. Lapisan berhampiran sudut atas kanan atau kiri bawah objek model matriks dengan nisbah bidang yang sangat tinggi atau rendah. Sasaran sedemikian sangat jarang berlaku, jadi ia boleh dipangkas untuk meningkatkan kecekapan.
Menjana lapisan matriks ialah langkah kritikal kerana ia mempengaruhi bilangan parameter model. Lebih banyak parameter, lebih kuat ekspresi model dan lebih sukar masalah pengoptimuman, jadi penyelidik memilih untuk memperkenalkan seberapa sedikit parameter baharu yang mungkin. Lapisan pepenjuru boleh diperolehi daripada peringkat tulang belakang yang berbeza atau menggunakan rangka kerja piramid ciri. Lapisan segi tiga atas diperoleh dengan menggunakan satu siri lilitan 3x3 bersama dengan langkah 1x2 pada lapisan pepenjuru. Begitu juga, lapisan kiri bawah diperoleh menggunakan lilitan 3x3 bersama dengan langkah 2x1. Parameter dikongsi antara semua konvolusi pensampelan bawah untuk meminimumkan bilangan parameter baharu.
Setiap lapisan dalam matriks memodelkan sasaran dengan lebar dan ketinggian tertentu, jadi kita perlu menentukan lebar yang diberikan kepada sasaran untuk setiap lapisan dalam matriks dan ketinggian julat. Julat perlu mencerminkan medan penerimaan vektor ciri lapisan matriks. Setiap langkah ke kanan dalam matriks secara berkesan menggandakan medan penerimaan dalam dimensi mendatar, dan setiap langkah menggandakan medan penerimaan dalam dimensi menegak. Oleh itu, semasa kita bergerak ke kanan atau ke bawah dalam matriks, julat lebar atau tinggi perlu dua kali ganda. Setelah julat untuk lapisan pertama l1,1 ditakrifkan, kita boleh menggunakan peraturan di atas untuk menjana julat bagi lapisan matriks yang lain.
Kelebihan utama Jaring Matriks ialah ia membenarkan isirong lilitan segi empat tepat mengumpul maklumat tentang nisbah aspek yang berbeza. Dalam model pengesanan objek tradisional, seperti RetinaNet, kernel lilitan segi empat sama diperlukan untuk mengeluarkan nisbah aspek dan skala yang berbeza. Ini adalah kontra-intuitif kerana aspek berbeza kotak sempadan memerlukan latar belakang yang berbeza. Dalam Matrix Nets, memandangkan konteks setiap lapisan matriks berubah, kernel lilitan persegi yang sama boleh digunakan untuk kotak sempadan skala dan nisbah bidang yang berbeza.
Oleh kerana saiz sasaran hampir seragam dalam lapisan yang ditetapkan, julat dinamik lebar dan ketinggian adalah lebih kecil berbanding dengan seni bina lain (seperti FPN). Oleh itu, mengundur ketinggian dan lebar sasaran akan menjadi masalah pengoptimuman yang lebih mudah. Akhir sekali, Matrix Nets boleh digunakan sebagai sebarang seni bina pengesanan objek, berasaskan anchor atau keypoint, pengesan satu pukulan atau dua pukulan.
Apabila CornerNet dicadangkan, ia adalah untuk Daripada pengesanan berasaskan sauh, ia menggunakan sepasang sudut (kiri atas dan kanan bawah) untuk meramalkan kotak sempadan. Untuk setiap sudut, CornerNet meramalkan peta haba, offset dan benam.
Gambar di atas ialah rangka kerja pengesanan sasaran berdasarkan perkara utama - KP-xNet, yang mengandungi 4 langkah.
Para penyelidik juga membandingkan model yang baru dicadangkan dengan model lain berdasarkan bilangan parameter pada tulang belakang yang berbeza. Dalam rajah pertama, kami mendapati bahawa KP-xNet mengatasi semua struktur lain pada semua peringkat parameter. Para penyelidik percaya ini kerana KP-xNet menggunakan seni bina sedar skala dan nisbah aspek.
Alamat kertas:
https://arxiv.org/pdf/1908.04646.pdf
Atas ialah kandungan terperinci Seni bina dalam terkini untuk pengesanan sasaran mempunyai separuh parameter dan 3 kali lebih pantas +. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!