Pengesan objek utama semasa ialah rangkaian dua peringkat atau satu peringkat berdasarkan rangkaian pengelas tulang belakang yang digunakan semula dari deep CNN. YOLOv3 ialah salah satu pengesan satu peringkat tercanggih yang menerima imej input dan membahagikannya kepada matriks grid bersaiz sama. Sel grid dengan pusat sasaran bertanggungjawab untuk mengesan sasaran tertentu.
Apa yang kami kongsikan hari ini adalah untuk mencadangkan kaedah matematik baharu, yang memperuntukkan berbilang grid kepada setiap sasaran untuk mencapai ramalan kotak sempadan ketat yang tepat. Para penyelidik juga mencadangkan peningkatan data salin-tampal luar talian yang berkesan untuk pengesanan sasaran. Kaedah yang baru dicadangkan dengan ketara mengatasi beberapa pengesan objek terkini dan menjanjikan prestasi yang lebih baik. 2. Latar Belakang
Penyelidikan hari ini masih mematuhi kaedah YOLO, terutamanya YOLOv3, dan mencadangkan penggodaman mudah yang boleh menggunakan berbilang elemen unit rangkaian pada masa yang sama untuk meramal koordinat sasaran, kategori dan keyakinan sasaran. Rasional di sebalik elemen unit berbilang rangkaian bagi setiap objek adalah untuk meningkatkan kebarangkalian meramalkan kotak sempadan yang sesuai dengan memaksa berbilang elemen unit berfungsi pada objek yang sama. . koordinat.
(b+) Ramalan kotak sempadan yang kurang rawak dan tidak pasti, yang bermaksud ketepatan tinggi dan ingat semula kerana unit rangkaian berdekatan dilatih untuk meramalkan kategori dan koordinat objek yang sama
(c) Mengurangkan ketidakseimbangan antara sel grid dengan; objek menarik dan sel grid tanpa objek menarik.Tambahan pula, memandangkan peruntukan berbilang grid ialah penggunaan matematik parameter sedia ada dan tidak memerlukan lapisan pengumpulan titik kunci tambahan dan pasca pemprosesan untuk menggabungkan semula titik kunci kepada sasaran yang sepadan, seperti CenterNet dan CornerNet, boleh dikatakan ia ialah cara yang lebih semula jadi untuk mencapai apa yang cuba dicapai oleh pengesan objek tanpa sauh atau berasaskan titik kunci. Sebagai tambahan kepada anotasi berlebihan berbilang grid, para penyelidik juga memperkenalkan teknologi peningkatan data berasaskan salin-tampal luar talian baharu untuk pengesanan objek yang tepat.
3. TUGASAN MULTI-GRID
Gambar di atas mengandungi tiga sasaran iaitu anjing, basikal dan kereta. Untuk kepentingan ringkas, kami akan menerangkan tugasan berbilang grid kami pada satu objek. Imej di atas menunjukkan kotak pembatas tiga objek, dengan lebih terperinci mengenai kotak pembatas anjing itu. Imej di bawah menunjukkan kawasan zum keluar bagi imej di atas, memfokus pada bahagian tengah kotak sempadan anjing. Koordinat kiri atas sel grid yang mengandungi pusat kotak sempadan anjing dilabelkan dengan nombor 0, manakala lapan sel grid lain yang mengelilingi grid yang mengandungi pusat mempunyai label dari 1 hingga 8.
Setakat ini saya telah menerangkan fakta asas tentang bagaimana jaringan yang mengandungi pusat kotak sempadan objek menganotasi objek. Kebergantungan pada hanya satu sel grid bagi setiap objek untuk melakukan kerja yang sukar untuk meramalkan kategori dan kotak pembatas ketat yang tepat menimbulkan banyak isu, seperti:
(a) Jurang yang besar antara grid positif dan negatif Ketidakseimbangan, iaitu, dengan dan tanpa koordinat grid pusat objek
(b) Penumpuan kotak sempadan perlahan kepada GT
(c) Kekurangan pandangan berbilang perspektif (sudut) objek yang akan diramalkan.
Jadi soalan semula jadi untuk ditanya di sini ialah, "Jelas sekali, kebanyakan objek mengandungi kawasan lebih daripada satu sel grid, jadi adakah terdapat cara matematik mudah untuk memperuntukkan lebih banyak sel grid ini untuk cuba meramalkan kategori dan koordinat objek bersama sel grid tengah?" Beberapa kelebihan ini adalah (a) ketidakseimbangan yang dikurangkan, (b) latihan yang lebih pantas untuk menumpu kepada kotak pembatas kerana kini beberapa sel grid menyasarkan objek yang sama secara serentak, (c) peningkatan ramalan kotak pembatas ketat Peluang (d) menyediakan grid- pengesan berasaskan seperti YOLOv3 dengan pandangan berbilang paparan dan bukannya pandangan satu titik objek. Peruntukan multigrid yang baru dicadangkan cuba menjawab soalan di atas. . s untuk menjadikannya lebih ringan dan lebih pantas. Blok lilitan mempunyai Conv2D+Batch Normalization+LeakyRelu. Blok yang dikeluarkan bukan dari tulang belakang klasifikasi, iaitu Darknet53. Sebaliknya, alih keluar mereka daripada tiga rangkaian output pengesanan berbilang skala atau kepala, dua daripada setiap rangkaian output. Walaupun rangkaian dalam secara amnya berprestasi baik, rangkaian yang terlalu dalam juga cenderung terlalu pantas atau memperlahankan rangkaian dengan ketara. B. Fungsi Kehilangan sintesis imej latihan berfungsi seperti berikut : Pertama, menggunakan skrip carian imej ringkas untuk memuat turun beribu-ribu imej tanpa objek latar belakang daripada Imej Google menggunakan kata kunci seperti mercu tanda, hujan, hutan, dll., iaitu imej tanpa objek yang menarik minat kami. Kami kemudian secara berulang memilih objek p dan kotak sempadannya daripada imej q rawak keseluruhan set data latihan. Kami kemudian menjana semua kemungkinan kombinasi kotak sempadan p yang dipilih menggunakan indeksnya sebagai ID. Daripada set gabungan, kami memilih subset kotak sempadan yang memenuhi dua syarat berikut:
jika disusun dalam beberapa susunan rawak bersebelahan, ia mesti dimuatkan dalam kawasan imej latar belakang sasaran yang diberikandan sepatutnya menggunakan ruang imej latar belakang secara keseluruhan atau sekurang-kurangnya sebahagian besar tanpa objek bertindih Perbandingan prestasi pada dataset coco
Seperti yang dapat dilihat dari rajah, baris pertama menunjukkan enam. imej input, manakala baris kedua menunjukkan rangkaian sebelum penindasan bukan maksimum (NMS) Baris terakhir menunjukkan ramalan kotak sempadan terakhir MultiGridDet untuk imej input selepas NMS.
Atas ialah kandungan terperinci Anotasi kotak sempadan berlebihan berbilang grid untuk pengesanan objek yang tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!