Pada masa ini, sukar untuk mencapai keseimbangan yang tepat antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan.
Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek memainkan peranan penting dalam tafsiran imej penderiaan jauh dan boleh digunakan untuk pembahagian, penerangan dan penjejakan sasaran imej penderiaan jauh. Walau bagaimanapun, disebabkan medan pandangan yang agak besar dan keperluan altitud tinggi, imej penderiaan jauh optik udara mempamerkan kepelbagaian dalam skala, kekhususan sudut pandangan, orientasi rawak dan kerumitan latar belakang yang tinggi, manakala kebanyakan set data tradisional mengandungi pandangan darat . Akibatnya, teknik yang digunakan untuk membina pengesanan ciri buatan secara tradisinya mempunyai rekod perbezaan besar dalam ketepatan dan kelajuan. Disebabkan keperluan masyarakat dan sokongan pembangunan pembelajaran mendalam, penggunaan rangkaian saraf untuk pengesanan sasaran dalam imej penderiaan jauh optik adalah perlu.
Pada masa ini, algoritma pengesanan sasaran yang menggabungkan pembelajaran mendalam untuk menganalisis foto penderiaan jauh optik boleh dibahagikan kepada tiga jenis: diawasi, tidak diawasi dan diawasi lemah. Walau bagaimanapun, disebabkan oleh kerumitan dan ketidakpastian algoritma yang tidak diselia dan diselia dengan lemah, algoritma yang diselia ialah algoritma yang paling biasa digunakan. Tambahan pula, algoritma pengesanan objek yang diselia boleh dibahagikan kepada satu peringkat atau dua peringkat. Berdasarkan andaian bahawa pesawat biasanya terletak di lapangan terbang dan kapal biasanya terletak di pelabuhan dan lautan, mengesan lapangan terbang dan pelabuhan dalam imej bintang yang dikurangkan dan kemudian memetakan objek yang ditemui kembali kepada imej satelit resolusi ultra tinggi asal boleh mengesan objek saiz yang berbeza secara serentak. Sesetengah penyelidik telah mencadangkan kaedah pengesanan sasaran berputar berdasarkan RCNN, yang meningkatkan ketepatan pengesanan sasaran dalam imej penderiaan jauh dengan menyelesaikan masalah rawak arah sasaran.
Kebanyakan kepala pengesanan siri YOLO semasa adalah berdasarkan ciri keluaran FPN dan PAFPN Antaranya, rangkaian berasaskan FPN, seperti YOLOv3, dan variannya ditunjukkan dalam Rajah a di bawah. Mereka secara langsung menggunakan ciri gabungan sehala untuk output. YOLOv4 dan YOLOv5 berdasarkan algoritma PAFPN menambah saluran tahap rendah ke tahap tinggi atas dasar ini, yang secara langsung menghantar isyarat tahap rendah ke atas (b di bawah).
Seperti yang ditunjukkan dalam rajah di atas, dalam beberapa kajian, kepala pengesan telah ditambahkan untuk tugas pengesanan khusus dalam model TPH-YOLOv5. Dalam Rajah b dan c di atas, hanya fungsi PAFPN boleh digunakan untuk output, manakala fungsi FPN tidak digunakan sepenuhnya. Oleh itu, YOLOv7 menghubungkan tiga kepala tambahan kepada output FPN, seperti yang ditunjukkan dalam Rajah d di atas, walaupun kepala tambahan hanya digunakan untuk "pemilihan kasar" dan mempunyai penilaian berat yang lebih rendah. Ketua pengesan SSD dicadangkan untuk menambah baik reka bentuk rangkaian YOLO yang terlalu kasar bagi set penambat, dan mencadangkan reka bentuk penambat padat berdasarkan pelbagai skala. Seperti yang ditunjukkan dalam Rajah f, strategi ini boleh menggunakan maklumat ciri PANet dan FPN secara serentak. Di samping itu, terdapat proses pensampelan turun 64x yang secara langsung menambah output, yang menjadikan rangkaian mengandungi maklumat global sebelumnya.
Kaedah kepala pengesanan berbilang boleh menggunakan ciri keluaran rangkaian dengan berkesan. YOLO yang dipertingkatkan ialah rangkaian pengesanan objek untuk foto penderiaan jauh resolusi tinggi. Seperti yang ditunjukkan dalam rajah di bawah:
Struktur asas rangkaian tulang belakang ialah rangkaian padat CSP dengan C3 dan modul konvolusi sebagai teras. Selepas penambahan data, imej dimasukkan ke dalam rangkaian dan selepas pencampuran saluran oleh modul Conv dengan saiz kernel 6, banyak modul konvolusi melakukan pengambilan ciri. Selepas modul peningkatan ciri yang dipanggil SPPF, ia disambungkan ke PANet Neck. Untuk meningkatkan keupayaan pengesanan rangkaian, gabungan ciri dua hala dilakukan. Conv2d digunakan untuk mengembangkan lapisan ciri bercantum secara bebas untuk menjana output berbilang lapisan. Seperti yang ditunjukkan dalam rajah di bawah, algoritma NMS menggabungkan output semua pengesan satu lapisan untuk menjana bingkai pengesanan akhir.
Rajah b di bawah menerangkan komposisi struktur setiap modul rangkaian YOLO yang dipertingkatkan.
Penukaran termasuk lapisan lilitan 2D, normalisasi kelompok lapisan BN dan fungsi pengaktifan Silu, C3 termasuk dua lapisan lilitan 2D dan lapisan bottleneck, dan Upsample ialah lapisan upsample. Modul SPPF ialah versi dipercepatkan bagi modul SPP, modul MAB adalah seperti yang dinyatakan di atas, dan ECA adalah seperti yang ditunjukkan di sudut kiri bawah. Selepas pengumpulan purata global peringkat saluran tanpa pengurangan dimensi, lilitan 1D yang pantas bersaiz k digunakan untuk menangkap maklumat interaksi merentas saluran tempatan, dengan mengambil kira hubungan setiap saluran dengan jiran knya, dengan itu melaksanakan ECA dengan cekap. Dua transformasi di atas mengumpul ciri di sepanjang dua arah spatial untuk menghasilkan sepasang peta ciri sedar arah, yang kemudiannya digabungkan dan diubah suai menggunakan fungsi lilitan dan sigmoid untuk memberikan output perhatian.
Set data SIMD ialah set data pengesanan objek penderiaan jauh berbilang kategori, sumber terbuka, resolusi tinggi, yang mengandungi sejumlah 15 kategori, seperti yang ditunjukkan dalam Rajah 4. Di samping itu, set data SIMD lebih banyak diedarkan dalam sasaran kecil dan sederhana (w
Anda boleh menyambungkan output modul SPPF ke pengepala output untuk mengenal pasti sasaran besar dalam imej. Walau bagaimanapun, output modul SPPF mempunyai berbilang sambungan dan melibatkan sasaran pada pelbagai skala, jadi menggunakannya secara langsung untuk kepala pengesanan untuk mengenal pasti objek besar akan mengakibatkan perwakilan model yang lemah, seperti yang ditunjukkan dalam rajah di atas, menunjukkan sebelum dan selepas menambah Modul MAB Perbandingan visual peta haba bagi beberapa hasil pengesanan. Selepas menambah modul MAB, kepala pengesanan memfokuskan pada pengesanan sasaran besar, dan memperuntukkan ramalan sasaran kecil kepada kepala ramalan lain, yang meningkatkan kesan ekspresi model dan lebih selaras dengan keperluan pembahagian kepala pengesanan berdasarkan sasaran saiz dalam algoritma YOLO.
Beberapa keputusan ujian ditunjukkan dalam gambar di atas. Berdasarkan setiap hasil pengesanan, tidak terdapat banyak perbezaan daripada algoritma lain Namun, berbanding dengan algoritma lain, algoritma yang kami pelajari meningkatkan kesan pengesanan model sambil memastikan penggunaan masa tidak meningkat dengan ketara, dan menggunakan mekanisme perhatian untuk. meningkatkan Kesan ekspresi model.
Atas ialah kandungan terperinci Algoritma pengesanan yang dipertingkatkan: untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!