Regress ke ketinggian tanah untuk mencapai rumusan jarak-agnostik, sekali gus memudahkan proses pengoptimuman untuk kaedah hanya menyedari kamera. Pada penanda aras pengesanan 3D bagi kamera tepi jalan, kaedah ini jauh melebihi semua kaedah bertumpu penglihatan sebelumnya. Ia menghasilkan peningkatan ketara sebanyak +1.9% NDS dan +1.1% mAP berbanding BEVDepth. Pada set ujian nuScenes, kaedah tersebut mencapai kemajuan yang ketara, dengan NDS dan mAP meningkat masing-masing sebanyak +2.8% dan +1.7%.
Tajuk: BEVHeight++: Ke arah pengesanan objek 3D berpusat penglihatan yang teguh
Pautan kertas: https://arxiv.org/pdf/2309.16179.pdf
Gabungan pengarang: Universiti Tsinghua, Universiti Sun Yat-sen, Universiti Beijing Universiti
Dari komuniti pemanduan autonomi pertama di China: akhirnya menyiapkan pembinaan 20+ laluan pembelajaran arah teknikal (persepsi BEV/pengesan 3D/gabungan berbilang sensor/SLAM dan perancangan, dsb.)
Walaupun autonomi baru-baru ini sistem pemanduan memfokuskan pada Membangunkan kaedah penderiaan untuk penderia kenderaan, tetapi alternatif yang sering diabaikan ialah penggunaan kamera tepi jalan pintar untuk memanjangkan keupayaan penderiaan melangkaui julat visual. Pengarang mendapati bahawa kaedah pengesanan BEV tertumpu penglihatan tercanggih berprestasi buruk pada kamera tepi jalan. Ini kerana kaedah ini tertumpu terutamanya pada memulihkan kedalaman mengenai pusat kamera, di mana perbezaan kedalaman antara kereta dan tanah mengecut dengan cepat mengikut jarak. Dalam kertas kerja ini, penulis mencadangkan kaedah yang mudah tetapi berkesan, dipanggil BEVHeight++, untuk menyelesaikan masalah ini. Pada asasnya, pengarang mundur ke ketinggian tanah untuk mencapai rumusan jarak-agnostik, dengan itu memudahkan proses pengoptimuman untuk kaedah sedar kamera sahaja. Dengan menggabungkan teknik pengekodan ketinggian dan kedalaman, unjuran yang lebih tepat dan mantap daripada ruang 2D ke BEV dicapai. Kaedah ini dengan ketara mengatasi semua kaedah bertumpu penglihatan sebelumnya pada penanda aras pengesanan 3D yang popular untuk kamera tepi jalan. Untuk adegan kenderaan sendiri, BEVHeight++ mengatasi kaedah kedalaman sahaja
Secara khusus, ia menghasilkan peningkatan ketara sebanyak +1.9% NDS dan +1.1% mAP berbanding BEVDepth apabila dinilai pada set pengesahan nuScenes . Tambahan pula, pada set ujian nuScenes, kaedah ini mencapai kemajuan yang ketara, dengan NDS dan mAP meningkat masing-masing sebanyak +2.8% dan +1.7%.
Rajah 1: (a) Untuk menjana kotak sempadan 3D daripada imej monokular, kaedah tercanggih terlebih dahulu meramalkan kedalaman setiap piksel, sama ada secara eksplisit atau tersirat, untuk menentukan kedudukan 3D objek latar depan berbanding latar belakang. Walau bagaimanapun, apabila kami memplot kedalaman setiap piksel pada imej, kami mendapati bahawa apabila kereta bergerak menjauhi kamera, perbezaan antara titik di atas bumbung dan tanah di sekeliling mengecut dengan cepat, menjadikan pengoptimuman menjadi tidak optimum, terutamanya untuk Jarak Jauh. objek. (b) Sebaliknya, kami memplot ketinggian per-piksel ke tanah dan memerhatikan bahawa perbezaan ini adalah agnostik tanpa mengira jarak dan secara visual lebih sesuai untuk rangkaian mengesan objek. Walau bagaimanapun, kedudukan 3D tidak boleh diregres secara langsung dengan meramalkan ketinggian sahaja. (c) Untuk tujuan ini, kami mencadangkan rangka kerja baharu BEVHeight++ untuk menyelesaikan masalah ini. Keputusan empirikal menunjukkan bahawa kaedah kami mengatasi kaedah terbaik sebanyak 5.49% pada tetapan bersih dan 28.2% pada tetapan bising.
Perbandingan ketinggian dan kedalaman ramalan. (a) Gambaran keseluruhan kaedah berasaskan kedalaman sebelumnya dan saluran paip berasaskan ketinggian kami yang dicadangkan. Sila ambil perhatian bahawa kertas ini mencadangkan modul unjuran 2D hingga 3D novel. (b) Memplot histogram kedalaman setiap piksel (atas) dan ketinggian tanah (bawah), dapat diperhatikan dengan jelas bahawa julat kedalaman melebihi 200 meter, manakala ketinggian dalam lingkungan 5 meter, yang menjadikan ketinggian lebih mudah dipelajari.
Dalam imej, terdapat perkaitan antara koordinat baris sasaran dengan kedalaman dan ketinggiannya. Kedudukan sasaran dalam imej boleh ditakrifkan oleh (u, v), di mana v mewakili koordinat baris imej. Dalam (a) kami menunjukkan contoh visual memperkenalkan hingar dengan menambahkan offset putaran dalam arah guling dan pic kepada taburan normal. Dalam (b) kami menunjukkan plot taburan taburan kedalaman. Dalam (c) kami menunjukkan ketinggian di atas tanah. Kita boleh perhatikan bahawa tetapan hingar untuk ketinggian mempunyai pertindihan yang lebih besar dengan taburan asalnya berbanding dengan kedalaman, menunjukkan bahawa anggaran ketinggian adalah lebih mantap
Kerangka keseluruhan BEVHeight++ mengandungi tiga sub-rangkaian, iaitu cawangan berasaskan kedalaman (cyan), cawangan berasaskan ketinggian (hijau) dan proses gabungan ciri (kelabu). Saluran paip berasaskan kedalaman menukar ciri paparan imej kepada ciri BEV berasaskan kedalaman (BEV berasaskan D) menggunakan anggaran kedalaman setiap piksel. Saluran paip berasaskan ketinggian menjana ciri BEV berasaskan ketinggian (BEV berasaskan H) menggunakan ramalan ketinggian tanah bagi ciri lif dalam paparan imej. Gabungan ciri termasuk gabungan imej dan gabungan pandangan mata burung. Gabungan paparan imej memperoleh ciri gabungan dengan pengedaran ketinggian melata dan ciri imej, yang digunakan untuk operasi naik taraf seterusnya. Gabungan pandangan mata burung memperoleh ciri BEV bercantum daripada ciri BEV berasaskan ketinggian dan ciri BEV berasaskan kedalaman melalui perhatian silang boleh ubah bentuk, dan kemudian menggunakannya sebagai input kepala pengesan
Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ
Atas ialah kandungan terperinci Jauh di hadapan! BEVHeight++: Penyelesaian baharu untuk pengesanan sasaran visual 3D tepi jalan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!