Artikel ini memperkenalkan kaedah gabungan radar gelombang kamera-milimeter (CR3DT) untuk pengesanan sasaran 3D dan penjejakan berbilang sasaran. Kaedah berasaskan lidar telah menetapkan piawaian yang tinggi untuk bidang ini, tetapi kuasa pengkomputeran yang tinggi dan kos yang tinggi telah menyekat pembangunan penyelesaian ini dalam bidang pemanduan autonomi pengesanan sasaran dan penyelesaian penjejakan 3D adalah disebabkan oleh tingginya kos Ia agak rendah dan telah menarik perhatian ramai sarjana, tetapi disebabkan keputusannya yang kurang baik. Oleh itu, gabungan kamera dan radar gelombang milimeter menjadi penyelesaian yang menjanjikan. Di bawah rangka kerja kamera sedia ada BEVDet, pengarang menggabungkan maklumat spatial dan halaju radar gelombang milimeter dan menggabungkannya dengan kepala pengesan CC-3DT++ untuk meningkatkan ketepatan pengesanan dan penjejakan sasaran 3D dengan ketara serta meneutralkan percanggahan antara prestasi dan kos.
Penilaian Prestasi Pengesanan CR3DT mencapai 35.1% mAP dan 45.6% Skor Pengesanan nuScenes (NDS) pada set pengesahan pengesanan 3D nuScenes. Mengambil kesempatan daripada maklumat halaju kaya yang terkandung dalam data radar, ralat halaju purata pengesan (mAVE) dikurangkan sebanyak 45.3% berbanding pengesan kamera SOTA.
Penilaian Prestasi Penjejakan CR3DT mencapai prestasi penjejakan sebanyak 38.1% AMOTA pada set pengesahan penjejakan nuScenes, peningkatan AMOTA sebanyak 14.9% berbanding model penjejakan SOTA kamera sahaja, penggunaan eksplisit maklumat halaju trek dan Penambahbaikan selanjutnya telah mengurangkan bilangan IDS dengan ketara sebanyak kira-kira 43%.
Seni bina modelKaedah ini berdasarkan rangka kerja EV-Det, menggabungkan maklumat spatial dan halaju RADAR, dan digabungkan dengan kepala pengesan CC-3DT++, yang secara eksplisit menggunakan pengesan dipertingkatkan radar gelombang milimeter dalam perkaitan datanya, yang akhirnya membolehkan pengesanan dan penjejakan sasaran 3D.
Modul ini menggunakan kaedah gabungan yang serupa dengan PointPillars, termasuk pengagregatan dan sambungan di dalamnya. Grid BEV ditetapkan kepada [-51.2, 51.2] dengan resolusi 0.8, menghasilkan grid ciri (128×128). Unjurkan ciri imej terus ke dalam ruang BEV Bilangan saluran setiap unit grid ialah 64, dan kemudian ciri BEV imej adalah (64×128×128 sama, maklumat 18 dimensi Radar diagregatkan ke dalam setiap In unit grid, ini termasuk koordinat x, y dan z bagi titik itu, dan tiada peningkatan dibuat pada data Radar. Penulis mengesahkan bahawa awan titik Radar sudah mengandungi lebih banyak maklumat daripada awan titik LiDAR, jadi ciri Radar BEV ialah (18×128×128). Akhir sekali, ciri BEV imej (64×128×128) dan ciri Radar BEV (18×128×128) disambungkan terus ((64+18)×128×128) sebagai input lapisan pengekodan ciri BEV. Dalam eksperimen ablasi seterusnya, didapati bahawa adalah berfaedah untuk menambah sambungan baki pada output lapisan pengekodan ciri BEV dengan dimensi (256×128×128), menghasilkan saiz input akhir kepala pengesanan CenterPoint sebanyak ( (256+18 )×128×128). . Semasa proses latihan, vektor pembenaman ciri visual satu dimensi diperoleh melalui pembelajaran kontras positif multivariat seakan-akan, dan kemudian pengesanan dan pembenaman ciri digunakan secara serentak dalam peringkat penjejakan CC-3DT. Langkah perkaitan data (modul DA dalam Rajah 1) telah diubah suai untuk memanfaatkan pengesanan kedudukan CR3DT yang dipertingkatkan dan anggaran halaju. Butirannya adalah seperti berikut:
telah diselesaikan berdasarkan set data nuScenes, dan semua latihan tidak menggunakan CBGS.
Model terhad
Jadual 1 Keputusan pengesanan pada set pengesahan nuScenes
Jadual 1 menunjukkan prestasi pengesanan CR3DT berbanding dengan seni bina garis dasar BEVDet (R50) menggunakan kamera sahaja. Jelas sekali bahawa penambahan Radar meningkatkan prestasi pengesanan dengan ketara. Di bawah kekangan resolusi kecil dan rangka masa, CR3DT berjaya mencapai 5.3% peningkatan mAP dan 7.7% NDS berbanding BEVDet kamera sahaja. Walau bagaimanapun, disebabkan oleh had dalam kuasa pengkomputeran, kertas itu tidak mencapai keputusan percubaan resolusi tinggi, maklumat masa penggabungan, dsb. Selain itu, masa inferens juga diberikan dalam lajur terakhir Jadual 1.
Jadual 2 Eksperimen ablasi rangka kerja pengesanan
Dalam Jadual 2, kesan seni bina gabungan yang berbeza pada penunjuk pengesanan dibandingkan. Kaedah gabungan di sini dibahagikan kepada dua jenis: yang pertama disebut dalam kertas, yang meninggalkan voxelization z-dimensi dan konvolusi 3D seterusnya, dan secara langsung mengagregatkan ciri imej yang dipertingkatkan dan data RADAR tulen ke dalam lajur, dengan itu memperoleh Saiz ciri yang diketahui ialah ((64+18)×128×128); yang satu lagi ialah untuk mengeluarkan ciri imej yang dipertingkatkan dan data RADAR tulen ke dalam kiub dengan saiz 0.8×0.8×0.8 m untuk mendapatkan ciri alternatif Saiznya ialah ((64+). 18) × 10 × 128 × 128), jadi modul pemampat BEV perlu digunakan dalam bentuk lilitan 3D. Seperti yang dapat dilihat daripada Jadual 2(a), peningkatan dalam bilangan pemampat BEV akan membawa kepada penurunan prestasi, dan dapat dilihat bahawa penyelesaian pertama berprestasi lebih baik. Ia juga boleh dilihat daripada Jadual 2(b) bahawa menambah blok baki data Radar juga boleh meningkatkan prestasi, yang juga mengesahkan apa yang disebutkan dalam seni bina model sebelumnya Menambah sambungan baki pada output lapisan pengekodan ciri BEV adalah faedah .
Jadual 3 Hasil penjejakan pada set pengesahan nuScenes berdasarkan konfigurasi yang berbeza bagi garis dasar BEVDet dan CR3DT
Jadual 3 menunjukkan hasil penjejakan model penjejakan CC3DT++ yang dipertingkatkan pada set pengesahan nuScenes pada garis dasar dan Prestasi pada model pengesanan CR3DT. Model CR3DT meningkatkan prestasi AMOTA sebanyak 14.9% berbanding garis dasar dan menurunkannya sebanyak 0.11 m dalam AMOTP. Tambahan pula, dapat dilihat bahawa IDS berkurangan kira-kira 43% berbanding garis dasar.
Jadual 4 Penjejakan eksperimen ablasi seni bina yang dilakukan pada tulang belakang pengesanan CR3DT
Kerja ini mencadangkan model gabungan kamera-radar 3D, pengesanan objek yang cekap dan berkesan untuk gabungan radar CR3D secara spesifik Dengan menyepadukan data Radar ke dalam seni bina BEVDet kamera sahaja dan memperkenalkan seni bina penjejakan CC-3DT++, CR3DT telah meningkatkan dengan ketara pengesanan sasaran 3D dan ketepatan penjejakan, dengan mAP dan AMOTA meningkat masing-masing sebanyak 5.35% dan 14.9%.
Penyelesaian penyepaduan kamera dan radar gelombang milimeter mempunyai kelebihan kos rendah berbanding LiDAR tulen atau penyelesaian penyepaduan LiDAR dan kamera, dan hampir dengan perkembangan semasa kenderaan autonomi. Di samping itu, radar gelombang milimeter mempunyai kelebihan untuk menjadi teguh dalam cuaca buruk dan boleh menghadapi pelbagai senario aplikasi Masalah besar semasa ialah jarang awan titik radar gelombang milimeter dan ketidakupayaan untuk mengesan maklumat ketinggian. Walau bagaimanapun, dengan pembangunan berterusan radar gelombang milimeter 4D, saya percaya bahawa penyepaduan masa depan kamera dan penyelesaian radar gelombang milimeter akan mencapai tahap yang lebih tinggi dan mencapai hasil yang lebih baik!
Atas ialah kandungan terperinci Di luar BEVFormer! CR3DT: Gabungan RV membantu pengesanan 3D & penjejakan SOTA (ETH) baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!