Salah satu tugas asas pemanduan autonomi ialah pengesanan sasaran tiga dimensi, dan banyak kaedah kini dilaksanakan berdasarkan kaedah gabungan pelbagai sensor. Jadi mengapa gabungan berbilang sensor diperlukan sama ada gabungan lidar dan kamera, atau radar gelombang milimeter dan gabungan kamera, tujuan utamanya adalah untuk menggunakan sambungan pelengkap antara awan titik dan imej untuk meningkatkan ketepatan pengesanan sasaran . Dengan aplikasi seni bina Transformer yang berterusan dalam bidang penglihatan komputer, kaedah berasaskan mekanisme perhatian telah meningkatkan ketepatan gabungan antara pelbagai sensor. Kedua-dua kertas kerja yang dikongsi adalah berdasarkan seni bina ini dan mencadangkan kaedah gabungan baru untuk menggunakan lebih banyak maklumat berguna bagi modaliti masing-masing dan mencapai gabungan yang lebih baik.
Lidar dan kamera ialah dua penderia pengesanan sasaran tiga dimensi yang penting dalam pemanduan autonomi, bagaimanapun, dalam gabungan penderia, mereka menghadapi masalah ketepatan imej pengesanan yang rendah syarat . Kaedah gabungan berasaskan titik adalah untuk menggabungkan lidar dan kamera melalui perkaitan keras, yang akan membawa kepada beberapa masalah: a) hanya penyambungan awan titik dan ciri imej, dengan kehadiran ciri imej berkualiti rendah, prestasi pengesanan akan merosot dengan serius ;b) Mencari korelasi keras antara awan titik jarang dan imej membuang ciri imej berkualiti tinggi dan sukar untuk diselaraskan. Untuk menyelesaikan masalah ini, kaedah perkaitan lembut dicadangkan. Kaedah ini menganggap lidar dan kamera sebagai dua pengesan bebas, bekerjasama antara satu sama lain dan memanfaatkan sepenuhnya kelebihan kedua-dua pengesan itu. Pertama, pengesan objek tradisional digunakan untuk mengesan objek dan menjana kotak sempadan, dan kemudian kotak sempadan dan awan titik dipadankan untuk mendapatkan skor yang mana kotak sempadan setiap titik dikaitkan. Akhir sekali, ciri imej yang sepadan dengan kotak tepi digabungkan dengan ciri yang dihasilkan oleh awan titik. Kaedah ini berkesan boleh mengelakkan penurunan ketepatan pengesanan yang disebabkan oleh keadaan jalur imej yang lemah Pada masa yang sama, kertas kerja ini memperkenalkan TransFusion, rangka kerja gabungan untuk lidar dan kamera untuk menyelesaikan masalah korelasi antara kedua-dua sensor. Sumbangan utama adalah seperti berikut:
Cadangkan model gabungan pengesanan 3D berasaskan transformer bagi lidar dan kamera, yang menunjukkan keteguhan yang sangat baik kepada kualiti imej yang lemah dan salah penjajaran penderiaLiDAR-Camera Fusion
Jika objek hanya mengandungi sebilangan kecil titik lidar, maka hanya bilangan ciri imej yang sama boleh diperoleh, membazirkan maklumat semantik Imej berkualiti tinggi . Oleh itu, kertas kerja ini mengekalkan semua ciri imej dan menggunakan mekanisme perhatian silang dan kaedah penyesuaian dalam Transformer untuk melakukan gabungan ciri, supaya rangkaian boleh menyesuaikan lokasi dan maklumat daripada imej secara adaptif. Untuk mengurangkan masalah salah jajaran ruang bagi ciri LiDAR BEV dan ciri imej yang datang daripada penderia yang berbeza,modul Silang Perhatian Bermodul Ruang (SMCA)
direka, yang melepasi Gaussian bulat 2D di sekitar pusat 2D setiap unjuran pertanyaan berat topeng merentas perhatian.Modul ini menggunakan maklumat lidar dan imej sebagai pertanyaan objek pada masa yang sama, dengan menghantar ciri imej dan ciri BEV lidar ke dalam rangkaian mekanisme perhatian silang, menayangkannya pada satah BEV dan menjana ciri BEV bercantum. Seperti yang ditunjukkan dalam Rajah 2, ciri imej berbilang paparan pertama kali dilipat di sepanjang paksi ketinggian sebagai nilai utama rangkaian mekanisme perhatian silang, dan ciri BEV lidar dihantar ke rangkaian perhatian sebagai pertanyaan untuk mendapatkan ciri BEV bercantum, yang digunakan untuk ramalan peta haba , dan dipuratakan dengan peta haba lidar sahaja Ŝ untuk mendapatkan peta haba akhir Ŝ untuk memilih dan memulakan pertanyaan sasaran. Operasi sedemikian membolehkan model mengesan sasaran yang sukar dikesan dalam awan titik lidar.
set data nuScenes ialah set data pemanduan autonomi berskala besar untuk pengesanan dan penjejakan 3D, yang mengandungi 700, 150 dan 150, kesahihan, dan digunakan untuk latihan. Setiap bingkai mengandungi awan titik lidar dan enam imej penentukuran yang meliputi medan pandangan mendatar 360 darjah. Untuk pengesanan 3D, metrik utama ialah purata ketepatan purata (mAP) dan skor pengesanan nuScenes (NDS). mAP ditakrifkan oleh jarak pusat BEV dan bukannya IoU 3D, dan mAP akhir dikira dengan purata ambang jarak 0.5m, 1m, 2m, 4m untuk 10 kategori. NDS ialah ukuran komprehensif bagi mAP dan ukuran atribut lain, termasuk terjemahan, skala, orientasi, halaju dan atribut kotak lain. .
Dataset Waymo termasuk 798 babak untuk latihan dan 202 babak untuk pengesahan. Penunjuk rasmi ialah mAP dan mAPH (mAP ditimbang mengikut ketepatan tajuk). mAP dan mAPH ditakrifkan berdasarkan ambang IoU 3D, iaitu 0.7 untuk kenderaan dan 0.5 untuk pejalan kaki dan penunggang basikal. Metrik ini dipecahkan lagi kepada dua tahap kesukaran: LEVEL1 untuk kotak sempadan dengan lebih daripada 5 mata lidar dan LEVEL2 untuk kotak sempadan dengan sekurang-kurangnya satu titik lidar. Tidak seperti kamera 360 darjah nuScenes, kamera Waymo hanya meliputi kira-kira 250 darjah secara mendatar.
Latihan Pada set data nuScenes, gunakan DLA34 sebagai rangkaian tulang belakang 2D imej dan bekukan pemberatnya, tetapkan saiz imej kepada 448×800; pilih VoxelNet sebagai rangkaian tulang belakang 3D lidar. Proses latihan dibahagikan kepada dua peringkat: peringkat pertama hanya menggunakan data LiDAR sebagai input, dan menggunakan penyahkod lapisan pertama dan rangkaian suapan FFN untuk melatih tulang belakang 3D sebanyak 20 kali untuk menjana ramalan kotak sempadan 3D awal; -Kamera Modul pemulaan pertanyaan gabungan dan berpandukan imej dilatih selama 6 kali. Imej kiri ialah seni bina lapisan penyahkod transformer yang digunakan untuk ramalan kotak sempadan awal; imej kanan ialah seni bina lapisan penyahkod pengubah yang digunakan untuk gabungan LiDAR-Camera.
Figure 3 Reka Bentuk Lapisan Decoder
First Bandingkan prestasi transfusi dan kaedah SOTA lain pada tugas pengesanan objek 3D. set ujian nuScenes , dapat dilihat bahawa kaedah ini telah mencapai prestasi terbaik pada masa itu (mAP ialah 68.9%, NDS ialah 71.7%). TransFusion-L hanya menggunakan lidar untuk pengesanan, dan prestasi pengesanannya jauh lebih baik daripada kaedah pengesanan mod tunggal sebelumnya, malah melebihi beberapa kaedah berbilang modal Ini disebabkan terutamanya oleh mekanisme perkaitan dan strategi pemulaan pertanyaan. Jadual 2 menunjukkan keputusan TAHAP 2 mAPH pada set pengesahan Waymo. Perbandingan Jadual 1 dengan kaedah SOTA dalam ujian nuScenes rangka kerja gabungan yang berbeza adalah direka untuk mengesahkan, kekukuhan. Tiga rangka kerja gabungan ialah penyambungan titik demi titik dan gabungan ciri lidar dan imej (CC), strategi gabungan peningkatan titik (PA) dan TransFusion. Seperti yang ditunjukkan dalam Jadual 3, dengan membahagikan set data nuScenes kepada siang dan malam, kaedah TransFusion akan membawa peningkatan prestasi yang lebih besar pada waktu malam. Semasa proses inferens, ciri-ciri imej ditetapkan kepada sifar untuk mencapai kesan membuang secara rawak beberapa imej dalam setiap bingkai Seperti yang dapat dilihat dalam Jadual 4, apabila beberapa imej tidak tersedia semasa proses inferens, prestasi pengesanan. akan menurun dengan ketara, di mana mAP CC dan PA masing-masing turun sebanyak 23.8% dan 17.2%, manakala TransFusion kekal pada 61.7%. Penderia yang tidak ditentukur juga akan sangat mempengaruhi prestasi pengesanan sasaran 3D Tetapan eksperimen secara rawak menambah offset terjemahan kepada matriks transformasi daripada kamera ke lidar, seperti yang ditunjukkan dalam Rajah 4. Apabila kedua-dua sensor diimbangi oleh 1m, mAP. TransFusion Ia hanya menurun sebanyak 0.49%, manakala mAP PA dan CC masing-masing menurun sebanyak 2.33% dan 2.85%.
Jadual 3 mAP pada waktu siang dan malam
Jadual 4 mAP di bawah bilangan imej yang berbeza
Rajah 4 mAP di bawah penjajaran penderia
) f) dapat dilihat daripada keputusan bahawa tanpa pemulaan pertanyaan, prestasi pengesanan menurun dengan banyak Walaupun meningkatkan bilangan pusingan latihan dan bilangan lapisan penyahkod boleh meningkatkan prestasi, ia masih tidak dapat mencapai kesan yang ideal, yang juga bermakna Ia terbukti. dari sisi bahawa strategi pertanyaan permulaan yang dicadangkan boleh mengurangkan bilangan lapisan rangkaian. Seperti yang ditunjukkan dalam Jadual 6, gabungan ciri imej dan pemulaan pertanyaan berpandukan imej membawa keuntungan mAP masing-masing sebanyak 4.8% dan 1.6%. Dalam Jadual 7, melalui perbandingan ketepatan dalam julat yang berbeza, prestasi pengesanan TransFusion dalam objek yang sukar dikesan atau kawasan terpencil telah dipertingkatkan berbanding pengesanan lidar sahaja.
Jadual 5 Eksperimen ablasi modul permulaan pertanyaan
Jadual 6 Eksperimen ablasi bahagian gabungan
Jadual 7 Jarak antara objek
Rajah 2 Modul interaksi perwakilan multimod
Rangkaian tulang belakang imej ialah ResNet50 Untuk menjimatkan kos pengkomputeran, imej input diubah saiznya kepada 1/2 daripada saiz asal sebelum memasuki rangkaian, dan berat cabang imej dibekukan semasa. latihan. Saiz voxel ditetapkan kepada (0.075m, 0.075m, 0.2m), julat pengesanan ditetapkan kepada [-54m, 54m] untuk paksi-X dan paksi-Y, dan [-5m, 3m] untuk Z- paksi. Reka bentuk 2 lapisan lapisan pengekod dan 5 lapisan penyahkod. Selain itu, dua model ujian penyerahan dalam talian disediakan: peningkatan masa ujian (TTA) dan penyepaduan model, dan kedua-dua tetapan itu masing-masing dipanggil DeepInteraction-large dan DeepInteraction-e. Antaranya, DeepInteraction-large menggunakan Swin-Tiny sebagai rangkaian tulang belakang imej, dan menggandakan bilangan saluran blok konvolusi dalam rangkaian tulang belakang lidar Saiz voxel ditetapkan kepada [0.5m, 0.5m, 0.2m], dan membalikkan dua arah dan Putar sudut yaw [0°, ±6.25°, ±12.5°] untuk meningkatkan masa ujian. DeepInteraction-e menyepadukan berbilang model DeepInteraction-besar, dan saiz grid BEV lidar input ialah [0.5m, 0.5m] dan [1.5m, 1.5m].
Pembesaran data mengikut konfigurasi TransFusion: menggunakan putaran rawak dalam julat [-π/4,π/4], pekali penskalaan rawak [0.9,1.1], terjemahan rawak tiga paksi dan flip mendatar rawak dengan sisihan piawai 0.5, juga menggunakan pensampelan semula seimbang kelas dalam CBGS untuk mengimbangi pengedaran kelas nuScenes. Kaedah latihan dua peringkat yang sama seperti TransFusion digunakan, menggunakan TransFusion-L sebagai garis dasar untuk latihan lidar sahaja. Pengoptimum Adam menggunakan strategi kadar pembelajaran kitaran tunggal, dengan kadar pembelajaran maksimum 1×10−3, pengecilan berat 0.01, momentum 0.85 ~ 0.95, dan mengikuti CBGS. Latihan garis dasar lidar ialah 20 pusingan, gabungan imej lidar ialah 6 pusingan, saiz kelompok ialah 16, dan 8 GPU NVIDIA V100 digunakan untuk latihan. Perbandingan dengan kaedah terkiniJadual 4 Eksperimen ablasi pengekod
Menggunakan dua rangkaian tulang belakang lidar berbeza: PointPillar dan VoxelNet untuk menyemak keluasan rangka kerja. Untuk PointPillars, tetapkan saiz voxel kepada (0.2m, 0.2m) sambil mengekalkan tetapan selebihnya sama seperti DeepInteraction-base. Disebabkan oleh strategi interaksi berbilang mod yang dicadangkan, DeepInteraction menunjukkan peningkatan yang konsisten ke atas garis dasar lidar sahaja apabila menggunakan sama ada tulang belakang (5.5% mAP untuk tulang belakang berasaskan voxel dan 4.4% mAP untuk tulang belakang berasaskan tiang) ). Ini mencerminkan fleksibiliti DeepInteraction antara pengekod awan titik yang berbeza. . Idea utama adalah untuk mengekalkan dua perwakilan khusus modaliti dan mewujudkan interaksi antara mereka untuk pembelajaran perwakilan dan penyahkodan ramalan. Strategi ini direka khusus untuk menangani had asas kaedah gabungan satu sisi yang sedia ada, iaitu perwakilan imej kurang digunakan kerana pemprosesan aksara sumber tambahannya.
Ringkasan kedua-dua kertas kerja:
Dua kertas di atas kedua-duanya adalah pengesanan sasaran tiga dimensi berdasarkan lidar dan gabungan kamera Ia juga boleh dilihat daripada DeepInteraction bahawa ia menggunakan kerja selanjutnya daripada TransFusion. Daripada kedua-dua kertas kerja ini, kita boleh menyimpulkan bahawa satu arah pelakuran berbilang sensor adalah untuk meneroka kaedah gabungan dinamik yang lebih cekap untuk memberi tumpuan kepada maklumat yang lebih berkesan daripada modaliti yang berbeza. Sudah tentu, semua ini adalah berdasarkan maklumat berkualiti tinggi dalam kedua-dua modaliti. Gabungan multimodal akan mempunyai aplikasi yang sangat penting dalam bidang masa hadapan seperti pemanduan autonomi dan robot pintar Memandangkan maklumat yang diekstrak daripada modaliti yang berbeza secara beransur-ansur menjadi lebih kaya, lebih banyak maklumat akan tersedia kepada kami Jadi cara untuk menggabungkan data ini dengan lebih cekap juga soalan yang patut difikirkan.Atas ialah kandungan terperinci Bagaimana untuk menggunakan pengubah untuk mengaitkan ciri radar-visual gelombang lidar-milimeter dengan berkesan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!