Kertas: Kaedah Lift-Attend-Splat untuk kamera pandangan mata burung dan gabungan lidar menggunakan teknologi Transformer
Sila klik pautan untuk melihat fail: https://arxiv.org/pdf/2312.14919.pdf
Untuk keselamatan- aplikasi kritikal seperti pemanduan autonomi Adalah penting untuk menggabungkan modaliti sensor pelengkap. Kaedah gabungan kamera-lidar pemanduan autonomi terkini menggunakan anggaran kedalaman monokular untuk meningkatkan persepsi, tetapi ini adalah tugas yang sukar berbanding dengan menggunakan maklumat kedalaman secara langsung daripada lidar. Kajian kami mendapati bahawa pendekatan ini tidak mengeksploitasi sepenuhnya maklumat kedalaman dan menunjukkan bahawa penambahbaikan anggaran kedalaman secara naif tidak meningkatkan prestasi pengesanan objek. Yang menghairankan, mengalih keluar anggaran kedalaman sepenuhnya tidak merendahkan prestasi pengesanan objek
Ini menunjukkan bahawa pergantungan pada kedalaman monokular mungkin merupakan kesesakan seni bina yang tidak perlu semasa gabungan kamera-lidar. Kajian ini mencadangkan kaedah gabungan baharu yang memintas sepenuhnya anggaran kedalaman monokular dan sebaliknya menggunakan mekanisme perhatian mudah untuk memilih dan menggabungkan ciri kamera dan lidar dalam grid BEV. Keputusan menunjukkan bahawa model yang dicadangkan mampu melaraskan penggunaan ciri kamera berdasarkan ketersediaan ciri lidar dan mempunyai prestasi pengesanan 3D yang lebih baik pada dataset nuScenes daripada model garis dasar berdasarkan anggaran kedalaman monokular
Pengenalan kepada kajian ini Kamera baharu -kaedah gabungan lidar yang dipanggil "Lift Attented Splat" telah dibangunkan. Kaedah ini mengelakkan anggaran kedalaman monokular dan sebaliknya menggunakan pengubah mudah untuk memilih dan menggabungkan ciri kamera dan lidar dalam BEV. Eksperimen membuktikan bahawa berbanding dengan kaedah berdasarkan anggaran kedalaman monokular, kaedah penyelidikan ini boleh menggunakan kamera dengan lebih baik dan meningkatkan prestasi pengesanan objek. Sumbangan kajian ini adalah seperti berikut:
Ketepatan ramalan kedalaman biasanya rendah. Analisis kualitatif dan kuantitatif boleh dilakukan dengan membandingkan kualiti kedalaman yang diramalkan oleh BEVFusion dengan peta kedalaman lidar menggunakan ralat relatif mutlak (Abs.Rel.) dan ralat purata kuasa dua (RMSE). Seperti yang ditunjukkan dalam Rajah 1, ramalan kedalaman tidak menggambarkan dengan tepat struktur tempat kejadian dan berbeza dengan ketara daripada peta kedalaman lidar, menunjukkan bahawa kedalaman monokular tidak digunakan sepenuhnya seperti yang diharapkan. Kajian itu juga mendapati bahawa meningkatkan ramalan kedalaman tidak meningkatkan prestasi pengesanan objek! Mengalih keluar ramalan kedalaman sepenuhnya tidak memberi kesan kepada prestasi pengesanan objek
Kami mencadangkan kaedah gabungan kamera-lidar yang memintas sepenuhnya anggaran kedalaman monokular dan sebaliknya menggunakan pengubah ringkas untuk bergabung dalam ciri Kamera dan lidar pandangan mata burung. Walau bagaimanapun, disebabkan oleh bilangan ciri kamera dan lidar yang banyak dan sifat perhatian kuadratik, seni bina pengubah sukar untuk digunakan dengan mudah pada masalah gabungan kamera-lidar. Apabila menayangkan ciri kamera dalam BEV, geometri masalah boleh digunakan untuk mengehadkan skop perhatian dengan ketara, kerana ciri kamera sepatutnya hanya menyumbang kepada kedudukan di sepanjang sinaran yang sepadan. Kami menggunakan idea ini pada kes gabungan kamera-lidar dan memperkenalkan kaedah gabungan mudah yang menggunakan perhatian silang antara lajur dalam satah kamera dan sinar kutub dalam grid BEV lidar! Daripada meramalkan kedalaman monokular, perhatian silang mempelajari ciri kamera yang paling menonjol dalam konteks yang disediakan oleh ciri lidar di sepanjang sinarnya
Model kami mempunyai seni bina keseluruhan yang serupa dengan kaedah berdasarkan paradigma Lift Splat, Selain menayangkan ciri kamera dalam BEV. Seperti yang ditunjukkan dalam rajah di bawah, ia terdiri daripada kamera dan tulang belakang lidar, modul yang menjana secara bebas setiap ciri modal, modul unjuran dan gabungan yang membenamkan ciri kamera ke dalam BEV dan menggabungkannya dengan lidar serta kepala pengesanan. Apabila mempertimbangkan pengesanan sasaran, output akhir model ialah atribut sasaran dalam adegan, termasuk kedudukan, dimensi, arah, kelajuan dan maklumat klasifikasi, yang diwakili dalam bentuk kotak sempadan 3D
Lift Attented Splat camera lidar fusion seni bina ditunjukkan di bawah. (Kiri) Seni bina keseluruhan: Ciri daripada kamera dan tulang belakang lidar disatukan sebelum dihantar ke kepala pengesan. (inset) Geometri unjuran 3D kami: Langkah "Angkat" membenamkan ciri BEV lidar ke dalam ufuk yang diunjurkan dengan menggunakan pensampelan dwilinear untuk mengangkat ciri lidar di sepanjang arah z. Langkah "percikan" sepadan dengan transformasi songsang, kerana ia menggunakan pensampelan dwilinear untuk menayangkan ciri dari ufuk yang diunjurkan kembali ke grid BEV, sekali lagi di sepanjang arah z! Di sebelah kanan ialah butiran modul projek.
Pautan asal: https://mp.weixin.qq.com/s/U63xCRSvrp
Atas ialah kandungan terperinci Penyelesaian Gabungan BEV LV Baharu: Angkat-Hadiri-Percikan Melampaui BEVFusion. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!