QTNet: Penyelesaian gabungan temporal baharu untuk awan titik, imej dan pengesan berbilang modal (NeurIPS 2023)-AI-php.cn

Ditulis sebelum & pemahaman peribadi

Penyatuan siri masa ialah cara yang berkesan untuk meningkatkan keupayaan persepsi pengesanan sasaran 3D pemanduan autonomi, tetapi kaedah semasa mempunyai masalah seperti kos dan overhed apabila digunakan dalam senario pemanduan autonomi sebenar. Artikel penyelidikan terkini "Penyatuan pemasaan gerakan eksplisit berasaskan pertanyaan untuk pengesanan sasaran 3D" mencadangkan kaedah gabungan pemasaan baharu dalam NeurIPS 2023, yang mengambil pertanyaan jarang sebagai objek pemasaan pemasaan dan menggunakan maklumat gerakan eksplisit untuk menjana pemasaan matriks Perhatian untuk disesuaikan dengan ciri-ciri awan titik berskala besar. Kaedah ini telah dicadangkan oleh penyelidik dari Universiti Sains dan Teknologi Huazhong dan Baidu, dan dipanggil QTNet: kaedah gabungan temporal untuk pengesanan sasaran 3D berdasarkan pertanyaan dan gerakan eksplisit. Eksperimen telah membuktikan bahawa QTNet boleh membawa peningkatan prestasi yang konsisten ke awan titik, imej dan pengesan berbilang modal hampir tanpa kos overhed

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Pautan kertas: https://openreview.net/pdf?id =gySmwdmVDF
Kod pautan: https://github.com/AlmoonYsl/QTNet

Latar belakang masalah

Berkat kesinambungan masa dunia nyata, maklumat dalam dimensi masa boleh menjadikan maklumat persepsi lebih lengkap, dan kemudian Meningkatkan ketepatan dan keteguhan pengesanan sasaran Contohnya, maklumat pemasaan boleh membantu menyelesaikan masalah oklusi dalam pengesanan sasaran, memberikan status gerakan sasaran dan maklumat kelajuan, dan memberikan maklumat ketekalan dan ketekalan sasaran. Oleh itu, cara menggunakan maklumat masa dengan cekap adalah isu penting dalam persepsi pemanduan autonomi. Kaedah gabungan masa sedia ada terbahagi kepada dua kategori. Satu jenis ialah gabungan siri masa berdasarkan ciri BEV yang padat (terpakai untuk gabungan awan titik/imej siri masa), dan jenis lain ialah gabungan siri masa berdasarkan ciri Cadangan 3D (terutamanya bertujuan untuk kaedah gabungan siri masa awan titik). Untuk gabungan temporal berdasarkan ciri BEV, memandangkan lebih daripada 90% mata pada BEV adalah latar belakang, kaedah jenis ini tidak memberi lebih perhatian kepada objek latar depan, yang mengakibatkan banyak overhed pengiraan yang tidak diperlukan dan prestasi sub-optimum. Untuk algoritma gabungan siri masa berdasarkan Cadangan 3D, ia menjana ciri Cadangan 3D melalui Penggabungan RoI 3D yang memakan masa Terutama apabila terdapat banyak sasaran dan sejumlah besar awan titik, overhed yang disebabkan oleh Penggabungan RoI 3D sebenarnya sangat tinggi. Selalunya sukar untuk diterima dalam permohonan. Selain itu, ciri Cadangan 3D sangat bergantung pada kualiti Cadangan, yang selalunya terhad dalam adegan yang kompleks. Oleh itu, adalah sukar bagi kaedah semasa untuk memperkenalkan gabungan temporal dengan cekap untuk meningkatkan prestasi pengesanan sasaran 3D dengan cara overhed yang sangat rendah.

Bagaimana untuk mencapai gabungan masa yang cekap?

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

DETR ialah paradigma pengesanan sasaran yang sangat baik. Reka bentuk Pertanyaannya dan idea Tetapan Ramalan merealisasikan paradigma pengesanan yang elegan tanpa sebarang pasca pemprosesan. Dalam DETR, setiap Pertanyaan mewakili objek, dan Pertanyaan adalah sangat jarang berbanding dengan ciri padat (biasanya bilangan Pertanyaan ditetapkan kepada nombor tetap yang agak kecil). Jika Quey digunakan sebagai objek gabungan masa, masalah overhed pengiraan secara semula jadi akan turun ke tahap yang lebih rendah. Oleh itu, paradigma Pertanyaan DETR ialah paradigma yang secara semula jadi sesuai untuk gabungan masa. Percantuman temporal memerlukan pembinaan perkaitan objek antara berbilang bingkai untuk mencapai sintesis maklumat konteks temporal. Jadi masalah utama ialah cara membina saluran paip gabungan masa berasaskan Pertanyaan dan mewujudkan korelasi antara Pertanyaan antara dua bingkai.

Disebabkan pergerakan kenderaan sendiri dalam adegan sebenar, awan titik/imej kedua-dua bingkai sering tidak sejajar dalam sistem koordinat, dan dalam aplikasi praktikal adalah mustahil untuk memajukan semula semua bingkai sejarah dalam bingkai semasa melalui rangkaian untuk pengekstrakan Ciri awan/imej titik sejajar. Oleh itu, artikel ini menggunakan Bank Memori untuk menyimpan hanya ciri Pertanyaan yang diperoleh daripada bingkai sejarah dan hasil pengesanan sepadannya untuk mengelakkan pengiraan berulang.
Memandangkan awan titik dan imej sangat berbeza dalam menerangkan ciri sasaran, adalah tidak mungkin untuk membina kaedah gabungan temporal bersatu melalui tahap ciri. Walau bagaimanapun, dalam ruang tiga dimensi, kedua-dua awan titik dan modaliti imej boleh menggambarkan korelasi antara bingkai bersebelahan melalui hubungan maklumat kedudukan/gerakan geometri sasaran. Oleh itu, kertas ini menggunakan kedudukan geometri objek dan maklumat gerakan yang sepadan untuk membimbing matriks perhatian objek antara dua bingkai.

Pengenalan kaedah

Idea teras QTNet ialah menggunakan Bank Memori untuk menyimpan ciri Pertanyaan yang diperolehi dalam bingkai sejarah dan hasil pengesanannya yang sepadan untuk mengelakkan overhed pengiraan berulang bingkai sejarah. Di antara dua bingkai Pertanyaan, gunakan matriks perhatian berpandukan gerakan untuk pemodelan perhubungan

rangka kerja keseluruhan

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Seperti yang ditunjukkan dalam rajah rangka kerja, QTNet menyertakan pengesan objek 3D dengan struktur DETR 3D (LiDAR, Kamera dan berbilang modal tersedia), Bank Memori dan Modul Pemodelan Temporal (MTM) berpandukan Gerakan untuk gabungan masa. QTNet memperoleh ciri Pertanyaan dan hasil pengesanan bingkai yang sepadan melalui pengesan sasaran 3D bagi struktur DETR, dan menghantar ciri Pertanyaan dan hasil pengesanan yang diperoleh kepada Bank Memori dalam baris gilir masuk dahulu, keluar dahulu (FIFO). Bilangan Bank Memori ditetapkan kepada bilangan bingkai yang diperlukan untuk gabungan masa. Untuk gabungan masa, QTNet membaca data dari Bank Memori bermula dari saat yang paling jauh, dan menggunakan modul MTM untuk menggabungkan semua ciri dalam Bank Memori secara berulang daripada bingkai ke bingkai untuk meningkatkan ciri Pertanyaan semasa bingkai, dan Perhalusi hasil pengesanan yang sepadan dengan bingkai semasa berdasarkan ciri Pertanyaan yang dipertingkatkan.

Secara khusus, QTNet menggabungkan ciri Pertanyaan dan daripada bingkai dengan bingkai dan , dan memperoleh ciri Bingkai 🜎 yang dipertingkatkan. Kemudian, QTNet menggabungkan ciri Pertanyaan bagi bingkai dan . Dengan cara ini, ia disepadukan secara berterusan ke bingkai melalui lelaran. Ambil perhatian bahawa MTM yang digunakan di sini daripada bingkai ke bingkai semua parameter perkongsian. Modul Perhatian Berpandu Gerakan

MTM menggunakan kedudukan titik tengah objek untuk menjana secara eksplisit matriks perhatian QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Kueri Bingkai dan

Kueri Bingkai Memandangkan matriks pose ego dan , titik tengah objek, dan kelajuan. Mula-mula, MTM menggunakan pose ego dan maklumat kelajuan ramalan objek untuk mengalihkan objek dalam bingkai sebelumnya ke bingkai seterusnya dan menyelaraskan sistem koordinat kedua-dua bingkai: Kemudian melepasi

titik pusat objek bingkai dan

bingkai titik tengah diperbetulkan Bina matriks kos Euclidean. Di samping itu, untuk mengelakkan kemungkinan padanan palsu, artikel ini menggunakan kategori dan ambang jarak untuk membina topeng perhatian : Menukar matriks kos ke dalam matriks perhatian adalah matlamat utama

Matriks perhatian

digunakan Ciri Pertanyaan dipertingkatkan bingkai

digunakan untuk mengagregatkan ciri pemasaan untuk meningkatkan ciri Pertanyaan bingkai : Ciri pertanyaan terakhir bingkai 🜎 dipertingkatkan diperhalusi melalui FFN mudah kepada keputusan pengesanan yang sepadan, Untuk mencapai kesan meningkatkan prestasi pengesanan.

Decoupled temporal fusion structure

Diperhatikan bahawa terdapat masalah ketidakseimbangan dalam pembelajaran klasifikasi dan regresi bagi gabungan temporal. Walau bagaimanapun, pendekatan penyahgandingan ini menambahkan lebih banyak kos pengiraan dan kependaman, yang tidak boleh diterima untuk kebanyakan kaedah. Sebaliknya, QTNet menggunakan reka bentuk gabungan pemasaan yang cekap, kos pengiraan dan kelewatannya boleh diabaikan, dan ia berprestasi lebih baik daripada keseluruhan rangkaian pengesanan 3D. Oleh itu, artikel ini menggunakan kaedah penyahgandingan bagi klasifikasi dan cabang regresi dalam gabungan siri masa untuk mencapai prestasi pengesanan yang lebih baik pada kos yang boleh diabaikan, seperti yang ditunjukkan dalam rajah

Hasil eksperimen QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

QTNet pada titik Mencapai titik pertumbuhan yang konsisten pada awan/ imej/multi-modaliti

Selepas pengesahan pada set data nuScenes, didapati bahawa QTNet mencapai 68.4 mAP dan 72.2 NDS tanpa menggunakan maklumat masa depan, TTA dan integrasi model Mencapai prestasi SOTA. Berbanding dengan MGTANet yang menggunakan maklumat masa depan, QTNet berprestasi lebih baik daripada MGTANet dalam kes gabungan temporal 3 bingkai, masing-masing meningkatkan mAP sebanyak 3.0 dan NDS sebanyak 1.0

Selain itu, kertas kerja ini juga meneroka pelbagai modal dan Kaedah berdasarkan paparan cincin telah disahkan, dan keputusan eksperimen pada set pengesahan nuScenes membuktikan keberkesanan QTNet dalam modaliti yang berbeza.

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Untuk aplikasi praktikal, kos overhed gabungan masa adalah sangat penting. Artikel ini menjalankan analisis dan eksperimen pada QTNet dalam tiga aspek: jumlah pengiraan, kelewatan dan jumlah parameter. Keputusan menunjukkan bahawa berbanding dengan keseluruhan rangkaian, overhed pengiraan QTNet, kelewatan masa dan jumlah parameter yang disebabkan oleh garis dasar yang berbeza adalah diabaikan, terutamanya jumlah pengiraan hanya menggunakan FLOP 0.1G (garis dasar LiDAR)

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Perbandingan masa yang berbeza paradigma

Untuk mengesahkan keunggulan paradigma pemasaan berasaskan pertanyaan, kami memilih kaedah gabungan pemasaan canggih perwakilan yang berbeza untuk perbandingan. Melalui keputusan eksperimen, didapati algoritma gabungan masa berdasarkan paradigma Query adalah lebih cekap daripada yang berasaskan paradigma BEV dan Proposal. Hanya menggunakan FLOP 0.1G dan overhed 4.5ms, QTNet menunjukkan prestasi yang lebih baik, manakala amaun parameter keseluruhan hanya 0.3M

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Eksperimen ablasi

Kajian ini berdasarkan set pengesahan nuScenes LiDAR, melalui garis dasar ablasi 3-bingkai gabungan temporal. Keputusan eksperimen menunjukkan bahawa hanya menggunakan Cross Attention untuk memodelkan hubungan temporal tidak mempunyai kesan yang jelas. Walau bagaimanapun, apabila menggunakan MTM, prestasi pengesanan dipertingkatkan dengan ketara, yang menggambarkan kepentingan panduan gerakan eksplisit dalam awan titik berskala besar. Selain itu, melalui uji kaji ablasi juga didapati reka bentuk keseluruhan QTNet adalah sangat ringan dan cekap. Apabila menggunakan 4 bingkai data untuk gabungan masa, amaun pengiraan QTNet hanyalah 0.24G FLOP, dan kelewatan hanya 6.5 milisaat

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Visualisasi MTM

Sebab untuk meneroka MTM lebih baik. daripada Cross Attention, artikel ini menggabungkan dua Matriks perhatian objek antara bingkai divisualisasikan, dengan ID yang sama mewakili objek yang sama antara dua bingkai. Didapati bahawa matriks perhatian (b) yang dihasilkan oleh MTM adalah lebih diskriminasi berbanding matriks perhatian (a) yang dihasilkan oleh Perhatian Silang, terutamanya matriks perhatian antara objek kecil. Ini menunjukkan bahawa matriks perhatian berpandukan gerakan eksplisit memudahkan model untuk mewujudkan perkaitan objek antara dua bingkai melalui pemodelan fizikal. Artikel ini hanya meneroka secara ringkas isu mewujudkan korelasi pemasaan secara fizikal dalam gabungan pemasaan Ia masih patut diterokai cara membina korelasi pemasaan dengan lebih baik.

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Visualisasi hasil pengesanan

Artikel ini menggunakan urutan adegan sebagai objek untuk menjalankan analisis visual hasil pengesanan. Ia boleh didapati bahawa objek kecil di sudut kiri bawah dengan cepat bergerak menjauhi kenderaan bermula dari bingkai , yang menyebabkan garis dasar terlepas pengesanan objek dalam bingkai Walau bagaimanapun, QTNet masih boleh mengesan objek dalam bingkai , yang membuktikan bahawa QTNet mampu memadukan keberkesanan pada.

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Ringkasan artikel ini

Artikel ini mencadangkan kaedah gabungan temporal berasaskan Pertanyaan QTNet yang lebih cekap untuk tugas pengesanan sasaran 3D semasa. Teras utamanya mempunyai dua perkara: satu ialah menggunakan Pertanyaan jarang sebagai objek gabungan temporal dan menyimpan maklumat sejarah melalui Bank Memori untuk mengelakkan pengiraan berulang; satu lagi ialah menggunakan pemodelan gerakan eksplisit untuk membimbing penjanaan matriks perhatian antara pertanyaan temporal , untuk mencapai pemodelan hubungan temporal. Melalui dua idea utama ini, QTNet boleh melaksanakan gabungan pemasaan dengan cekap yang boleh digunakan pada LiDAR, Kamera dan pelbagai mod, dan secara konsisten meningkatkan prestasi pengesanan sasaran 3D dengan overhed kos yang boleh diabaikan.

QTNet：全新时序融合方案解决方案，适用于点云、图像和多模态检测器（NeurIPS 2023）

Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/s9tkF_rAP2yUEkn6tp9eUQ

Atas ialah kandungan terperinci QTNet: Penyelesaian gabungan temporal baharu untuk awan titik, imej dan pengesan berbilang modal (NeurIPS 2023). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!