Tajuk baharu: Sparse4D v3: Memajukan teknologi pengesanan dan penjejakan 3D hujung ke hujung
Pautan kertas: https://arxiv.org/pdf/2311.11722.pdf
Kandungan yang perlu ditulis semula ialah: Pautan kod: https:// github.com/linxuewu/Sparse4D
Kandungan yang ditulis semula: Gabungan pengarang ialah Horizon Corporation
Dalam pengesanan sistem pengesanan pemanduan autonomi 3 dan dua tugasan asas pengesanan pemanduan autonomi dan 3, pengesanan pemanduan. Artikel ini melihat dengan lebih mendalam kawasan ini berdasarkan rangka kerja Sparse4D. Kertas kerja ini memperkenalkan dua tugas latihan tambahan (denoising instance temporal-Denoising Instance Temporal dan anggaran kualiti-Anggaran Kualiti), dan mencadangkan perhatian yang dipisahkan (decoupled attention) untuk penambahbaikan struktur, dengan itu meningkatkan prestasi pengesanan dengan ketara. Tambahan pula, kertas ini memanjangkan pengesan kepada penjejak menggunakan kaedah mudah yang memberikan ID contoh semasa inferens, seterusnya menyerlahkan kelebihan algoritma berasaskan pertanyaan. Eksperimen yang meluas pada penanda aras nuScenes mengesahkan keberkesanan penambahbaikan yang dicadangkan. Menggunakan ResNet50 sebagai tulang belakang, mAP, NDS dan AMOTA masing-masing meningkat sebanyak 3.0%, 2.2% dan 7.6%, masing-masing mencapai 46.9%, 56.1% dan 49.0%. Model terbaik dalam artikel ini mencapai 71.9% NDS dan 67.7% AMOTA pada set ujian nuScenes
Sparse4D-v3 ialah rangka kerja persepsi 3D yang berkuasa yang mencadangkan tiga strategi berkesan: Contoh siri masa yang berkualiti anggaran dan menyahganding perhatian
Kertas kerja ini memanjangkan Sparse4D ke dalam model penjejakan hujung ke hujung.
Kertas kerja ini menunjukkan keberkesanan penambahbaikan nuScenes, mencapai prestasi terkini dalam tugas pengesanan dan pengesanan.
Pertama, diperhatikan bahawa algoritma jarang menghadapi cabaran yang lebih besar dalam penumpuan berbanding dengan algoritma padat, sekali gus menjejaskan prestasi akhir. Masalah ini telah dikaji dengan baik dalam bidang pengesanan 2D [17, 48, 53], terutamanya kerana algoritma jarang menggunakan padanan sampel positif satu-dengan-satu. Kaedah pemadanan ini tidak stabil pada peringkat awal latihan, dan dibandingkan dengan padanan satu-ke-banyak, bilangan sampel positif adalah terhad, sekali gus mengurangkan kecekapan latihan penyahkod. Tambahan pula, Sparse4D menggunakan pensampelan ciri yang jarang dan bukannya perhatian silang global, yang seterusnya menghalang penumpuan pengekod disebabkan oleh kekurangan sampel positif. Dalam Sparse4Dv2, pengawasan mendalam yang padat diperkenalkan untuk mengurangkan sebahagian isu penumpuan yang dihadapi oleh pengekod imej. Matlamat utama kertas ini adalah untuk meningkatkan prestasi model dengan memberi tumpuan kepada kestabilan latihan penyahkod. Kertas kerja ini menggunakan tugas denoising sebagai penyeliaan tambahan dan memanjangkan teknologi denoising daripada pengesanan bingkai tunggal 2D kepada pengesanan siri masa 3D. Ini bukan sahaja memastikan padanan sampel positif yang stabil, tetapi juga meningkatkan bilangan sampel positif dengan ketara. Selain itu, kertas kerja ini juga memperkenalkan tugas penilaian kualiti sebagai penyeliaan tambahan. Ini menjadikan skor keyakinan output lebih munasabah, meningkatkan ketepatan kedudukan keputusan pengesanan, dan dengan itu memperoleh penunjuk penilaian yang lebih tinggi. Di samping itu, artikel ini menambah baik struktur modul perhatian kendiri contoh dan perhatian silang temporal dalam Sparse4D, dan memperkenalkan mekanisme perhatian yang dipisahkan yang bertujuan untuk mengurangkan gangguan ciri dalam proses pengiraan berat perhatian. Dengan menggunakan pembenaman anchor dan ciri contoh sebagai input kepada pengiraan perhatian, kejadian dengan outlier dalam pemberat perhatian boleh dikurangkan. Ini boleh mencerminkan dengan lebih tepat korelasi antara ciri sasaran, dengan itu mencapai pengagregatan ciri yang betul. Makalah ini menggunakan sambungan dan bukannya mekanisme perhatian untuk mengurangkan ralat ini dengan ketara. Kaedah pembesaran ini mempunyai persamaan dengan DETR bersyarat, tetapi perbezaan utama ialah kertas kerja ini menekankan perhatian antara pertanyaan, manakala DETR bersyarat memfokuskan perhatian silang antara pertanyaan dan ciri imej. Di samping itu, artikel ini juga melibatkan kaedah pengekodan yang unik
Untuk meningkatkan keupayaan hujung ke hujung sistem persepsi, artikel ini mengkaji kaedah menyepadukan tugas penjejakan berbilang sasaran 3D ke dalam rangka kerja Sparse4D untuk terus mengeluarkan trajektori gerakan sasaran. Tidak seperti kaedah pengesanan berasaskan pengesanan, kertas kerja ini menyepadukan semua fungsi penjejakan ke dalam pengesan dengan menghapuskan keperluan untuk perkaitan dan penapisan data. Tambahan pula, tidak seperti kaedah pengesanan dan pengesanan bersama sedia ada, penjejak kami tidak memerlukan pengubahsuaian atau pelarasan fungsi kehilangan semasa latihan. Ia tidak memerlukan penyediaan ID kebenaran asas, tetapi melaksanakan regresi contoh-untuk-jejak yang dipratentukan. Pelaksanaan penjejakan artikel ini menyepadukan sepenuhnya pengesan dan penjejak, tanpa mengubah suai proses latihan pengesan, dan tanpa penalaan halus tambahan
Ini ialah Rajah 1 tentang gambaran keseluruhan rangka kerja Sparse4D Input ialah a video berbilang tontonan dan output adalah kesemuanya Hasil persepsi bingkai
Rajah 2: Kecekapan inferens (FPS) - prestasi persepsi (mAP) pada set data pengesahan nuScenes bagi algoritma yang berbeza.
Rajah 3: Visualisasi pemberat perhatian contohnya perhatian diri: 1) Baris pertama menunjukkan pemberat perhatian dalam perhatian diri biasa, di mana pejalan kaki dalam bulatan merah ditunjukkan konsisten dengan kenderaan sasaran (hijau kotak ) korelasi yang tidak dijangka. 2) Baris kedua menunjukkan berat perhatian dalam perhatian yang dipisahkan, yang menyelesaikan masalah ini dengan berkesan.
Gambar keempat menunjukkan contoh contoh siri masa denoising. Semasa fasa latihan, contoh terdiri daripada dua bahagian: boleh dipelajari dan bising. Kejadian bunyi terdiri daripada unsur temporal dan bukan temporal. Kertas kerja ini menggunakan kaedah pra-padanan untuk memperuntukkan sampel positif dan negatif, iaitu pemadanan sauh dengan kebenaran asas, manakala contoh yang boleh dipelajari dipadankan dengan ramalan dan kebenaran asas. Semasa fasa ujian, hanya blok hijau yang tinggal. Untuk mengelakkan ciri merebak antara kumpulan, topeng perhatian digunakan Kelabu bermakna tiada perhatian antara pertanyaan dan kekunci, hijau bermaksud sebaliknya
#🎜🎜 #Sila lihat Rajah 5: Seni bina pengekod anchor dan perhatian. Kertas ini secara bebas mengekod ciri dimensi tinggi berbilang komponen penambat dan kemudian menggabungkannya. Pendekatan ini mengurangkan overhed pengiraan dan parameter berbanding dengan Sparse4D asal. E dan F masing-masing mewakili embeddings anchor dan ciri instance Ringkasan:Artikel ini mula-mula mencadangkan kaedah untuk meningkatkan prestasi pengesanan Sparse4D. Peningkatan ini terutamanya merangkumi tiga aspek: denoising contoh temporal, anggaran kualiti dan perhatian yang dipisahkan. Selepas itu, artikel tersebut menerangkan proses melanjutkan Sparse4D ke dalam model penjejakan hujung ke hujung. Percubaan artikel ini pada nuScenes menunjukkan bahawa peningkatan ini meningkatkan prestasi dengan ketara, meletakkan Sparse4Dv3 di barisan hadapan.
ArXiv/2311.11722.
Atas ialah kandungan terperinci Sparse4D v3 ada di sini! Memajukan pengesanan dan penjejakan 3D hujung ke hujung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!