Tajuk asal: FlashOcc: Ramalan Penghuni yang Cepat dan Cekap Memori melalui Pemalam Channel-to-Height
Pautan kertas: https://arxiv.org/pdf/2311.12058.pdf
Gabungan pengarang: Daliande University of Technology Houmo AI A Rider University
Ramalan penghunian telah menjadi komponen utama sistem pemanduan autonomi kerana keupayaannya untuk mengurangkan kecacatan ekor panjang dan kehilangan bentuk kompleks yang lazim dalam pengesanan objek 3D. Walau bagaimanapun, pemprosesan perwakilan peringkat voxel tiga dimensi sudah semestinya memperkenalkan overhed yang ketara dari segi ingatan dan pengiraan, menghalang penggunaan kaedah ramalan penghunian setakat ini. Bertentangan dengan trend menjadikan model lebih besar dan kompleks, kertas kerja ini berpendapat bahawa rangka kerja yang ideal harus mesra penggunaan merentas cip yang berbeza sambil mengekalkan ketepatan yang tinggi. Untuk tujuan ini, kertas kerja ini mencadangkan paradigma plug-and-play, FlashOCC, untuk menyatukan ramalan penghunian yang pantas dan cekap memori sambil mengekalkan ketepatan yang tinggi. Khususnya, FlashOCC kami membuat dua penambahbaikan berdasarkan kaedah ramalan penghunian tahap voxel kontemporari. Pertama, ciri dikekalkan dalam BEV, membolehkan penggunaan lapisan konvolusi 2D yang cekap untuk pengekstrakan ciri. Kedua, transformasi saluran-ke-tinggi diperkenalkan untuk mempromosikan logit keluaran BEV kepada ruang 3D. Kertas kerja ini menggunakan FlashOCC pada pelbagai garis dasar ramalan penghunian pada penanda aras Occ3D-nuScenes yang mencabar dan menjalankan eksperimen yang meluas untuk mengesahkan keberkesanannya. Keputusan mengesahkan bahawa paradigma plug-and-play kami mengatasi kaedah tercanggih sebelumnya dari segi ketepatan, kecekapan masa jalan dan kos memori, menunjukkan potensi penggunaannya. Kod akan tersedia untuk digunakan.
Diinspirasikan oleh teknologi konvolusi subpiksel [26], kami menggantikan pensampelan imej dengan penyusunan semula saluran untuk mencapai penukaran ciri saluran ke ruang. Dalam kajian ini, kami menyasarkan untuk mencapai penukaran ciri saluran ke ketinggian dengan cekap. Memandangkan pembangunan tugas persepsi BEV, di mana setiap piksel dalam perwakilan BEV mengandungi maklumat tentang objek kolumnar yang sepadan dalam dimensi ketinggian, kami secara intuitif menggunakan transformasi saluran-ke-tinggi untuk meratakan ciri-ciri BEV ke dalam logit penghunian tahap voxel 3D . Oleh itu, penyelidikan kami menumpukan pada meningkatkan model sedia ada dalam cara generik dan pasang dan main berbanding membangunkan seni bina model novel, seperti yang ditunjukkan dalam Rajah 1(a). Khususnya, kami secara langsung menggunakan konvolusi 2D dan bukannya konvolusi 3D dalam kaedah kontemporari, dan menggantikan logit penghunian yang diperoleh daripada output konvolusi 3D dengan transformasi saluran ke ketinggian ciri tahap BEV yang diperoleh melalui konvolusi 2D. Model ini bukan sahaja mencapai pertukaran terbaik antara ketepatan dan penggunaan masa, tetapi juga menunjukkan keserasian penggunaan yang sangat baik
FlashOcc berjaya menyelesaikan ramalan penghunian 3D tinjauan masa nyata dengan ketepatan yang sangat tinggi, mewakili yang terbaik dalam bidang ini Sumbangan Pecah Tanah. Tambahan pula, ia menunjukkan fleksibiliti yang dipertingkatkan untuk penggunaan merentas platform kenderaan yang berbeza kerana ia tidak memerlukan pemprosesan ciri tahap voxel yang mahal, di mana pengubah paparan atau pengendali lilitan 3D (boleh berubah bentuk) dielakkan. Seperti yang ditunjukkan dalam Rajah 2, data input FlashOcc terdiri daripada imej sekeliling, manakala output adalah hasil ramalan penghunian padat. Walaupun FlashOcc artikel ini memfokuskan pada mempertingkat model sedia ada dalam cara yang serba boleh dan pasang dan main, ia masih boleh dibahagikan kepada lima modul asas: (1) Pengekod imej 2D, bertanggungjawab untuk mengekstrak ciri imej daripada imej berbilang kamera. (2) Modul transformasi pandangan yang membantu memetakan ciri imej paparan persepsi 2D kepada perwakilan BEV 3D. (3) Pengekod BEV, bertanggungjawab untuk memproses maklumat ciri BEV. (4) Menduduki modul ramalan untuk meramalkan label pembahagian setiap voxel. (5) Modul gabungan temporal pilihan yang direka untuk menyepadukan maklumat sejarah untuk meningkatkan prestasi.
Rajah 1.(a) menggambarkan bagaimana FlashOcc yang dicadangkan boleh dilaksanakan dalam cara pasang dan main. Kaedah moden menggunakan ciri 3D tahap voxel yang diproses oleh 3D-Conv untuk meramalkan penghunian. Sebaliknya, model penggantian pemalam kami dilaksanakan dengan (1) menggantikan 3D-Conv dengan 2D-Conv dan (2) menggantikan log penghunian yang diperoleh daripada 3D-Conv dengan transformasi saluran ke ketinggian yang Pantas dan cekap memori ramalan penghunian ciri tahap BEV yang diperoleh melalui 2D-Conv. Singkatan "Conv" bermaksud convolution. (b) menggambarkan pertukaran antara ketepatan dan faktor seperti kelajuan, penggunaan ingatan inferens dan tempoh latihan.
Rajah 2. Angka ini menggambarkan seni bina keseluruhan FlashOcc dan terbaik dilihat dalam warna dengan keupayaan zum. Kawasan yang ditetapkan oleh kotak putus-putus menunjukkan kehadiran modul yang boleh diganti. Bentuk ciri setiap modul boleh diganti diwakili oleh ikon yang mewakili imej 2D, ciri peringkat BEV dan tahap voxel. Kawasan biru muda sepadan dengan modul gabungan temporal pilihan, penggunaannya bergantung pada pengaktifan suis merah.
Rajah 4 menunjukkan perbandingan seni bina antara pemprosesan perwakilan peringkat voxel 3D dan penggantian pemalam yang dicadangkan dalam artikel ini
Petikan:
Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023: Ramalan Penghunian yang Cepat dan Cekap Memori melalui Pemalam ArXiv . /abs/2311.12058
🎜🎜🎜🎜Pautan asal: https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ🎜Atas ialah kandungan terperinci FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!