FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!-AI-php.cn

Jadual Kandungan

Idea tesis:

Reka bentuk rangkaian:

Hasil eksperimen:

Rumah

Peranti teknologi

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 28, 2023 am 11:21 AM

3d Pemanduan autonomi

Tajuk asal: FlashOcc: Ramalan Penghuni yang Cepat dan Cekap Memori melalui Pemalam Channel-to-Height

Pautan kertas: https://arxiv.org/pdf/2311.12058.pdf

Gabungan pengarang: Daliande University of Technology Houmo AI A Rider University

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Idea tesis:

Ramalan penghunian telah menjadi komponen utama sistem pemanduan autonomi kerana keupayaannya untuk mengurangkan kecacatan ekor panjang dan kehilangan bentuk kompleks yang lazim dalam pengesanan objek 3D. Walau bagaimanapun, pemprosesan perwakilan peringkat voxel tiga dimensi sudah semestinya memperkenalkan overhed yang ketara dari segi ingatan dan pengiraan, menghalang penggunaan kaedah ramalan penghunian setakat ini. Bertentangan dengan trend menjadikan model lebih besar dan kompleks, kertas kerja ini berpendapat bahawa rangka kerja yang ideal harus mesra penggunaan merentas cip yang berbeza sambil mengekalkan ketepatan yang tinggi. Untuk tujuan ini, kertas kerja ini mencadangkan paradigma plug-and-play, FlashOCC, untuk menyatukan ramalan penghunian yang pantas dan cekap memori sambil mengekalkan ketepatan yang tinggi. Khususnya, FlashOCC kami membuat dua penambahbaikan berdasarkan kaedah ramalan penghunian tahap voxel kontemporari. Pertama, ciri dikekalkan dalam BEV, membolehkan penggunaan lapisan konvolusi 2D yang cekap untuk pengekstrakan ciri. Kedua, transformasi saluran-ke-tinggi diperkenalkan untuk mempromosikan logit keluaran BEV kepada ruang 3D. Kertas kerja ini menggunakan FlashOCC pada pelbagai garis dasar ramalan penghunian pada penanda aras Occ3D-nuScenes yang mencabar dan menjalankan eksperimen yang meluas untuk mengesahkan keberkesanannya. Keputusan mengesahkan bahawa paradigma plug-and-play kami mengatasi kaedah tercanggih sebelumnya dari segi ketepatan, kecekapan masa jalan dan kos memori, menunjukkan potensi penggunaannya. Kod akan tersedia untuk digunakan.

Reka bentuk rangkaian:

Diinspirasikan oleh teknologi konvolusi subpiksel [26], kami menggantikan pensampelan imej dengan penyusunan semula saluran untuk mencapai penukaran ciri saluran ke ruang. Dalam kajian ini, kami menyasarkan untuk mencapai penukaran ciri saluran ke ketinggian dengan cekap. Memandangkan pembangunan tugas persepsi BEV, di mana setiap piksel dalam perwakilan BEV mengandungi maklumat tentang objek kolumnar yang sepadan dalam dimensi ketinggian, kami secara intuitif menggunakan transformasi saluran-ke-tinggi untuk meratakan ciri-ciri BEV ke dalam logit penghunian tahap voxel 3D . Oleh itu, penyelidikan kami menumpukan pada meningkatkan model sedia ada dalam cara generik dan pasang dan main berbanding membangunkan seni bina model novel, seperti yang ditunjukkan dalam Rajah 1(a). Khususnya, kami secara langsung menggunakan konvolusi 2D dan bukannya konvolusi 3D dalam kaedah kontemporari, dan menggantikan logit penghunian yang diperoleh daripada output konvolusi 3D dengan transformasi saluran ke ketinggian ciri tahap BEV yang diperoleh melalui konvolusi 2D. Model ini bukan sahaja mencapai pertukaran terbaik antara ketepatan dan penggunaan masa, tetapi juga menunjukkan keserasian penggunaan yang sangat baik

FlashOcc berjaya menyelesaikan ramalan penghunian 3D tinjauan masa nyata dengan ketepatan yang sangat tinggi, mewakili yang terbaik dalam bidang ini Sumbangan Pecah Tanah. Tambahan pula, ia menunjukkan fleksibiliti yang dipertingkatkan untuk penggunaan merentas platform kenderaan yang berbeza kerana ia tidak memerlukan pemprosesan ciri tahap voxel yang mahal, di mana pengubah paparan atau pengendali lilitan 3D (boleh berubah bentuk) dielakkan. Seperti yang ditunjukkan dalam Rajah 2, data input FlashOcc terdiri daripada imej sekeliling, manakala output adalah hasil ramalan penghunian padat. Walaupun FlashOcc artikel ini memfokuskan pada mempertingkat model sedia ada dalam cara yang serba boleh dan pasang dan main, ia masih boleh dibahagikan kepada lima modul asas: (1) Pengekod imej 2D, bertanggungjawab untuk mengekstrak ciri imej daripada imej berbilang kamera. (2) Modul transformasi pandangan yang membantu memetakan ciri imej paparan persepsi 2D kepada perwakilan BEV 3D. (3) Pengekod BEV, bertanggungjawab untuk memproses maklumat ciri BEV. (4) Menduduki modul ramalan untuk meramalkan label pembahagian setiap voxel. (5) Modul gabungan temporal pilihan yang direka untuk menyepadukan maklumat sejarah untuk meningkatkan prestasi.

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Rajah 1.(a) menggambarkan bagaimana FlashOcc yang dicadangkan boleh dilaksanakan dalam cara pasang dan main. Kaedah moden menggunakan ciri 3D tahap voxel yang diproses oleh 3D-Conv untuk meramalkan penghunian. Sebaliknya, model penggantian pemalam kami dilaksanakan dengan (1) menggantikan 3D-Conv dengan 2D-Conv dan (2) menggantikan log penghunian yang diperoleh daripada 3D-Conv dengan transformasi saluran ke ketinggian yang Pantas dan cekap memori ramalan penghunian ciri tahap BEV yang diperoleh melalui 2D-Conv. Singkatan "Conv" bermaksud convolution. (b) menggambarkan pertukaran antara ketepatan dan faktor seperti kelajuan, penggunaan ingatan inferens dan tempoh latihan.

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Rajah 2. Angka ini menggambarkan seni bina keseluruhan FlashOcc dan terbaik dilihat dalam warna dengan keupayaan zum. Kawasan yang ditetapkan oleh kotak putus-putus menunjukkan kehadiran modul yang boleh diganti. Bentuk ciri setiap modul boleh diganti diwakili oleh ikon yang mewakili imej 2D, ciri peringkat BEV dan tahap voxel. Kawasan biru muda sepadan dengan modul gabungan temporal pilihan, penggunaannya bergantung pada pengaktifan suis merah.

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Rajah 4 menunjukkan perbandingan seni bina antara pemprosesan perwakilan peringkat voxel 3D dan penggantian pemalam yang dicadangkan dalam artikel ini

Hasil eksperimen:

FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Ringkasan:

Artikel ini memperkenalkan pendekatan plug-and-play yang dipanggil FlashOCC, direka untuk mencapai ramalan penghunian yang cepat dan cekap memori. Kaedah ini menggunakan belitan 2D untuk menggantikan terus belitan 3D dalam kaedah penghunian berasaskan voxel dan menggabungkan transformasi saluran ke ketinggian untuk membentuk semula ciri BEV yang diratakan ke dalam logi penghunian. FlashOCC telah menunjukkan keberkesanan dan serba boleh merentas pelbagai kaedah ramalan penghunian peringkat voxel. Eksperimen yang meluas menunjukkan bahawa kaedah ini mengatasi kaedah tercanggih sebelumnya dari segi ketepatan, penggunaan masa, kecekapan memori dan kemesraan penggunaan. Untuk pengetahuan terbaik kami, FlashOCC ialah kaedah pertama untuk menggunakan paradigma subpiksel (Saluran-ke-Tinggi) pada tugasan penghunian, khususnya memanfaatkan ciri peringkat BEV dan mengelak sepenuhnya penggunaan konvolusi atau pengubah pengiraan 3D (bolehubah bentuk). modul. Hasil visualisasi menunjukkan dengan meyakinkan bahawa FlashOCC berjaya mengekalkan maklumat ketinggian. Dalam kerja akan datang, kaedah ini akan disepadukan ke dalam saluran persepsi pemanduan autonomi, bertujuan untuk mencapai penggunaan pada cip yang cekap

Petikan: FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!

Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023: Ramalan Penghunian yang Cepat dan Cekap Memori melalui Pemalam ArXiv . /abs/2311.12058

🎜🎜🎜🎜Pautan asal: https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ🎜

Atas ialah kandungan terperinci FlashOcc: Idea baharu untuk ramalan penghunian, SOTA baharu dalam ketepatan, kecekapan dan penggunaan memori!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7465

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Mengapakah Gaussian Splatting begitu popular dalam pemanduan autonomi sehingga NeRF mula ditinggalkan? Jan 17, 2024 pm 02:57 PM

Ditulis di atas & pemahaman peribadi pengarang Gaussiansplatting tiga dimensi (3DGS) ialah teknologi transformatif yang telah muncul dalam bidang medan sinaran eksplisit dan grafik komputer dalam beberapa tahun kebelakangan ini. Kaedah inovatif ini dicirikan oleh penggunaan berjuta-juta Gaussians 3D, yang sangat berbeza daripada kaedah medan sinaran saraf (NeRF), yang terutamanya menggunakan model berasaskan koordinat tersirat untuk memetakan koordinat spatial kepada nilai piksel. Dengan perwakilan adegan yang eksplisit dan algoritma pemaparan yang boleh dibezakan, 3DGS bukan sahaja menjamin keupayaan pemaparan masa nyata, tetapi juga memperkenalkan tahap kawalan dan pengeditan adegan yang tidak pernah berlaku sebelum ini. Ini meletakkan 3DGS sebagai penukar permainan yang berpotensi untuk pembinaan semula dan perwakilan 3D generasi akan datang. Untuk tujuan ini, kami menyediakan gambaran keseluruhan sistematik tentang perkembangan dan kebimbangan terkini dalam bidang 3DGS buat kali pertama.

Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Jun 02, 2024 pm 02:44 PM

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap Jan 26, 2024 am 11:18 AM

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang Mar 26, 2024 pm 12:41 PM

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Artikel ini sudah cukup untuk anda membaca tentang pemanduan autonomi dan ramalan trajektori! Feb 28, 2024 pm 07:20 PM

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

SIMPL: Penanda aras ramalan gerakan berbilang ejen yang mudah dan cekap untuk pemanduan autonomi Feb 20, 2024 am 11:48 AM

Tajuk asal: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper pautan: https://arxiv.org/pdf/2402.02519.pdf Pautan kod: https://github.com/HKUST-Aerial-Robotics/SIMPL Unit pengarang: Universiti Sains Hong Kong dan Teknologi Idea Kertas DJI: Kertas kerja ini mencadangkan garis dasar ramalan pergerakan (SIMPL) yang mudah dan cekap untuk kenderaan autonomi. Berbanding dengan agen-sen tradisional

SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap! Apr 17, 2024 pm 06:22 PM

Ditulis di hadapan & titik permulaan Paradigma hujung ke hujung menggunakan rangka kerja bersatu untuk mencapai pelbagai tugas dalam sistem pemanduan autonomi. Walaupun kesederhanaan dan kejelasan paradigma ini, prestasi kaedah pemanduan autonomi hujung ke hujung pada subtugas masih jauh ketinggalan berbanding kaedah tugasan tunggal. Pada masa yang sama, ciri pandangan mata burung (BEV) padat yang digunakan secara meluas dalam kaedah hujung ke hujung sebelum ini menyukarkan untuk membuat skala kepada lebih banyak modaliti atau tugasan. Paradigma pemanduan autonomi hujung ke hujung (SparseAD) tertumpu carian jarang dicadangkan di sini, di mana carian jarang mewakili sepenuhnya keseluruhan senario pemanduan, termasuk ruang, masa dan tugas, tanpa sebarang perwakilan BEV yang padat. Khususnya, seni bina jarang bersatu direka bentuk untuk kesedaran tugas termasuk pengesanan, penjejakan dan pemetaan dalam talian. Di samping itu, berat

Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Apr 15, 2024 pm 04:13 PM

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR

See all articles