OccNeRF: Tiada pengawasan data lidar diperlukan sama sekali
Ditulis di atas & ringkasan peribadi pengarang
Dalam beberapa tahun kebelakangan ini, tugas ramalan penghunian 3D dalam bidang pemanduan autonomi telah mendapat perhatian meluas daripada ahli akademik dan industri kerana kelebihannya yang unik. Tugasan ini menyediakan maklumat terperinci untuk perancangan dan navigasi pemanduan autonomi dengan membina semula struktur 3D persekitaran sekeliling. Walau bagaimanapun, kebanyakan kaedah arus perdana semasa bergantung pada label yang dijana berdasarkan awan titik LiDAR untuk menyelia latihan rangkaian. Dalam kajian OccNeRF baru-baru ini, pengarang mencadangkan kaedah ramalan penghunian berbilang kamera yang diselia sendiri yang dipanggil Medan Pendudukan Berparameter. Kaedah ini menyelesaikan masalah tanpa sempadan dalam pemandangan luar dan menyusun semula strategi pensampelan. Kemudian, melalui teknologi pemaparan volum (Volume Rendering), medan yang diduduki ditukar kepada peta kedalaman berbilang kamera dan diawasi oleh ketekalan fotometrik berbilang bingkai (Ralat Fotometrik). Selain itu, kaedah ini juga menggunakan model segmentasi semantik kosa kata terbuka yang telah terlatih untuk menjana label semantik 2D untuk memberikan maklumat semantik kepada bidang pekerjaan. Model pembahagian semantik leksikon terbuka ini dapat membahagikan objek yang berbeza dalam adegan dan memberikan label semantik kepada setiap objek. Dengan menggabungkan label semantik ini dengan medan penghunian, model dapat memahami persekitaran dengan lebih baik dan membuat ramalan yang lebih tepat. Secara ringkasnya, kaedah OccNeRF mencapai ramalan penghunian berketepatan tinggi dalam senario pemanduan autonomi melalui gabungan penggunaan medan penghunian berparameter, pemaparan volum dan ketekalan fotometrik berbilang bingkai, serta dengan model pembahagian semantik perbendaharaan kata terbuka. Kaedah ini menyediakan sistem pemanduan autonomi dengan lebih banyak maklumat alam sekitar dan dijangka meningkatkan keselamatan dan kebolehpercayaan pemanduan autonomi.
- Pautan kertas: https://arxiv.org/pdf/2312.09243.pdf
- Pautan kod: https://github.com/LinShan-Bin/OccNeRF
Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat teknologi kecerdasan buatan, kemajuan besar telah dicapai dalam bidang pemanduan autonomi. Persepsi 3D adalah asas untuk pemanduan autonomi dan menyediakan maklumat yang diperlukan untuk perancangan dan membuat keputusan seterusnya. Dalam kaedah tradisional, lidar boleh menangkap data 3D yang tepat secara langsung, tetapi kos penderia yang tinggi dan titik pengimbasan yang jarang mengehadkan penggunaan praktikalnya. Sebaliknya, kaedah penderiaan 3D berasaskan imej adalah kos rendah dan berkesan serta telah mendapat perhatian yang semakin meningkat. Berbilang kamera Pengesanan objek 3D telah menjadi aliran utama tugas memahami pemandangan 3D sejak sekian lama, tetapi ia tidak dapat mengatasi kategori tanpa had di dunia nyata dan mengalami pengedaran data ekor panjang
.Ramalan penghunian 3D boleh mengimbangi kekurangan ini dengan membina semula geometri pemandangan sekeliling secara langsung melalui input berbilang paparan. Kebanyakan kaedah sedia ada memfokuskan pada reka bentuk model dan pengoptimuman prestasi, bergantung pada label yang dijana oleh awan titik LiDAR untuk menyelia latihan rangkaian, yang tidak tersedia dalam sistem berasaskan imej. Dalam erti kata lain, kami masih perlu menggunakan kenderaan pengumpulan data yang mahal untuk mengumpul data latihan dan membazirkan sejumlah besar data sebenar tanpa anotasi berbantukan awan titik LiDAR, yang mengehadkan pembangunan ramalan penghunian 3D pada tahap tertentu. Oleh itu meneroka ramalan penghunian 3D yang diselia sendiri adalah arah yang sangat berharga.
Penjelasan terperinci algoritma OccNeRF
Rajah berikut menunjukkan proses asas kaedah OccNeRF. Model ini mengambil imej berbilang kamerasebagai input, mula-mula menggunakan tulang belakang 2D untuk mengekstrak ciri imej N, dan kemudian secara langsung memperoleh ciri 3D melalui unjuran mudah dan interpolasi dwilinear (di bawah ruang berparameter ), dan akhirnya melalui 3D The Rangkaian CNN mengoptimumkan ciri 3D dan ramalan output. Untuk melatih model, kaedah OccNeRF menjana peta kedalaman bingkai semasa melalui pemaparan volum dan memperkenalkan bingkai sebelumnya dan seterusnya untuk mengira kehilangan fotometrik. Untuk memperkenalkan lebih banyak maklumat masa, OccNeRF menggunakan medan penghunian untuk memaparkan peta kedalaman berbilang bingkai dan mengira fungsi kehilangan. Pada masa yang sama, OccNeRF juga memaparkan peta semantik 2D secara serentak dan diselia oleh Model Segmentasi Semantik Leksikon Terbuka.
jurang julat persepsiantara kamera dan grid yang diduduki. Secara teorinya, kamera boleh menangkap objek pada jarak tak terhingga, manakala model ramalan penghunian sebelumnya hanya mempertimbangkan ruang yang lebih dekat (contohnya, dalam 40 m). Dalam kaedah diselia, model boleh belajar untuk mengabaikan objek jauh berdasarkan isyarat penyeliaan, jika hanya ruang dekat masih dipertimbangkan, kehadiran sejumlah besar objek luar dalam imej akan mempunyai negatif; kesan ke atas proses pengoptimuman. Berdasarkan ini, OccNeRF mengguna pakai Medan Pendudukan Berparameter untuk memodelkan julat pemandangan luar tanpa had.
Ruang parameterisasi dalam OccNeRF dibahagikan kepada dalaman dan luaran. Ruang dalam ialah pemetaan linear bagi koordinat asal, mengekalkan resolusi tinggi manakala ruang luar mewakili julat tak terhingga. Secara khusus, OccNeRF membuat perubahan berikut pada koordinat titik tengah dalam ruang 3D:
di mana ialah koordinat , ialah parameter boleh laras, menunjukkan nilai sempadan ruang dalaman yang sepadan juga boleh laras Parameter terlaras mewakili bahagian ruang dalaman yang diduduki. Apabila menjana medan penghunian berparameter, sampel pertama OccNeRF dalam ruang berparameter, memperoleh koordinat asal melalui transformasi songsang, kemudian menayangkan koordinat asal pada satah imej, dan akhirnya memperoleh medan penghunian melalui persampelan dan konvolusi tiga dimensi.
Anggaran Kedalaman Berbilang bingkaiUntuk melatih rangkaian penghunian, OccNeRF memilih untuk menggunakan pemaparan volum untuk menukar penghunian kepada peta kedalaman dan mengawasinya melalui fungsi kehilangan fotometrik. Strategi pensampelan adalah penting semasa memaparkan peta kedalaman. Dalam ruang berparameter, jika anda membuat sampel secara langsung secara seragam berdasarkan kedalaman atau paralaks, titik pensampelan akan diagihkan secara tidak sekata dalam ruang dalaman atau luaran, yang akan menjejaskan proses pengoptimuman. Oleh itu, OccNeRF bercadang untuk membuat sampel secara langsung secara seragam dalam ruang berparameter di bawah premis bahawa pusat kamera berdekatan dengan asal. Selain itu, OccNeRF membuat dan menyelia peta kedalaman berbilang bingkai semasa latihan. Rajah di bawah menunjukkan secara visual kelebihan menggunakan perwakilan spatial parametrik. (Baris ketiga menggunakan ruang berparameter, baris kedua tidak.)pengoptimuman perkataan segera, yang menggantikan kategori yang tidak jelas dalam nuScenes dengan penerangan yang tepat. Tiga strategi digunakan dalam OccNeRF untuk mengoptimumkan perkataan segera: penggantian perkataan yang tidak jelas (kereta digantikan dengan sedan), perkataan-ke-perkataan berbilang perkataan (buatan manusia digantikan dengan bangunan, papan iklan dan jambatan), dan pengenalan maklumat tambahan (basikal diganti dengan basikal, penunggang basikal). Yang kedua ialah menentukan kategori berdasarkan keyakinan bingkai pengesanan dalam Grounding DINO dan bukannya keyakinan piksel demi piksel yang diberikan oleh SAM. Kesan label semantik yang dijana oleh OccNeRF adalah seperti berikut:
hasil percubaan OccNeRF
OccNeRF menjalankan eksperimen pada nuScenes dan kebanyakannya menyelesaikan anggaran kedalaman penyeliaan sendiri berbilang paparan dan ramalan tugasan 3D 3D
Anggaran kedalaman seliaan sendiri berbilang paparanprestasi anggaran kedalaman seliaan sendiri berbilang paparan OccNeRF pada nuScenes ditunjukkan dalam jadual di bawah. Dapat dilihat bahawa OccNeRF berdasarkan pemodelan 3D dengan ketara mengatasi kaedah 2D dan juga mengatasi SimpleOcc, sebahagian besarnya disebabkan oleh julat spatial tanpa had yang OccNeRF model untuk pemandangan luar.Beberapa visualisasi dalam kertas adalah seperti berikut:
Ramalan penghunian 3D
Beberapa visualisasi dalam artikel tersebut adalah seperti berikut:
Ringkasan
Pada masa banyak pengeluar kereta cuba membuang ribuan penderia LiDAR yang tidak berlabel, bagaimana untuk membuat imej yang baik. data adalah subjek isu penting. Dan OccNeRF telah membawa kami percubaan yang berharga.
Pautan asal: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA
Atas ialah kandungan terperinci OccNeRF: Tiada pengawasan data lidar diperlukan sama sekali. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Ditulis di atas & pemahaman peribadi pengarang Gaussiansplatting tiga dimensi (3DGS) ialah teknologi transformatif yang telah muncul dalam bidang medan sinaran eksplisit dan grafik komputer dalam beberapa tahun kebelakangan ini. Kaedah inovatif ini dicirikan oleh penggunaan berjuta-juta Gaussians 3D, yang sangat berbeza daripada kaedah medan sinaran saraf (NeRF), yang terutamanya menggunakan model berasaskan koordinat tersirat untuk memetakan koordinat spatial kepada nilai piksel. Dengan perwakilan adegan yang eksplisit dan algoritma pemaparan yang boleh dibezakan, 3DGS bukan sahaja menjamin keupayaan pemaparan masa nyata, tetapi juga memperkenalkan tahap kawalan dan pengeditan adegan yang tidak pernah berlaku sebelum ini. Ini meletakkan 3DGS sebagai penukar permainan yang berpotensi untuk pembinaan semula dan perwakilan 3D generasi akan datang. Untuk tujuan ini, kami menyediakan gambaran keseluruhan sistematik tentang perkembangan dan kebimbangan terkini dalam bidang 3DGS buat kali pertama.

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

Tajuk asal: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper pautan: https://arxiv.org/pdf/2402.02519.pdf Pautan kod: https://github.com/HKUST-Aerial-Robotics/SIMPL Unit pengarang: Universiti Sains Hong Kong dan Teknologi Idea Kertas DJI: Kertas kerja ini mencadangkan garis dasar ramalan pergerakan (SIMPL) yang mudah dan cekap untuk kenderaan autonomi. Berbanding dengan agen-sen tradisional

Ditulis di hadapan & titik permulaan Paradigma hujung ke hujung menggunakan rangka kerja bersatu untuk mencapai pelbagai tugas dalam sistem pemanduan autonomi. Walaupun kesederhanaan dan kejelasan paradigma ini, prestasi kaedah pemanduan autonomi hujung ke hujung pada subtugas masih jauh ketinggalan berbanding kaedah tugasan tunggal. Pada masa yang sama, ciri pandangan mata burung (BEV) padat yang digunakan secara meluas dalam kaedah hujung ke hujung sebelum ini menyukarkan untuk membuat skala kepada lebih banyak modaliti atau tugasan. Paradigma pemanduan autonomi hujung ke hujung (SparseAD) tertumpu carian jarang dicadangkan di sini, di mana carian jarang mewakili sepenuhnya keseluruhan senario pemanduan, termasuk ruang, masa dan tugas, tanpa sebarang perwakilan BEV yang padat. Khususnya, seni bina jarang bersatu direka bentuk untuk kesedaran tugas termasuk pengesanan, penjejakan dan pemetaan dalam talian. Di samping itu, berat

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR
