UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!-AI-php.cn

Rumah

Peranti teknologi

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

王林

Sep 16, 2023 pm 08:29 PM

bijak pandai Penglihatan

Tajuk asal: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/pdf/2306.09117.pdf

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

idea:

Dalam laporan teknikal ini, kami mencadangkan penyelesaian yang dipanggil UniOCC untuk trajektori ramalan penghunian 3D bertumpu penglihatan dalam Cabaran Set Data Terbuka CVPR 2023 nuScenes. Kaedah ramalan penghunian sedia ada tertumpu terutamanya pada penggunaan label penghunian 3D untuk mengoptimumkan ciri unjuran ruang volumetrik 3D. Walau bagaimanapun, proses penjanaan label ini sangat kompleks dan mahal (bergantung pada anotasi semantik 3D), dan dihadkan oleh resolusi voxel dan tidak dapat memberikan semantik spatial yang terperinci. Untuk menangani had ini, kami mencadangkan kaedah ramalan penghunian bersatu (UniOcc) baharu yang secara eksplisit mengenakan kekangan geometri spatial dan menambah penyeliaan semantik yang terperinci dengan pemaparan sinar volum. Kaedah kami meningkatkan prestasi model dengan ketara dan menunjukkan potensi yang baik dalam mengurangkan kos anotasi manual. Memandangkan kepayahan menganotasi penghunian 3D, kami seterusnya mencadangkan rangka kerja Guru Pelajar (DTS) yang sedar mendalam untuk meningkatkan ketepatan ramalan menggunakan data tidak berlabel. Penyelesaian kami mencapai 51.27% mIoU pada ranking rasmi model tunggal, menduduki tempat ketiga dalam cabaran ini

Reka Bentuk Rangkaian:

Dalam cabaran ini, kertas kerja ini mencadangkan UniOcc, yang merupakan penyelesaian umum yang memanfaatkan pemaparan volum untuk menyatukan penyeliaan perwakilan 2D dan 3D, menambah baik model ramalan penghunian berbilang kamera. Kertas kerja ini tidak mereka bentuk seni bina model baharu, tetapi menumpukan pada mempertingkat model sedia ada [3, 18, 20] dengan cara yang serba boleh dan pasang dan main.

Ditulis semula seperti berikut: Kertas kerja ini melaksanakan fungsi menjana peta semantik dan kedalaman 2D menggunakan pemaparan volum dengan menaik taraf perwakilan kepada perwakilan gaya NeRF [1, 15, 21]. Ini membolehkan penyeliaan terperinci pada tahap piksel 2D. Dengan pensampelan sinar voxel tiga dimensi, semantik dan maklumat kedalaman piksel dua dimensi yang dihasilkan boleh diperolehi. Dengan menyepadukan secara eksplisit hubungan oklusi geometri dan kekangan konsistensi semantik, makalah ini menyediakan panduan yang jelas untuk model dan memastikan pematuhan dengan kekangan ini Perlu dinyatakan bahawa UniOcc mempunyai potensi untuk mengurangkan pergantungan pada anotasi semantik 3D yang mahal. Sekiranya tiada label penghunian 3D, model yang dilatih menggunakan hanya penyeliaan pemaparan volum kami berprestasi lebih baik daripada model yang dilatih menggunakan penyeliaan label 3D. Ini menyerlahkan potensi menarik untuk mengurangkan pergantungan pada anotasi semantik 3D yang mahal, kerana perwakilan pemandangan boleh dipelajari terus daripada label segmentasi 2D yang mampu dimiliki. Di samping itu, kos anotasi segmentasi 2D boleh dikurangkan lagi dengan menggunakan teknologi canggih seperti SAM [6] dan [14,19].

Artikel ini juga memperkenalkan rangka kerja Depth Sensing Teacher-Student (DTS), kaedah latihan yang diselia sendiri. Berbeza daripada Guru Min klasik, DTS meningkatkan ramalan mendalam model guru, mencapai latihan yang stabil dan berkesan sambil menggunakan data tidak berlabel. Di samping itu, kertas kerja ini menggunakan beberapa teknik yang mudah tetapi berkesan untuk meningkatkan prestasi model. Ini termasuk menggunakan topeng yang boleh dilihat dalam latihan, menggunakan rangkaian tulang belakang pra-latihan yang lebih kukuh, meningkatkan resolusi voxel dan melaksanakan penambahan data masa ujian (TTA)

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Berikut ialah gambaran keseluruhan rangka kerja UniOcc: Gambar 1

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Gambar 2. Rangka kerja Guru-Pelajar yang sedar mendalam.

Hasil eksperimen:

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Petikan:

Pan, M., Liu, L., Liu, J., Wang L., J., Wang L., J., Wang L., P. , Xu, S., Lai, Z., Yang, K. (2023). UniOcc: Menyatukan pemaparan geometri dan semantik dengan ramalan penghunian 3D bertumpu penglihatan. ArXiv. / abs / 2306.09117

UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!

Pautan asal: https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg

Atas ialah kandungan terperinci UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7486

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Kawalan Apl Pintar pada Windows 11: Cara menghidupkan atau mematikannya Jun 06, 2023 pm 11:10 PM

Kawalan Apl Pintar ialah alat yang sangat berguna dalam Windows 11 yang membantu melindungi PC anda daripada apl tidak dibenarkan yang boleh merosakkan data anda, seperti perisian tebusan atau perisian intip. Artikel ini menerangkan maksud Kawalan Aplikasi Pintar, cara ia berfungsi dan cara menghidupkan atau mematikannya dalam Windows 11. Apakah Kawalan Aplikasi Pintar dalam Windows 11? Kawalan Aplikasi Pintar (SAC) ialah ciri keselamatan baharu yang diperkenalkan dalam kemas kini Windows 1122H2. Ia berfungsi dengan Microsoft Defender atau perisian antivirus pihak ketiga untuk menyekat apl yang mungkin tidak diperlukan yang boleh memperlahankan peranti anda, memaparkan iklan yang tidak dijangka atau melakukan tindakan lain yang tidak dijangka. Aplikasi pintar

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan May 30, 2024 am 09:35 AM

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Ciri-ciri wajah berterbangan, mulut terbuka, mata terbuka, dan kening terangkat AI boleh menirunya dengan sempurna Penipuan video adalah mustahil untuk dicegah. Dec 14, 2023 pm 11:30 PM

Dengan kebolehan tiruan AI yang begitu kuat, ia benar-benar mustahil untuk menghalangnya, sama sekali mustahil untuk menghalangnya. Adakah pembangunan AI mencapai tahap ini sekarang? Kaki hadapan anda membuat ciri-ciri wajah anda terbang, dan pada kaki belakang anda, ekspresi yang sama direproduksi Menatap, mengangkat kening, mencebik, tidak kira betapa berlebihan ekspresi itu, semuanya ditiru dengan sempurna. Tingkatkan kesukaran, angkat kening lebih tinggi, buka mata lebih luas, malah bentuk mulutnya bengkok, dan avatar watak maya dapat menghasilkan semula ekspresi dengan sempurna. Apabila anda melaraskan parameter di sebelah kiri, avatar maya di sebelah kanan juga akan menukar pergerakannya dengan sewajarnya untuk memberikan gambaran dekat mulut dan mata Tiruan itu tidak boleh dikatakan sama, tetapi ungkapan itu betul-betul sama (paling kanan). Penyelidikan ini datang dari institusi seperti Universiti Teknikal Munich, yang mencadangkan GaussianAvatars, yang

Apakah itu NeRF? Adakah pembinaan semula 3D berasaskan NeRF berasaskan voxel? Oct 16, 2023 am 11:33 AM

1 Pengenalan Medan Sinaran Neural (NeRF) adalah paradigma yang agak baharu dalam bidang pembelajaran mendalam dan penglihatan komputer. Teknologi ini telah diperkenalkan dalam kertas kerja ECCV2020 "NeRF: Mewakili Pemandangan sebagai Medan Sinaran Neural untuk Sintesis Pandangan" (yang memenangi Anugerah Kertas Terbaik) dan sejak itu telah menjadi sangat popular, dengan hampir 800 petikan sehingga kini [1]. Pendekatan ini menandakan perubahan besar dalam cara tradisional pembelajaran mesin memproses data 3D. Perwakilan pemandangan medan sinaran saraf dan proses pemaparan yang boleh dibezakan: imej komposit dengan mensampel koordinat 5D (kedudukan dan arah tontonan) sepanjang sinar kamera menyuapkan kedudukan ini ke dalam MLP untuk menghasilkan ketumpatan warna dan isipadu dan menggabungkan nilai ini menggunakan imej teknik pemaparan volumetrik; ; fungsi rendering boleh dibezakan, jadi ia boleh diluluskan

MotionLM: Teknologi pemodelan bahasa untuk ramalan gerakan berbilang ejen Oct 13, 2023 pm 12:09 PM

Artikel ini dicetak semula dengan kebenaran daripada akaun awam Autonomous Driving Heart. Sila hubungi sumber untuk mencetak semula. Tajuk asal: MotionLM: Multi-Agent Motion Forecasting as Language Modelling Paper pautan: https://arxiv.org/pdf/2309.16534.pdf Gabungan pengarang: Waymo Conference: ICCV2023 Idea kertas: Untuk perancangan keselamatan kenderaan autonomi, ramalkan tingkah laku masa hadapan dengan pasti ejen jalan raya adalah penting. Kajian ini mewakili trajektori berterusan sebagai jujukan token gerakan diskret dan menganggap ramalan gerakan berbilang agen sebagai tugas pemodelan bahasa. Model yang kami cadangkan, MotionLM, mempunyai kelebihan berikut: Pertama

Pembinaan semula statik visual tulen pertama bagi pemanduan autonomi Jun 02, 2024 pm 03:24 PM

Penyelesaian anotasi visual semata-mata menggunakan penglihatan serta beberapa data daripada GPS, IMU dan penderia kelajuan roda untuk anotasi dinamik. Sudah tentu, untuk senario pengeluaran besar-besaran, ia tidak semestinya visual semata-mata. Sesetengah kenderaan yang dihasilkan secara besar-besaran akan mempunyai penderia seperti radar keadaan pepejal (AT128). Jika kami mencipta gelung tertutup data dari perspektif pengeluaran besar-besaran dan menggunakan semua penderia ini, kami boleh menyelesaikan masalah pelabelan objek dinamik dengan berkesan. Tetapi tiada radar keadaan pepejal dalam rancangan kami. Oleh itu, kami akan memperkenalkan penyelesaian pelabelan pengeluaran besar-besaran yang paling biasa ini. Teras penyelesaian anotasi visual semata-mata terletak pada pembinaan semula pose berketepatan tinggi. Kami menggunakan skema pembinaan semula pose Structure from Motion (SFM) untuk memastikan ketepatan pembinaan semula. Tetapi lulus

Lihat masa lalu dan masa kini Occ dan pemanduan autonomi! Semakan pertama secara komprehensif meringkaskan tiga tema utama peningkatan ciri/pengeluaran besar-besaran/anotasi yang cekap. May 08, 2024 am 11:40 AM

Ditulis di atas & Pemahaman peribadi penulis Dalam beberapa tahun kebelakangan ini, pemanduan autonomi telah mendapat perhatian yang semakin meningkat kerana potensinya untuk mengurangkan beban pemandu dan meningkatkan keselamatan pemanduan. Ramalan penghunian tiga dimensi berasaskan penglihatan ialah tugas persepsi yang muncul yang sesuai untuk penyiasatan kos efektif dan komprehensif tentang keselamatan pemanduan autonomi. Walaupun banyak kajian telah menunjukkan keunggulan alat ramalan penghunian 3D berbanding tugas persepsi berpusatkan objek, masih terdapat ulasan khusus untuk bidang yang sedang berkembang pesat ini. Kertas kerja ini mula-mula memperkenalkan latar belakang ramalan penghunian 3D berasaskan penglihatan dan membincangkan cabaran yang dihadapi dalam tugasan ini. Seterusnya, kami membincangkan secara menyeluruh status semasa dan trend pembangunan kaedah ramalan penghunian 3D semasa daripada tiga aspek: peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan. akhirnya

Adakah anda tahu bahawa pengaturcara akan merosot dalam beberapa tahun? Nov 08, 2023 am 11:17 AM

Majalah "ComputerWorld" pernah menulis artikel yang mengatakan bahawa "pengaturcaraan akan hilang menjelang 1960" kerana IBM membangunkan bahasa baharu FORTRAN, yang membolehkan jurutera menulis formula matematik yang mereka perlukan dan kemudian menyerahkannya kepada komputer, jadi pengaturcaraan tamat. Beberapa tahun kemudian, kami mendengar pepatah baru: mana-mana ahli perniagaan boleh menggunakan istilah perniagaan untuk menerangkan masalah mereka dan memberitahu komputer apa yang perlu dilakukan Menggunakan bahasa pengaturcaraan yang dipanggil COBOL ini, syarikat tidak lagi memerlukan pengaturcara. Kemudian, dikatakan bahawa IBM membangunkan bahasa pengaturcaraan baharu yang dipanggil RPG yang membolehkan pekerja mengisi borang dan menjana laporan, jadi kebanyakan keperluan pengaturcaraan syarikat dapat diselesaikan melaluinya.

See all articles