


UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!
Tajuk asal: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering
Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/pdf/2306.09117.pdf
idea:
Dalam laporan teknikal ini, kami mencadangkan penyelesaian yang dipanggil UniOCC untuk trajektori ramalan penghunian 3D bertumpu penglihatan dalam Cabaran Set Data Terbuka CVPR 2023 nuScenes. Kaedah ramalan penghunian sedia ada tertumpu terutamanya pada penggunaan label penghunian 3D untuk mengoptimumkan ciri unjuran ruang volumetrik 3D. Walau bagaimanapun, proses penjanaan label ini sangat kompleks dan mahal (bergantung pada anotasi semantik 3D), dan dihadkan oleh resolusi voxel dan tidak dapat memberikan semantik spatial yang terperinci. Untuk menangani had ini, kami mencadangkan kaedah ramalan penghunian bersatu (UniOcc) baharu yang secara eksplisit mengenakan kekangan geometri spatial dan menambah penyeliaan semantik yang terperinci dengan pemaparan sinar volum. Kaedah kami meningkatkan prestasi model dengan ketara dan menunjukkan potensi yang baik dalam mengurangkan kos anotasi manual. Memandangkan kepayahan menganotasi penghunian 3D, kami seterusnya mencadangkan rangka kerja Guru Pelajar (DTS) yang sedar mendalam untuk meningkatkan ketepatan ramalan menggunakan data tidak berlabel. Penyelesaian kami mencapai 51.27% mIoU pada ranking rasmi model tunggal, menduduki tempat ketiga dalam cabaran iniReka Bentuk Rangkaian:
Dalam cabaran ini, kertas kerja ini mencadangkan UniOcc, yang merupakan penyelesaian umum yang memanfaatkan pemaparan volum untuk menyatukan penyeliaan perwakilan 2D dan 3D, menambah baik model ramalan penghunian berbilang kamera. Kertas kerja ini tidak mereka bentuk seni bina model baharu, tetapi menumpukan pada mempertingkat model sedia ada [3, 18, 20] dengan cara yang serba boleh dan pasang dan main. Ditulis semula seperti berikut: Kertas kerja ini melaksanakan fungsi menjana peta semantik dan kedalaman 2D menggunakan pemaparan volum dengan menaik taraf perwakilan kepada perwakilan gaya NeRF [1, 15, 21]. Ini membolehkan penyeliaan terperinci pada tahap piksel 2D. Dengan pensampelan sinar voxel tiga dimensi, semantik dan maklumat kedalaman piksel dua dimensi yang dihasilkan boleh diperolehi. Dengan menyepadukan secara eksplisit hubungan oklusi geometri dan kekangan konsistensi semantik, makalah ini menyediakan panduan yang jelas untuk model dan memastikan pematuhan dengan kekangan ini Perlu dinyatakan bahawa UniOcc mempunyai potensi untuk mengurangkan pergantungan pada anotasi semantik 3D yang mahal. Sekiranya tiada label penghunian 3D, model yang dilatih menggunakan hanya penyeliaan pemaparan volum kami berprestasi lebih baik daripada model yang dilatih menggunakan penyeliaan label 3D. Ini menyerlahkan potensi menarik untuk mengurangkan pergantungan pada anotasi semantik 3D yang mahal, kerana perwakilan pemandangan boleh dipelajari terus daripada label segmentasi 2D yang mampu dimiliki. Di samping itu, kos anotasi segmentasi 2D boleh dikurangkan lagi dengan menggunakan teknologi canggih seperti SAM [6] dan [14,19]. Artikel ini juga memperkenalkan rangka kerja Depth Sensing Teacher-Student (DTS), kaedah latihan yang diselia sendiri. Berbeza daripada Guru Min klasik, DTS meningkatkan ramalan mendalam model guru, mencapai latihan yang stabil dan berkesan sambil menggunakan data tidak berlabel. Di samping itu, kertas kerja ini menggunakan beberapa teknik yang mudah tetapi berkesan untuk meningkatkan prestasi model. Ini termasuk menggunakan topeng yang boleh dilihat dalam latihan, menggunakan rangkaian tulang belakang pra-latihan yang lebih kukuh, meningkatkan resolusi voxel dan melaksanakan penambahan data masa ujian (TTA)Hasil eksperimen:
Petikan:
Pan, M., Liu, L., Liu, J., Wang L., J., Wang L., J., Wang L., P. , Xu, S., Lai, Z., Yang, K. (2023). UniOcc: Menyatukan pemaparan geometri dan semantik dengan ramalan penghunian 3D bertumpu penglihatan. ArXiv. / abs / 2306.09117Atas ialah kandungan terperinci UniOcc: Menyatukan ramalan penghunian bertumpu penglihatan dengan pemaparan geometri dan semantik!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kawalan Apl Pintar ialah alat yang sangat berguna dalam Windows 11 yang membantu melindungi PC anda daripada apl tidak dibenarkan yang boleh merosakkan data anda, seperti perisian tebusan atau perisian intip. Artikel ini menerangkan maksud Kawalan Aplikasi Pintar, cara ia berfungsi dan cara menghidupkan atau mematikannya dalam Windows 11. Apakah Kawalan Aplikasi Pintar dalam Windows 11? Kawalan Aplikasi Pintar (SAC) ialah ciri keselamatan baharu yang diperkenalkan dalam kemas kini Windows 1122H2. Ia berfungsi dengan Microsoft Defender atau perisian antivirus pihak ketiga untuk menyekat apl yang mungkin tidak diperlukan yang boleh memperlahankan peranti anda, memaparkan iklan yang tidak dijangka atau melakukan tindakan lain yang tidak dijangka. Aplikasi pintar

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Dengan kebolehan tiruan AI yang begitu kuat, ia benar-benar mustahil untuk menghalangnya, sama sekali mustahil untuk menghalangnya. Adakah pembangunan AI mencapai tahap ini sekarang? Kaki hadapan anda membuat ciri-ciri wajah anda terbang, dan pada kaki belakang anda, ekspresi yang sama direproduksi Menatap, mengangkat kening, mencebik, tidak kira betapa berlebihan ekspresi itu, semuanya ditiru dengan sempurna. Tingkatkan kesukaran, angkat kening lebih tinggi, buka mata lebih luas, malah bentuk mulutnya bengkok, dan avatar watak maya dapat menghasilkan semula ekspresi dengan sempurna. Apabila anda melaraskan parameter di sebelah kiri, avatar maya di sebelah kanan juga akan menukar pergerakannya dengan sewajarnya untuk memberikan gambaran dekat mulut dan mata Tiruan itu tidak boleh dikatakan sama, tetapi ungkapan itu betul-betul sama (paling kanan). Penyelidikan ini datang dari institusi seperti Universiti Teknikal Munich, yang mencadangkan GaussianAvatars, yang

1 Pengenalan Medan Sinaran Neural (NeRF) adalah paradigma yang agak baharu dalam bidang pembelajaran mendalam dan penglihatan komputer. Teknologi ini telah diperkenalkan dalam kertas kerja ECCV2020 "NeRF: Mewakili Pemandangan sebagai Medan Sinaran Neural untuk Sintesis Pandangan" (yang memenangi Anugerah Kertas Terbaik) dan sejak itu telah menjadi sangat popular, dengan hampir 800 petikan sehingga kini [1]. Pendekatan ini menandakan perubahan besar dalam cara tradisional pembelajaran mesin memproses data 3D. Perwakilan pemandangan medan sinaran saraf dan proses pemaparan yang boleh dibezakan: imej komposit dengan mensampel koordinat 5D (kedudukan dan arah tontonan) sepanjang sinar kamera menyuapkan kedudukan ini ke dalam MLP untuk menghasilkan ketumpatan warna dan isipadu dan menggabungkan nilai ini menggunakan imej teknik pemaparan volumetrik; ; fungsi rendering boleh dibezakan, jadi ia boleh diluluskan

Artikel ini dicetak semula dengan kebenaran daripada akaun awam Autonomous Driving Heart. Sila hubungi sumber untuk mencetak semula. Tajuk asal: MotionLM: Multi-Agent Motion Forecasting as Language Modelling Paper pautan: https://arxiv.org/pdf/2309.16534.pdf Gabungan pengarang: Waymo Conference: ICCV2023 Idea kertas: Untuk perancangan keselamatan kenderaan autonomi, ramalkan tingkah laku masa hadapan dengan pasti ejen jalan raya adalah penting. Kajian ini mewakili trajektori berterusan sebagai jujukan token gerakan diskret dan menganggap ramalan gerakan berbilang agen sebagai tugas pemodelan bahasa. Model yang kami cadangkan, MotionLM, mempunyai kelebihan berikut: Pertama

Penyelesaian anotasi visual semata-mata menggunakan penglihatan serta beberapa data daripada GPS, IMU dan penderia kelajuan roda untuk anotasi dinamik. Sudah tentu, untuk senario pengeluaran besar-besaran, ia tidak semestinya visual semata-mata. Sesetengah kenderaan yang dihasilkan secara besar-besaran akan mempunyai penderia seperti radar keadaan pepejal (AT128). Jika kami mencipta gelung tertutup data dari perspektif pengeluaran besar-besaran dan menggunakan semua penderia ini, kami boleh menyelesaikan masalah pelabelan objek dinamik dengan berkesan. Tetapi tiada radar keadaan pepejal dalam rancangan kami. Oleh itu, kami akan memperkenalkan penyelesaian pelabelan pengeluaran besar-besaran yang paling biasa ini. Teras penyelesaian anotasi visual semata-mata terletak pada pembinaan semula pose berketepatan tinggi. Kami menggunakan skema pembinaan semula pose Structure from Motion (SFM) untuk memastikan ketepatan pembinaan semula. Tetapi lulus

Ditulis di atas & Pemahaman peribadi penulis Dalam beberapa tahun kebelakangan ini, pemanduan autonomi telah mendapat perhatian yang semakin meningkat kerana potensinya untuk mengurangkan beban pemandu dan meningkatkan keselamatan pemanduan. Ramalan penghunian tiga dimensi berasaskan penglihatan ialah tugas persepsi yang muncul yang sesuai untuk penyiasatan kos efektif dan komprehensif tentang keselamatan pemanduan autonomi. Walaupun banyak kajian telah menunjukkan keunggulan alat ramalan penghunian 3D berbanding tugas persepsi berpusatkan objek, masih terdapat ulasan khusus untuk bidang yang sedang berkembang pesat ini. Kertas kerja ini mula-mula memperkenalkan latar belakang ramalan penghunian 3D berasaskan penglihatan dan membincangkan cabaran yang dihadapi dalam tugasan ini. Seterusnya, kami membincangkan secara menyeluruh status semasa dan trend pembangunan kaedah ramalan penghunian 3D semasa daripada tiga aspek: peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan. akhirnya

Majalah "ComputerWorld" pernah menulis artikel yang mengatakan bahawa "pengaturcaraan akan hilang menjelang 1960" kerana IBM membangunkan bahasa baharu FORTRAN, yang membolehkan jurutera menulis formula matematik yang mereka perlukan dan kemudian menyerahkannya kepada komputer, jadi pengaturcaraan tamat. Beberapa tahun kemudian, kami mendengar pepatah baru: mana-mana ahli perniagaan boleh menggunakan istilah perniagaan untuk menerangkan masalah mereka dan memberitahu komputer apa yang perlu dilakukan Menggunakan bahasa pengaturcaraan yang dipanggil COBOL ini, syarikat tidak lagi memerlukan pengaturcara. Kemudian, dikatakan bahawa IBM membangunkan bahasa pengaturcaraan baharu yang dipanggil RPG yang membolehkan pekerja mengisi borang dan menjana laporan, jadi kebanyakan keperluan pengaturcaraan syarikat dapat diselesaikan melaluinya.
