Jadual Kandungan
Idea Kertas:
Sumbangan Utama:
Reka Bentuk Rangkaian:
Rumah Peranti teknologi AI Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan

Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan

Jan 25, 2024 am 11:36 AM
3d meramal

Tajuk asal: Radocc: Mempelajari Pengetahuan Penghunian Merentas Moda melalui Penyulingan Berbantu Rendering

Pautan kertas: https://arxiv.org/pdf/2312.11829.pdf

Gabungan pengarang: FNii, CUHKEShen, CUZhen Huawei Makmal Bahtera Nuh

Persidangan: AAAI 2024

Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan

Idea Kertas:

Ramalan penghunian 3D ialah tugas baru muncul yang bertujuan untuk menganggarkan status penghunian imej pemandangan 3-D dan semantik. Walau bagaimanapun, persepsi pemandangan berasaskan imej menghadapi cabaran yang ketara dalam mencapai ramalan yang tepat kerana kekurangan prior geometri. Kertas kerja ini menangani masalah ini dengan meneroka penyulingan pengetahuan silang mod dalam tugasan ini, iaitu, kami menggunakan model berbilang modal yang lebih berkuasa untuk membimbing model visual semasa proses latihan. Dalam amalan, kertas kerja ini memerhatikan bahawa penggunaan langsung penjajaran ciri atau logit, yang dicadangkan dan digunakan secara meluas dalam persepsi pandangan mata burung (BEV), tidak membuahkan hasil yang memuaskan. Untuk mengatasi masalah ini, kertas kerja ini memperkenalkan RadOcc, paradigma penyulingan berbantukan pemaparan untuk ramalan penghunian 3D. Dengan menggunakan pemaparan volum yang boleh dibezakan, kami menjana peta kedalaman dan semantik dalam perspektif dan mencadangkan dua kriteria ketekalan novel antara output yang diberikan bagi model guru dan pelajar. Khususnya, kehilangan ketekalan kedalaman menjajarkan taburan penamatan sinar pemaparan, manakala kehilangan ketekalan semantik meniru persamaan intra-segmen yang dipandu oleh model asas visual (VLM). Keputusan eksperimen pada set data nuScenes menunjukkan keberkesanan kaedah yang dicadangkan dalam artikel ini dalam meningkatkan pelbagai kaedah ramalan penghunian 3D Contohnya, kaedah yang dicadangkan dalam artikel ini meningkatkan garis dasar artikel ini sebanyak 2.2% dalam metrik mIoU dan mencapai 2.2%. dalam penanda aras Occ3D 50%.

Sumbangan Utama:

Kertas kerja ini memperkenalkan paradigma penyulingan berbantukan pemaparan yang dipanggil RadOcc untuk ramalan penghunian 3D. Ini adalah kertas pertama yang meneroka penyulingan pengetahuan rentas mod dalam 3D-OP, memberikan pandangan berharga ke dalam aplikasi teknik penyulingan BEV sedia ada dalam tugasan ini.

Pengarang mencadangkan dua kekangan penyulingan novel, iaitu kedalaman rendering dan konsistensi semantik (RDC dan RSC). Kekangan ini secara berkesan meningkatkan proses pemindahan pengetahuan dengan menjajarkan pengedaran cahaya dan matriks korelasi berpandukan model asas penglihatan. Kunci kepada pendekatan ini ialah menggunakan maklumat mendalam dan semantik untuk membimbing proses pemaparan, dengan itu meningkatkan kualiti dan ketepatan hasil pemaparan. Dengan menggabungkan kedua-dua kekangan ini, para penyelidik mencapai peningkatan yang ketara, menyediakan penyelesaian baharu untuk pemindahan pengetahuan dalam tugas penglihatan.

Dilengkapi dengan kaedah yang dicadangkan, RadOcc menunjukkan prestasi ramalan penghunian padat dan jarang terkini pada penanda aras Occ3D dan nuScenes. Di samping itu, eksperimen telah membuktikan bahawa kaedah penyulingan yang dicadangkan dalam artikel ini boleh meningkatkan prestasi berbilang model asas dengan berkesan.

Reka Bentuk Rangkaian:

Kertas kerja ini adalah yang pertama mengkaji penyulingan pengetahuan rentas mod untuk tugas ramalan penghunian 3D. Berdasarkan kaedah pemindahan pengetahuan menggunakan konsistensi BEV atau logit dalam medan penderiaan BEV, kertas kerja ini memanjangkan teknik penyulingan ini kepada tugas ramalan penghunian 3D, bertujuan untuk menyelaraskan ciri voxel dan logit voxel, seperti yang ditunjukkan dalam Rajah 1(a). Walau bagaimanapun, eksperimen awal menunjukkan bahawa teknik penjajaran ini menghadapi cabaran yang ketara dalam tugasan 3D-OP, terutamanya kaedah terdahulu yang memperkenalkan pemindahan negatif. Cabaran ini mungkin berpunca daripada perbezaan asas antara pengesanan objek 3D dan ramalan penghunian, yang sebagai tugas persepsi yang lebih halus memerlukan menangkap butiran geometri serta objek latar belakang.

Untuk menangani cabaran di atas, kertas kerja ini mencadangkan RadOcc, kaedah baru untuk penyulingan pengetahuan merentas mod menggunakan pemaparan volum boleh dibezakan. Idea teras RadOcc adalah untuk menyelaraskan hasil rendering yang dihasilkan oleh model guru dan model pelajar, seperti yang ditunjukkan dalam Rajah 1(b). Khususnya, artikel ini menggunakan parameter intrinsik dan ekstrinsik kamera untuk melaksanakan pemaparan voxel bagi ciri voxel (Mildenhall et al. 2021), yang membolehkan artikel ini mendapatkan peta kedalaman dan peta semantik yang sepadan daripada sudut pandangan yang berbeza. Untuk mencapai penjajaran yang lebih baik antara output yang diberikan, kertas kerja ini memperkenalkan kehilangan Ketekalan Kedalaman Rendering (RDC) dan Rendering Semantic Consistency (RSC). Di satu pihak, kehilangan RDC menguatkuasakan ketekalan pengedaran sinar, yang membolehkan model pelajar menangkap struktur asas data. Sebaliknya, kehilangan RSC mengambil kesempatan daripada model asas visual (Kirillov et al. 2023) dan menggunakan segmen pra-ekstrak untuk penyulingan pertalian. Piawaian ini membolehkan model mempelajari dan membandingkan perwakilan semantik bagi kawasan imej yang berbeza, dengan itu meningkatkan keupayaan mereka untuk menangkap butiran terperinci. Dengan menggabungkan kekangan di atas, kaedah yang dicadangkan dalam kertas kerja ini secara berkesan memanfaatkan penyulingan pengetahuan silang modal, dengan itu meningkatkan prestasi dan mengoptimumkan model pelajar dengan lebih baik. Kertas kerja ini menunjukkan keberkesanan pendekatan kami terhadap ramalan penghunian padat dan jarang, mencapai hasil terkini bagi kedua-dua tugas.

Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan

Rajah 1: Penyulingan berbantukan render. (a) Kaedah sedia ada menyelaraskan ciri atau logit. (b) Kaedah RadOcc yang dicadangkan dalam kertas ini secara serentak mengekang peta kedalaman dan semantik yang diberikan. Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparanRajah 2: Rangka kerja keseluruhan RadOcc. Ia mengamalkan seni bina guru-pelajar, di mana rangkaian guru adalah model pelbagai modal dan rangkaian pelajar hanya menerima input kamera. Ramalan kedua-dua rangkaian akan digunakan untuk menjana kedalaman pemaparan dan semantik melalui pemaparan volum boleh dibezakan. Kedalaman pemaparan yang baru dicadangkan dan kehilangan konsistensi semantik diguna pakai antara hasil pemaparan.

Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan

Rajah 3: Analisis kedalaman rendering. Walaupun guru (T) dan pelajar (S) mempunyai kedalaman rendering yang sama, terutamanya untuk objek latar depan, taburan penamatan cahaya mereka menunjukkan perbezaan yang besar.

Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan

Rajah 4: Penjanaan matriks afiniti. Artikel ini mula-mula menggunakan Vision Foundation Model (VFM), iaitu SAM, untuk mengekstrak segmen ke dalam imej asal. Selepas itu, artikel ini melaksanakan pengagregatan segmen pada ciri semantik yang diberikan dalam setiap segmen untuk mendapatkan matriks perkaitan. Hasil percubaan , alat untuk penyulingan pengetahuan silang mod Novel 3D untuk paradigma ramalan penghunian . Ia menggunakan model guru multimodal untuk menyediakan bimbingan geometri dan semantik kepada model pelajar visual melalui rendering volum boleh dibezakan. Tambahan pula, kertas kerja ini mencadangkan dua kriteria ketekalan baharu, kehilangan ketekalan kedalaman dan kehilangan ketekalan semantik, untuk menyelaraskan taburan sinar dan matriks pertalian antara model guru dan pelajar. Eksperimen yang meluas pada set data Occ3D dan nuScenes menunjukkan bahawa RadOcc boleh meningkatkan prestasi pelbagai kaedah ramalan penghunian 3D dengan ketara. Kaedah kami mencapai hasil terkini pada penanda aras cabaran Occ3D dan dengan ketara mengatasi kaedah yang diterbitkan sedia ada. Kami percaya bahawa kerja kami membuka kemungkinan baharu untuk pembelajaran silang mod dalam pemahaman adegan.

Atas ialah kandungan terperinci Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Mengapakah Gaussian Splatting begitu popular dalam pemanduan autonomi sehingga NeRF mula ditinggalkan? Mengapakah Gaussian Splatting begitu popular dalam pemanduan autonomi sehingga NeRF mula ditinggalkan? Jan 17, 2024 pm 02:57 PM

Ditulis di atas & pemahaman peribadi pengarang Gaussiansplatting tiga dimensi (3DGS) ialah teknologi transformatif yang telah muncul dalam bidang medan sinaran eksplisit dan grafik komputer dalam beberapa tahun kebelakangan ini. Kaedah inovatif ini dicirikan oleh penggunaan berjuta-juta Gaussians 3D, yang sangat berbeza daripada kaedah medan sinaran saraf (NeRF), yang terutamanya menggunakan model berasaskan koordinat tersirat untuk memetakan koordinat spatial kepada nilai piksel. Dengan perwakilan adegan yang eksplisit dan algoritma pemaparan yang boleh dibezakan, 3DGS bukan sahaja menjamin keupayaan pemaparan masa nyata, tetapi juga memperkenalkan tahap kawalan dan pengeditan adegan yang tidak pernah berlaku sebelum ini. Ini meletakkan 3DGS sebagai penukar permainan yang berpotensi untuk pembinaan semula dan perwakilan 3D generasi akan datang. Untuk tujuan ini, kami menyediakan gambaran keseluruhan sistematik tentang perkembangan dan kebimbangan terkini dalam bidang 3DGS buat kali pertama.

Ketahui tentang emoji Fasih 3D dalam Microsoft Teams Ketahui tentang emoji Fasih 3D dalam Microsoft Teams Apr 24, 2023 pm 10:28 PM

Anda mesti ingat, terutamanya jika anda adalah pengguna Teams, bahawa Microsoft telah menambah kumpulan baharu emoji 3DFluent pada apl persidangan video tertumpu kerjanya. Selepas Microsoft mengumumkan emoji 3D untuk Pasukan dan Windows tahun lepas, proses itu sebenarnya telah melihat lebih daripada 1,800 emoji sedia ada dikemas kini untuk platform. Idea besar ini dan pelancaran kemas kini emoji 3DFluent untuk Pasukan pertama kali dipromosikan melalui catatan blog rasmi. Kemas kini Pasukan Terkini membawa FluentEmojis ke aplikasi Microsoft mengatakan 1,800 emoji yang dikemas kini akan tersedia kepada kami setiap hari

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang Mar 26, 2024 pm 12:41 PM

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap Jan 26, 2024 am 11:18 AM

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

Regresi kuantil untuk ramalan kebarangkalian siri masa Regresi kuantil untuk ramalan kebarangkalian siri masa May 07, 2024 pm 05:04 PM

Jangan ubah maksud kandungan asal, perhalusi kandungan, tulis semula kandungan dan jangan teruskan. "Regression kuantil memenuhi keperluan ini, menyediakan selang ramalan dengan peluang yang dikira. Ia adalah teknik statistik yang digunakan untuk memodelkan hubungan antara pembolehubah peramal dan pembolehubah tindak balas, terutamanya apabila taburan bersyarat pembolehubah tindak balas adalah menarik Apabila. Tidak seperti regresi tradisional kaedah, regresi kuantil memfokuskan pada menganggar magnitud bersyarat pembolehubah bergerak balas dan bukannya min bersyarat "Rajah (A): Regresi kuantil Regresi kuantil ialah anggaran. Kaedah pemodelan untuk hubungan linear antara set regresi X dan kuantil. daripada pembolehubah yang dijelaskan Y. Model regresi yang sedia ada sebenarnya adalah kaedah untuk mengkaji hubungan antara pembolehubah yang dijelaskan dan pembolehubah penjelasan. Mereka memberi tumpuan kepada hubungan antara pembolehubah penjelasan dan pembolehubah yang dijelaskan

SIMPL: Penanda aras ramalan gerakan berbilang ejen yang mudah dan cekap untuk pemanduan autonomi SIMPL: Penanda aras ramalan gerakan berbilang ejen yang mudah dan cekap untuk pemanduan autonomi Feb 20, 2024 am 11:48 AM

Tajuk asal: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper pautan: https://arxiv.org/pdf/2402.02519.pdf Pautan kod: https://github.com/HKUST-Aerial-Robotics/SIMPL Unit pengarang: Universiti Sains Hong Kong dan Teknologi Idea Kertas DJI: Kertas kerja ini mencadangkan garis dasar ramalan pergerakan (SIMPL) yang mudah dan cekap untuk kenderaan autonomi. Berbanding dengan agen-sen tradisional

Cat 3D dalam Windows 11: Muat Turun, Pemasangan dan Panduan Penggunaan Cat 3D dalam Windows 11: Muat Turun, Pemasangan dan Panduan Penggunaan Apr 26, 2023 am 11:28 AM

Apabila gosip mula tersebar bahawa Windows 11 baharu sedang dibangunkan, setiap pengguna Microsoft ingin tahu bagaimana rupa sistem pengendalian baharu itu dan apa yang akan dibawanya. Selepas spekulasi, Windows 11 ada di sini. Sistem pengendalian datang dengan reka bentuk baharu dan perubahan fungsi. Selain beberapa tambahan, ia disertakan dengan penamatan dan pengalihan keluar ciri. Salah satu ciri yang tidak wujud dalam Windows 11 ialah Paint3D. Walaupun ia masih menawarkan Paint klasik, yang bagus untuk laci, doodle dan doodle, ia meninggalkan Paint3D, yang menawarkan ciri tambahan yang sesuai untuk pencipta 3D. Jika anda mencari beberapa ciri tambahan, kami mengesyorkan Autodesk Maya sebagai perisian reka bentuk 3D terbaik. suka

Bagaimana untuk menggunakan pangkalan data MySQL untuk ramalan dan analitik ramalan? Bagaimana untuk menggunakan pangkalan data MySQL untuk ramalan dan analitik ramalan? Jul 12, 2023 pm 08:43 PM

Bagaimana untuk menggunakan pangkalan data MySQL untuk ramalan dan analitik ramalan? Gambaran Keseluruhan: Peramalan dan analitik ramalan memainkan peranan penting dalam analisis data. MySQL, sistem pengurusan pangkalan data hubungan yang digunakan secara meluas, juga boleh digunakan untuk tugasan ramalan dan analisis ramalan. Artikel ini akan memperkenalkan cara menggunakan MySQL untuk ramalan dan analisis ramalan, serta menyediakan contoh kod yang berkaitan. Penyediaan data: Pertama, kita perlu menyediakan data yang berkaitan. Katakan kita ingin membuat ramalan jualan, kita memerlukan jadual dengan data jualan. Dalam MySQL kita boleh gunakan

See all articles