Artikel ini dicetak semula dengan kebenaran akaun awam Autonomous Driving Heart Sila hubungi sumber untuk mencetak semula.
[RenderOcc, paradigma baharu pertama untuk melatih model penghunian 3D berbilang paparan menggunakan hanya label 2D] Pengarang mengekstrak perwakilan volumetrik 3D gaya NeRF daripada imej berbilang paparan dan menggunakan teknologi pemaparan volum untuk membina pembinaan semula 2D untuk mencapai transformasi semantik daripada Pengawasan 3D Langsung 2D dengan label kedalaman mengurangkan pergantungan pada anotasi penghunian 3D yang mahal. Eksperimen yang meluas menunjukkan bahawa RenderOcc berprestasi setanding dengan model yang diselia sepenuhnya menggunakan label 3D, menyerlahkan kepentingan pendekatan ini dalam aplikasi dunia sebenar. Sudah menjadi sumber terbuka.
Tajuk: RenderOcc: Vision-Centric 3D Occupancy Prediction with 2DRendering Supervision
Afiliasi pengarang: Peking University, Xiaomi Automobile, Hong Kong Chinese MMLAB
Kandungan yang perlu ditulis semula ialah: Alamat sumber terbuka: GitHub/11cc
Ramalan pekerjaan 3D memegang janji penting dalam bidang persepsi robot dan pemanduan autonomi, di mana ia mengkuantifikasi adegan 3D ke dalam sel grid berlabel semantik. Kerja terkini terutamanya menggunakan label penghunian lengkap dalam ruang voxel 3D untuk pengawasan. Walau bagaimanapun, proses anotasi yang mahal dan kadangkala label yang samar-samar mengehadkan kebolehgunaan dan kebolehskalaan model penghunian 3D dengan teruk. Untuk menyelesaikan masalah ini, penulis mencadangkan RenderOcc, paradigma baharu untuk melatih model penghunian 3D menggunakan label 2D sahaja. Khususnya, kami mengekstrak perwakilan volumetrik 3D gaya NeRF daripada imej berbilang paparan dan menggunakan teknik pemaparan volum untuk membina pembinaan semula 2D, membolehkan penyeliaan 3D terus daripada label semantik dan kedalaman 2D. Di samping itu, penulis memperkenalkan kaedah sinar tambahan untuk menyelesaikan masalah sudut pandangan yang jarang dalam adegan pemanduan autonomi, yang menggunakan bingkai berurutan untuk membina pemaparan 2D yang komprehensif untuk setiap sasaran. RenderOcc ialah percubaan pertama untuk melatih model penghunian 3D berbilang paparan menggunakan hanya label 2D, mengurangkan pergantungan pada anotasi penghunian 3D yang mahal. Eksperimen yang meluas menunjukkan bahawa RenderOcc berprestasi setanding dengan model yang diselia sepenuhnya menggunakan label 3D, menyerlahkan kepentingan pendekatan ini dalam aplikasi dunia sebenar.
Rajah 1 menunjukkan kaedah latihan baharu RenderOcc. Berbeza daripada kaedah sebelumnya yang bergantung pada label penghunian 3D yang mahal untuk penyeliaan, RenderOcc yang dicadangkan dalam kertas kerja ini menggunakan label 2D untuk melatih rangkaian penghunian 3D. Dengan penyeliaan pemaparan 2D, model ini dapat mendapat manfaat daripada semantik tahap piksel 2D yang terperinci dan penyeliaan kedalaman
Rajah 2. Rangka kerja keseluruhan RenderOcc. Makalah ini mengekstrak ciri volumetrik melalui rangkaian 2D hingga 3D dan meramalkan ketumpatan dan semantik setiap voxel. Oleh itu, kertas kerja ini menjana Medan Ketumpatan Semantik, yang boleh melakukan pemaparan volum untuk menjana semantik dan kedalaman 2D yang diberikan. Untuk penjanaan Rays GT, kertas kerja ini mengekstrak sinar tambahan daripada bingkai bersebelahan untuk menambah sinar bingkai semasa dan menggunakan strategi pensampelan sinar wajaran yang dicadangkan untuk membersihkannya. Kemudian, artikel ini menggunakan GT ringan dan {} untuk mengira kerugian bagi mencapai penyeliaan pemaparan label 2D
Kandungan yang ditulis semula: Rajah 3. Lampu tambahan: Imej bingkai tunggal tidak dapat menangkap maklumat berbilang paparan objek dengan baik. Terdapat hanya kawasan pertindihan kecil antara kamera bersebelahan dan perbezaan sudut tontonan adalah terhad. Dengan memperkenalkan sinar tambahan daripada bingkai bersebelahan, model boleh mendapat manfaat dengan ketara daripada kekangan konsistensi berbilang paparan
Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/WzI8mGoIOTOdL8irXrbSPQ
Atas ialah kandungan terperinci Artikel pertama: Paradigma baharu untuk melatih model penghunian 3D berbilang paparan menggunakan label 2D sahaja. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!