Tajuk asal: Radocc: Mempelajari Pengetahuan Penghunian Merentas Moda melalui Penyulingan Berbantu Rendering
Pautan kertas: https://arxiv.org/pdf/2312.11829.pdf
Gabungan pengarang: FNii, CUHKEShen, CUZhen Huawei Makmal Bahtera Nuh
Persidangan: AAAI 2024
Ramalan penghunian 3D ialah tugas baru muncul yang bertujuan untuk menganggarkan status penghunian imej pemandangan 3-D dan semantik. Walau bagaimanapun, persepsi pemandangan berasaskan imej menghadapi cabaran yang ketara dalam mencapai ramalan yang tepat kerana kekurangan prior geometri. Kertas kerja ini menangani masalah ini dengan meneroka penyulingan pengetahuan silang mod dalam tugasan ini, iaitu, kami menggunakan model berbilang modal yang lebih berkuasa untuk membimbing model visual semasa proses latihan. Dalam amalan, kertas kerja ini memerhatikan bahawa penggunaan langsung penjajaran ciri atau logit, yang dicadangkan dan digunakan secara meluas dalam persepsi pandangan mata burung (BEV), tidak membuahkan hasil yang memuaskan. Untuk mengatasi masalah ini, kertas kerja ini memperkenalkan RadOcc, paradigma penyulingan berbantukan pemaparan untuk ramalan penghunian 3D. Dengan menggunakan pemaparan volum yang boleh dibezakan, kami menjana peta kedalaman dan semantik dalam perspektif dan mencadangkan dua kriteria ketekalan novel antara output yang diberikan bagi model guru dan pelajar. Khususnya, kehilangan ketekalan kedalaman menjajarkan taburan penamatan sinar pemaparan, manakala kehilangan ketekalan semantik meniru persamaan intra-segmen yang dipandu oleh model asas visual (VLM). Keputusan eksperimen pada set data nuScenes menunjukkan keberkesanan kaedah yang dicadangkan dalam artikel ini dalam meningkatkan pelbagai kaedah ramalan penghunian 3D Contohnya, kaedah yang dicadangkan dalam artikel ini meningkatkan garis dasar artikel ini sebanyak 2.2% dalam metrik mIoU dan mencapai 2.2%. dalam penanda aras Occ3D 50%.
Kertas kerja ini memperkenalkan paradigma penyulingan berbantukan pemaparan yang dipanggil RadOcc untuk ramalan penghunian 3D. Ini adalah kertas pertama yang meneroka penyulingan pengetahuan rentas mod dalam 3D-OP, memberikan pandangan berharga ke dalam aplikasi teknik penyulingan BEV sedia ada dalam tugasan ini.
Pengarang mencadangkan dua kekangan penyulingan novel, iaitu kedalaman rendering dan konsistensi semantik (RDC dan RSC). Kekangan ini secara berkesan meningkatkan proses pemindahan pengetahuan dengan menjajarkan pengedaran cahaya dan matriks korelasi berpandukan model asas penglihatan. Kunci kepada pendekatan ini ialah menggunakan maklumat mendalam dan semantik untuk membimbing proses pemaparan, dengan itu meningkatkan kualiti dan ketepatan hasil pemaparan. Dengan menggabungkan kedua-dua kekangan ini, para penyelidik mencapai peningkatan yang ketara, menyediakan penyelesaian baharu untuk pemindahan pengetahuan dalam tugas penglihatan.
Dilengkapi dengan kaedah yang dicadangkan, RadOcc menunjukkan prestasi ramalan penghunian padat dan jarang terkini pada penanda aras Occ3D dan nuScenes. Di samping itu, eksperimen telah membuktikan bahawa kaedah penyulingan yang dicadangkan dalam artikel ini boleh meningkatkan prestasi berbilang model asas dengan berkesan.
Kertas kerja ini adalah yang pertama mengkaji penyulingan pengetahuan rentas mod untuk tugas ramalan penghunian 3D. Berdasarkan kaedah pemindahan pengetahuan menggunakan konsistensi BEV atau logit dalam medan penderiaan BEV, kertas kerja ini memanjangkan teknik penyulingan ini kepada tugas ramalan penghunian 3D, bertujuan untuk menyelaraskan ciri voxel dan logit voxel, seperti yang ditunjukkan dalam Rajah 1(a). Walau bagaimanapun, eksperimen awal menunjukkan bahawa teknik penjajaran ini menghadapi cabaran yang ketara dalam tugasan 3D-OP, terutamanya kaedah terdahulu yang memperkenalkan pemindahan negatif. Cabaran ini mungkin berpunca daripada perbezaan asas antara pengesanan objek 3D dan ramalan penghunian, yang sebagai tugas persepsi yang lebih halus memerlukan menangkap butiran geometri serta objek latar belakang.
Untuk menangani cabaran di atas, kertas kerja ini mencadangkan RadOcc, kaedah baru untuk penyulingan pengetahuan merentas mod menggunakan pemaparan volum boleh dibezakan. Idea teras RadOcc adalah untuk menyelaraskan hasil rendering yang dihasilkan oleh model guru dan model pelajar, seperti yang ditunjukkan dalam Rajah 1(b). Khususnya, artikel ini menggunakan parameter intrinsik dan ekstrinsik kamera untuk melaksanakan pemaparan voxel bagi ciri voxel (Mildenhall et al. 2021), yang membolehkan artikel ini mendapatkan peta kedalaman dan peta semantik yang sepadan daripada sudut pandangan yang berbeza. Untuk mencapai penjajaran yang lebih baik antara output yang diberikan, kertas kerja ini memperkenalkan kehilangan Ketekalan Kedalaman Rendering (RDC) dan Rendering Semantic Consistency (RSC). Di satu pihak, kehilangan RDC menguatkuasakan ketekalan pengedaran sinar, yang membolehkan model pelajar menangkap struktur asas data. Sebaliknya, kehilangan RSC mengambil kesempatan daripada model asas visual (Kirillov et al. 2023) dan menggunakan segmen pra-ekstrak untuk penyulingan pertalian. Piawaian ini membolehkan model mempelajari dan membandingkan perwakilan semantik bagi kawasan imej yang berbeza, dengan itu meningkatkan keupayaan mereka untuk menangkap butiran terperinci. Dengan menggabungkan kekangan di atas, kaedah yang dicadangkan dalam kertas kerja ini secara berkesan memanfaatkan penyulingan pengetahuan silang modal, dengan itu meningkatkan prestasi dan mengoptimumkan model pelajar dengan lebih baik. Kertas kerja ini menunjukkan keberkesanan pendekatan kami terhadap ramalan penghunian padat dan jarang, mencapai hasil terkini bagi kedua-dua tugas.
Rajah 1: Penyulingan berbantukan render. (a) Kaedah sedia ada menyelaraskan ciri atau logit. (b) Kaedah RadOcc yang dicadangkan dalam kertas ini secara serentak mengekang peta kedalaman dan semantik yang diberikan. Rajah 2: Rangka kerja keseluruhan RadOcc. Ia mengamalkan seni bina guru-pelajar, di mana rangkaian guru adalah model pelbagai modal dan rangkaian pelajar hanya menerima input kamera. Ramalan kedua-dua rangkaian akan digunakan untuk menjana kedalaman pemaparan dan semantik melalui pemaparan volum boleh dibezakan. Kedalaman pemaparan yang baru dicadangkan dan kehilangan konsistensi semantik diguna pakai antara hasil pemaparan.
Rajah 3: Analisis kedalaman rendering. Walaupun guru (T) dan pelajar (S) mempunyai kedalaman rendering yang sama, terutamanya untuk objek latar depan, taburan penamatan cahaya mereka menunjukkan perbezaan yang besar.
Rajah 4: Penjanaan matriks afiniti. Artikel ini mula-mula menggunakan Vision Foundation Model (VFM), iaitu SAM, untuk mengekstrak segmen ke dalam imej asal. Selepas itu, artikel ini melaksanakan pengagregatan segmen pada ciri semantik yang diberikan dalam setiap segmen untuk mendapatkan matriks perkaitan. Hasil percubaan , alat untuk penyulingan pengetahuan silang mod Novel 3D untuk paradigma ramalan penghunian . Ia menggunakan model guru multimodal untuk menyediakan bimbingan geometri dan semantik kepada model pelajar visual melalui rendering volum boleh dibezakan. Tambahan pula, kertas kerja ini mencadangkan dua kriteria ketekalan baharu, kehilangan ketekalan kedalaman dan kehilangan ketekalan semantik, untuk menyelaraskan taburan sinar dan matriks pertalian antara model guru dan pelajar. Eksperimen yang meluas pada set data Occ3D dan nuScenes menunjukkan bahawa RadOcc boleh meningkatkan prestasi pelbagai kaedah ramalan penghunian 3D dengan ketara. Kaedah kami mencapai hasil terkini pada penanda aras cabaran Occ3D dan dengan ketara mengatasi kaedah yang diterbitkan sedia ada. Kami percaya bahawa kerja kami membuka kemungkinan baharu untuk pembelajaran silang mod dalam pemahaman adegan.
Atas ialah kandungan terperinci Mempelajari pengetahuan penghunian rentas mod: RadOcc menggunakan teknologi penyulingan berbantukan pemaparan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!