Medan Sinaran Neural (NeRF) berasaskan MLP semata-mata sering mengalami kekurangan padanan dalam pemaparan kabur pemandangan berskala besar disebabkan kapasiti model yang terhad. Baru-baru ini, beberapa penyelidik telah mencadangkan untuk membahagikan adegan secara geografi dan menggunakan berbilang sub-NeRF untuk memodelkan setiap kawasan secara berasingan Walau bagaimanapun, masalah yang disebabkan oleh ini ialah apabila adegan berkembang secara beransur-ansur, kos latihan menjadi linear dengan bilangan sub-NeRF. .
Penyelesaian lain ialah menggunakan perwakilan grid ciri voxel, yang cekap dari segi pengiraan dan menskalakan secara semula jadi kepada adegan besar dengan peleraian grid yang semakin meningkat. Walau bagaimanapun, jejaring ciri selalunya hanya mencapai penyelesaian suboptimum kerana kekangan yang lebih sedikit, menghasilkan beberapa artifak hingar dalam pemaparan, terutamanya di kawasan yang mempunyai geometri dan tekstur yang kompleks.
Dalam artikel ini, penyelidik dari Universiti China Hong Kong, Makmal Kepintaran Buatan Shanghai dan institusi lain mencadangkan rangka kerja baharu untuk mencapai pemaparan ketelitian tinggi bagi adegan bandar (Ubran). mengambil kira kecekapan pengiraan pada masa yang sama, ia dipilih untuk CVPR 2023. Kajian ini menggunakan perwakilan satah ciri tanah berbilang resolusi padat untuk menangkap pemandangan secara kasar dan menambahnya dengan input berkod kedudukan melalui rangkaian cawangan NeRF untuk memaparkan secara dipelajari bersama. Pendekatan ini menyepadukan kelebihan kedua-dua pendekatan: di bawah bimbingan perwakilan grid ciri, NeRF berwajaran ringan mencukupi untuk mempersembahkan perspektif baharu yang realistik dengan butiran satah ciri tanah yang dioptimumkan bersama boleh diperhalusi lagi untuk membentuk yang lebih tepat dan lebih terperinci Ruang ciri padat, menghasilkan hasil pemaparan yang lebih semula jadi.
Gambar di bawah ialah contoh hasil kaedah penyelidikan tentang pemandangan Ubran dunia sebenar, memberikan pengalaman perayauan bandar yang mengasyikkan:
Untuk menggunakan perwakilan neural tersirat secara berkesan untuk membina semula pemandangan bandar yang besar, kajian ini mencadangkan seni bina model dwi-cawangan yang menggunakan perwakilan pemandangan bersatu dan menyepadukan berasaskan grid voxel eksplisit dan kaedah NeRF berasaskan tersirat, kedua-dua jenis perwakilan ini boleh saling melengkapi.
Adegan sasaran mula-mula dimodelkan menggunakan jaringan ciri dalam peringkat pra-latihan untuk menangkap secara kasar geometri dan rupa pemandangan itu. Grid ciri kasar kemudiannya digunakan untuk 1) membimbing pensampelan titik NeRF supaya ia tertumpu di sekitar permukaan tempat kejadian dan 2) menyediakan pengekodan kedudukan NeRF dengan ciri tambahan tentang geometri pemandangan dan rupa di lokasi sampel. Dengan panduan sedemikian, NeRF boleh memperoleh butiran yang lebih halus dengan cekap dalam ruang pensampelan yang sangat termampat. Tambahan pula, memandangkan geometri aras kasar dan maklumat rupa dibekalkan secara eksplisit kepada NeRF, MLP ringan sudah memadai untuk mempelajari pemetaan daripada koordinat global kepada ketumpatan volum dan nilai warna. Dalam peringkat pembelajaran bersama kedua, jejaring ciri kasar dioptimumkan lagi melalui kecerunan daripada cawangan NeRF dan dinormalkan, menghasilkan hasil pemaparan yang lebih tepat dan semula jadi apabila digunakan secara bersendirian.
Teras penyelidikan ini ialah struktur dwi-cawangan baharu, iaitu cawangan grid dan cawangan NeRF. 1) Para penyelidik mula-mula merakam pemandangan piramid pesawat ciri dalam peringkat pra-latihan, dan secara kasar mengambil sampel mata sinar melalui pemapar MLP cetek (cawangan grid) dan meramalkan nilai sinaran mereka mengikut MSE bersepadu volum pada piksel penyeliaan kehilangan warna. Langkah ini menjana set pesawat ciri ketumpatan/penampilan berbilang resolusi yang kaya dengan maklumat. 2) Seterusnya, penyelidik memasuki peringkat pembelajaran bersama dan melakukan persampelan yang lebih halus. Para penyelidik menggunakan grid ciri yang dipelajari untuk membimbing pensampelan cawangan NeRF untuk memfokus pada permukaan pemandangan. Ciri-ciri grid bagi titik pensampelan diperoleh melalui interpolasi dwilinear pada satah ciri. Ciri-ciri ini kemudiannya digabungkan dengan pengekodan kedudukan dan dimasukkan ke dalam cawangan NeRF untuk meramalkan ketumpatan isipadu dan warna. Ambil perhatian bahawa semasa latihan bersama, output cawangan grid masih diselia menggunakan imej kebenaran tanah serta hasil pemaparan halus daripada cawangan NeRF.
Senario Sasaran: Dalam kerja ini, kajian menggunakan medan sinaran saraf berpandukan grid novel untuk melaksanakan skala besar rendering Pemandangan bandar. Bahagian kiri imej di bawah menunjukkan contoh pemandangan bandar besar yang merangkumi kawasan tanah 2.7km^2 yang ditangkap oleh lebih 5k imej dron. Kajian telah menunjukkan bahawa kaedah berasaskan NeRF menghasilkan hasil yang kabur dan terlalu licin serta mempunyai kapasiti model yang terhad, manakala kaedah berasaskan eigengrid cenderung untuk menunjukkan artifak yang bising apabila menyesuaikan diri dengan adegan berskala besar dengan eigengrid resolusi tinggi. Model dwi-cawangan yang dicadangkan dalam kajian ini menggabungkan kelebihan kedua-dua kaedah dan mencapai pemaparan paparan novel yang realistik melalui penambahbaikan yang ketara berbanding kaedah sedia ada. Kedua-dua cawangan memperoleh peningkatan yang ketara ke atas garis dasar masing-masing.
Penyelidik melaporkan prestasi garis dasar dan kaedah penyelidik untuk perbandingan. Baik secara kualitatif mahupun kuantitatif. Penambahbaikan yang ketara boleh diperhatikan dari segi kualiti visual dan semua metrik. Pendekatan penyelidik mendedahkan geometri yang lebih tajam dan butiran yang lebih halus daripada kaedah berasaskan MLP semata-mata (NeRF dan Mega-NeRF). Khususnya, disebabkan kapasiti terhad dan bias spektrum NeRF, ia sentiasa tidak dapat mensimulasikan perubahan pantas dalam geometri dan warna, seperti tumbuh-tumbuhan dan jalur di taman permainan. Walaupun secara geografi membahagikan pemandangan kepada kawasan kecil, seperti yang ditunjukkan dalam garis dasar Mega-NeRF, membantu sedikit, hasil yang dibentangkan masih kelihatan terlalu lancar. Sebaliknya, berpandukan grid ciri yang dipelajari, ruang pensampelan NeRF dimampatkan dengan berkesan dan hebat berhampiran permukaan tempat kejadian. Ciri ketumpatan dan rupa yang disampel daripada satah ciri tanah secara eksplisit mewakili kandungan pemandangan, seperti yang ditunjukkan dalam Rajah 3. Walaupun kurang tepat, ia sudah menyediakan geometri dan tekstur tempatan yang bermaklumat dan menggalakkan pengekodan kedudukan NeRF untuk mengumpulkan butiran pemandangan yang hilang.
Jadual 1 di bawah menunjukkan keputusan kuantitatif:
Rajah 6 Peningkatan pesat dalam memberikan kesetiaan boleh diperhatikan:
Untuk maklumat lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Mencapai pemaparan bandar berskala ultra-besar yang cekap dan realistik: menggabungkan teknologi NeRF dan grid ciri. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!