Resolusi ultra tinggi dialu-alukan oleh ramai penyelidik sebagai standard untuk merakam dan memaparkan imej dan video berkualiti tinggi Berbanding dengan resolusi yang lebih rendah (format 1K HD), pemandangan yang ditangkap pada resolusi tinggi biasanya Perinciannya sangat jelas, dan maklumat piksel dikuatkan dengan tompok kecil. Walau bagaimanapun, masih terdapat banyak cabaran dalam menggunakan teknologi ini untuk pemprosesan imej dan penglihatan komputer.
Dalam artikel ini, penyelidik dari Alibaba menumpukan pada tugas sintesis paparan baharu dan mencadangkan rangka kerja yang dipanggil 4K-NeRF kaedah pemaparan volum berasaskan NeRF boleh dilaksanakan dalam sintesis paparan Kesetiaan Tinggi pada resolusi ultra tinggi 4K.
Alamat kertas: https://arxiv.org/abs/2212.04701
Laman utama projek: https://github.com/frozoul/4K-NeRF
Tanpa berlengah lagi, mari kita lihat kesannya dahulu ( di bawah Video semuanya telah diturunkan sampel Untuk video 4K asal, sila rujuk projek asal).
Seterusnya mari kita lihat bagaimana penyelidikan itu dijalankan.
Saluran paip 4K-NeRF (seperti ditunjukkan di bawah): Menggunakan teknologi pensampelan sinar berasaskan tampalan, latih bersama-sama VC-Encoder (View-Consistent) (berdasarkan DEVO) pada resolusi yang lebih rendah Tiga -maklumat geometri dimensi dikodkan dalam ruang, dan kemudian melalui Penyahkod VC untuk mencapai pemaparan frekuensi tinggi, halus dan berkualiti tinggi serta ketekalan paparan yang dipertingkatkan.
Kajian ini membuat instantiate pengekod berdasarkan formula yang ditakrifkan dalam DVGO [32], dan perwakilan berasaskan grid voxel yang dipelajari adalah geometri yang dikodkan secara geografi secara eksplisit :
Untuk setiap titik pensampelan, interpolasi trilinear anggaran ketumpatan dilengkapi dengan fungsi pengaktifan softplus untuk menjana nilai ketumpatan Volume:
Warna dianggarkan menggunakan MLP kecil:
Dengan cara ini, nilai ciri setiap sinar (atau piksel) boleh diperolehi dengan mengumpul ciri-ciri titik pensampelan di sepanjang garis set r:
Untuk memanfaatkan sifat geometri yang tertanam dalam Pengekod VC dengan lebih baik, kajian ini juga menjana peta kedalaman dengan menganggarkan kedalaman setiap sinar r di sepanjang paksi sinar sampel. Peta kedalaman anggaran menyediakan panduan yang kukuh untuk struktur tiga dimensi pemandangan yang dijana oleh Pengekod di atas:
Rangkaian yang diluluskan selepas itu ialah dengan menindih beberapa jilid Blok binaan (tidak menggunakan normalisasi bukan parametrik atau operasi pensampelan bawah) dan operasi pensampelan naik berjalin. Khususnya, daripada hanya menggabungkan ciri F dan peta kedalaman M, kajian ini menggabungkan isyarat kedalaman dari peta kedalaman dan menyuntiknya ke dalam setiap blok melalui transformasi yang dipelajari untuk memodulasi pengaktifan blok.
Berbeza daripada mekanisme aras piksel dalam kaedah NeRF tradisional, kaedah kajian ini bertujuan untuk menangkap maklumat spatial antara sinar (piksel). Oleh itu, strategi pensampelan sinar rawak dalam NeRF tidak sesuai di sini. Oleh itu, kajian ini mencadangkan strategi latihan pensampelan sinar berasaskan tampalan untuk memudahkan menangkap pergantungan spatial antara ciri sinar. Semasa latihan, imej paparan latihan mula-mula dibahagikan kepada tompok p bersaiz N_p×N_p untuk memastikan kebarangkalian pensampelan pada piksel adalah seragam. Apabila dimensi ruang imej tidak boleh dibahagikan dengan tepat dengan saiz tampalan, tampalan perlu dipotong sehingga ke tepi untuk mendapatkan satu set tampalan latihan. Kemudian satu (atau lebih) patch dipilih secara rawak daripada set, dan sinaran piksel dalam patch membentuk kumpulan mini untuk setiap lelaran.
Untuk menyelesaikan masalah kesan visual yang kabur atau terlalu licin pada butiran halus, penyelidikan ini menambah kehilangan lawan dan kehilangan persepsi untuk mengatur sintesis butiran halus. Kehilangan persepsi menganggarkan persamaan antara tampung yang diramalkan dan kebenaran asas p dalam ruang ciri melalui rangkaian VGG 19 lapisan yang telah dilatih:
Kajian menggunakan kerugian dan bukannya MSE untuk menyelia pembinaan semula butiran frekuensi tinggi
Selain itu, kajian itu juga menambah kerugian MSE tambahan, dan fungsi jumlah kerugian akhir mempunyai bentuk berikut:
Analisis kualitatif
Percubaan membandingkan 4K -NeRF dengan model lain, dapat dilihat bahawa kaedah berdasarkan NeRF biasa mempunyai tahap kehilangan butiran dan kekaburan yang berbeza-beza. Sebaliknya, 4K-NeRF memberikan pemaparan fotorealistik berkualiti tinggi bagi butiran kompleks dan frekuensi tinggi ini, walaupun pada adegan dengan medan pandangan latihan yang terhad.
Analisis kuantitatif
Kajian ini dibandingkan dengan beberapa kaedah semasa berdasarkan data 4k, termasuk Plenoxels, DVGO, JaxNeRF, MipNeRF-360 dan NeRF-SR. Percubaan bukan sahaja menggunakan penunjuk penilaian pemulihan imej sebagai perbandingan, tetapi juga menyediakan masa inferens dan memori cache untuk rujukan penilaian komprehensif. Keputusan adalah seperti berikut:
Walaupun keputusannya tidak jauh berbeza daripada keputusan beberapa kaedah dalam beberapa penunjuk, terima kasih kepada berasaskan voxel mereka kaedah, alasan Prestasi menakjubkan dicapai dari segi kecekapan dan kos ingatan, membolehkan imej 4K dipaparkan dalam 300 ms.
Kajian ini meneroka keupayaan NeRF dalam memodelkan butiran halus, mencadangkan rangka kerja baru untuk meningkatkan keupayaannya memulihkan pandangan dalam adegan pada resolusi yang sangat tinggi Ekspresi perincian halus yang konsisten . Selain itu, penyelidikan ini juga memperkenalkan sepasang modul penyahkod pengekod yang mengekalkan ketekalan geometri, memodelkan sifat geometri secara berkesan dalam ruang yang lebih rendah, dan menggunakan korelasi setempat antara ciri sedar geometri untuk mencapai pandangan dalam ruang berskala penuh Konsistensi dan tampalan yang dipertingkatkan. rangka kerja latihan persampelan berasaskan juga membenarkan kaedah untuk menyepadukan penyeliaan daripada regularisasi berorientasikan perceptron. Penyelidikan ini berharap dapat menggabungkan kesan rangka kerja ke dalam pemodelan adegan dinamik, serta tugas pemaparan saraf sebagai hala tuju masa hadapan.
Atas ialah kandungan terperinci Tuhan memulihkan objek kompleks dan butiran frekuensi tinggi, sintesis paparan kesetiaan tinggi 4K-NeRF ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!