Baru-baru ini, video rakaman adegan malam AI daripada Google telah menjadi tular!
Teknologi dalam video dipanggil RawNeRF, yang seperti namanya ialah varian baharu NeRF.
NeRF ialah rangkaian saraf bersambung sepenuhnya yang menggunakan maklumat imej 2D sebagai data latihan untuk memulihkan pemandangan 3D.
RawNeRF mempunyai banyak peningkatan berbanding NeRF sebelum ini. Ia bukan sahaja mengurangkan hingar dengan sempurna, tetapi ia juga mengubah perspektif kamera dan melaraskan fokus, pendedahan dan pemetaan nada. Makalah oleh Google ini diterbitkan pada November 2021 dan disertakan dalam CVPR 2022.
Alamat projek: https://bmild.github.io/rawnerf/
Sebelum ini, NeRF menggunakan imej LDR julat dinamik rendah dipetakan nada sebagai input.
RawNeRF Google sebaliknya melatih terus pada imej mentah linear, yang boleh mengekalkan julat dinamik penuh adegan.
Dalam bidang pandangan komposit, berurusan dengan foto gelap sentiasa menjadi masalah.
Kerana dalam kes ini terdapat butiran minimum dalam imej. Dan imej ini menyukarkan untuk menggabungkan pandangan baharu.
Nasib baik, kami mempunyai penyelesaian baharu - menggunakan data sensor mentah.
ialah gambar seperti ini, jadi kami mempunyai butiran lanjut.
Walau bagaimanapun, masih terdapat masalah: terdapat terlalu banyak bunyi.
Jadi kita perlu membuat pilihan: kurang butiran dan kurang bunyi, atau lebih terperinci dan lebih banyak bunyi .
Berita baiknya ialah: kita boleh menggunakan teknologi pengurangan hingar imej.
Seperti yang anda lihat, kesan imej selepas pengurangan hingar adalah baik, tetapi untuk paparan komposit, kualiti ini masih tidak mencukupi.
Walau bagaimanapun, teknologi penyah imej memberi kita idea: memandangkan kita boleh menafikan satu imej, kita juga boleh menafikan sekumpulan imej.
Mari kita lihat kesan RawNeRF.
Dan, ia mempunyai ciri yang lebih menakjubkan: nada memetakan data asas untuk mengekstrak lebih banyak butiran daripada imej gelap .
Sebagai contoh, menukar fokus imej menghasilkan kesan medan kedalaman yang hebat.
Apa yang lebih menakjubkan ialah ini dalam masa nyata.
Selain itu, pendedahan imej juga akan berubah dengan sewajarnya apabila fokus berubah!
Seterusnya, mari kita lihat lima senario aplikasi klasik RawNeRF.
1 Kejelasan imej
Lihat imej ini, anda Boleh. anda melihat maklumat pada papan tanda jalan?
Seperti yang anda lihat, selepas pemprosesan RawNeRF, maklumat mengenai papan tanda jalan adalah lebih jelas.
Dalam animasi berikut, kita dapat melihat dengan jelas perbezaan dalam sintesis imej antara teknologi NeRF asal dan RawNeRF.
Sebenarnya apa yang dipanggil NeRF bukanlah teknologi yang lama, baru 2 tahun...
Dapat dilihat bahawa RawNeRF berprestasi sangat baik dalam memproses sorotan malah kita boleh melihat perubahan sorotan di sekeliling plat lesen di sudut kanan bawah.
2. Sorotan Spekular
Sorotan Spekular ialah objek yang sangat sukar untuk ditangkap kerana ia menggerakkan kamera , mereka akan banyak berubah, dan jarak relatif antara foto akan menjadi agak jauh. Faktor ini merupakan cabaran besar untuk mempelajari algoritma.
Seperti yang anda lihat dalam gambar di bawah, sorotan spekular yang dihasilkan oleh RawNeRF boleh dikatakan agak dipulihkan.
3 Struktur nipis
Walaupun dalam keadaan terang , teknologi sebelum ini tidak memaparkan pagar dengan baik.
Dan RawNeRF boleh mengendalikan foto malam dengan sekumpulan pagar, dan ia boleh memegangnya sendiri.
Walaupun pagar bertindih dengan plat, kesannya masih sangat baik.
4 Pantulan cermin
Pantulan di jalan raya adalah. Sorotan spekular yang lebih mencabar. Seperti yang anda lihat, RawNeRF juga mengendalikannya secara semula jadi dan realistik.
5 Tukar fokus, laraskan pendedahan
Dalam adegan ini, mari cuba mengubah perspektif, sentiasa menukar fokus, dan melaraskan pendedahan pada masa yang sama.
Pada masa lalu, untuk menyelesaikan tugasan ini, kami memerlukan koleksi mana-mana dari 25 hingga 200 foto.
Dan kini, kita hanya memerlukan beberapa saat untuk menyelesaikan penggambaran.
Sudah tentu, RawNeRF tidak sempurna sekarang. Kita dapat melihat bahawa masih terdapat beberapa perbezaan antara imej RawNeRF di sebelah kiri dan foto sebenar di sebelah kanan.
Walau bagaimanapun, RAWnerf telah mencapai kemajuan yang besar daripada satu set imej asal yang penuh dengan hingar kepada kesan semasa. Anda tahu, teknologi dua tahun lalu tidak dapat melakukan ini sepenuhnya.
Untuk menyemak secara ringkas, saluran paip latihan NeRF menerima imej LDR yang diproses oleh kamera, dan pembinaan semula pemandangan dan pemaparan paparan adalah berdasarkan LDR ruang warna. Oleh itu, output NeRF sebenarnya telah diproses selepas, dan adalah mustahil untuk mengubah suai dan mengeditnya dengan ketara.
Sebaliknya, RawNeRF dilatih secara langsung pada data input HDR mentah linear. Paparan yang terhasil boleh diedit seperti mana-mana foto asal, menukar fokus dan pendedahan, dsb.
Faedah utama yang dibawa oleh ini ialah dua perkara: sintesis paparan HDR dan pemprosesan pengurangan hingar.
Dalam adegan dengan kecerahan yang sangat berbeza-beza, kelajuan pengatup tetap tidak mencukupi untuk menangkap julat dinamik penuh. Model RawNeRF boleh mengoptimumkan kedua-dua dedahan pendek dan panjang serentak untuk memulihkan julat dinamik penuh.
Sebagai contoh, pemandangan nisbah cahaya yang besar dalam (b) memerlukan algoritma pemetaan nada tempatan yang lebih kompleks (seperti HDR + pemprosesan pasca) untuk mengekalkan butiran bahagian gelap dan pemandangan luar pada masa yang sama.
Selain itu, RawNeRF boleh menghasilkan kesan nyahfokus sintetik dengan sorotan "kabur" tepu dengan betul menggunakan warna linear.
Dari segi pemprosesan hingar imej, penulis terus melatih RawNeRF pada imej mentah linear HDR yang tidak diproses sepenuhnya untuk menjadikannya "noiser" yang boleh memproses berpuluh-puluh atau bahkan ratusan imej input.
Keteguhan ini bermakna RawNeRF boleh menyelesaikan tugas membina semula adegan dalam gelap dengan cemerlang.
Contohnya, dalam (a) pemandangan malam yang diterangi oleh hanya satu lilin, RawNeRF boleh mengekstrak butiran daripada data mentah yang bising yang sebaliknya akan dimusnahkan oleh pasca pemprosesan (b, c ).
Pengenalan kepada pengarang
Pengarang pertama kertas kerja, Ben Mildenhall, ialah seorang penyelidik di Google Research Scientists mengusahakan masalah dalam penglihatan komputer dan grafik.
Beliau menerima ijazah sarjana muda dalam sains komputer dan matematik dari Universiti Stanford pada 2015, dan PhD dalam sains komputer dari University of California, Berkeley pada tahun 2020.
CVPR 2022 yang baru sahaja tamat boleh dikatakan sebagai detik kemuncak Ben.
Lima daripada tujuh kertas yang diterima memenangi Lisan, dan satu menerima penghormatan untuk kertas pelajar terbaik.
Sebaik sahaja video itu keluar, ia terus memukau netizen. Mari bergembira bersama.
Melihat kepantasan kemajuan teknologi, tidak lama kemudian anda tidak lagi perlu risau tentang mengambil gambar pada waktu malam. Faham~
Atas ialah kandungan terperinci Kamera 'penglihatan malam' Google yang luar biasa tiba-tiba menjadi popular! Pengurangan hingar sempurna dan sintesis perspektif 3D. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!