


Hanya berlatih sekali untuk menjana adegan 3D baharu! Sejarah evolusi 'Rendering Neural Medan Cahaya' Google
Sintesis paparan ialah masalah utama di persimpangan penglihatan komputer dan grafik komputer Ia merujuk kepada mencipta pemandangan baharu daripada berbilang gambar tempat kejadian.
Untuk mensintesis pandangan baharu sesuatu pemandangan dengan tepat, model perlu menangkap berbilang jenis maklumat daripada set kecil imej rujukan, seperti struktur 3D terperinci , bahan dan pencahayaandsb.
Memandangkan penyelidik mencadangkan model Neural Radiation Field (NeRF) model pada 2020, isu ini turut mendapat perhatian yang semakin meningkat, sekali gus menggalakkan pandangan baharu Prestasi sintetik.
Salah satu pemain hebat ialah Google, yang juga telah menerbitkan banyak kertas kerja dalam bidang NeRF ini akan memperkenalkan dua kertas A yang diterbitkan oleh Google di CVPR 2022 dan ECCV 2022, menceritakan evolusi model pemaparan saraf medan cahaya.
Kertas pertama mencadangkan model dua peringkat berdasarkan Transformer untuk belajar menggabungkan warna piksel rujukan, mula-mula mendapatkan ciri di sepanjang garis epipolar, Ciri di sepanjang paparan rujukan kemudiannya diperoleh untuk menghasilkan warna sinar sasaran, meningkatkan ketepatan pembiakan pandangan .
Pautan kertas: https://arxiv.org/pdf/2112.09687.pdf
KlasikRendering Medan Cahaya boleh menghasilkan semula dengan tepat kesan berkaitan pandangan seperti pantulan, pembiasan dan lutsinar, tetapi memerlukan pensampelan pandangan padat pemandangan. Kaedah berdasarkan pembinaan semula geometri hanya memerlukan pandangan yang jarang tetapi tidak dapat memodelkan kesan bukan Lambertian dengan tepat, iaitu taburan bukan ideal .
Model baharu yang dicadangkan dalam artikel itu menggabungkan kelebihan kedua-dua arah ini dan meringankan batasannya, dengan memfokuskan pada cahaya Dengan memanipulasi perwakilan empat dimensi medan, model boleh belajar untuk mewakili kesan bergantung pada paparan dengan tepat. Geometri pemandangan dipelajari secara tersirat daripada set pandangan yang jarang dengan menguatkuasakan kekangan geometri semasa latihan dan inferens.
Model ini mengatasi model terkini pada pelbagai set data hadapan dan 360° serta mempunyai pergantungan yang teruk pada garisan penglihatan Terdapat kelonggaran yang lebih besar dalam adegan perubahan seksual.
Masalah lain menangani masalah generalisasi mensintesis adegan ghaib dengan menggunakan jujukan Transformer dengan pengekodan kedudukan berkanun . Selepas model dilatih pada set adegan, ia boleh digunakan untuk mensintesis pandangan adegan baharu.
Pautan kertas: https://arxiv.org/pdf/2207.10662.pdf
Artikel mencadangkan paradigma berbeza yang tidak memerlukan ciri kedalaman dan pemaparan volum seperti NeRF Kaedah ini boleh meramalkan secara langsung warna sinar sasaran dalam adegan baharu dengan hanya mengambil sampel set tampalan dari tempat kejadian.
Mula-mula gunakan geometri epipolar untuk mengekstrak patch di sepanjang garisan epipolar setiap paparan rujukan, dan tambahkan setiap patch yang diunjurkan secara linear menjadi satu -vektor ciri dimensi, set ini kemudiannya diproses oleh satu siri Transformer.
Untuk pengekodan kedudukan, penyelidik menggunakan kaedah yang serupa dengan kaedah perwakilan medan cahaya untuk memparameterkan sinar Perbezaannya ialah koordinat dinormalkan berbanding dengan sinar sasaran, dan Menjadikan kaedah bebas daripada bingkai rujukan dan meningkatkan keluasan .
Inti inovasi model ialah ia melaksanakan pemaparan berasaskan imej, menggabungkan warna dan ciri imej rujukan untuk memberikan paparan baharu , dan ia adalah semata-mata Ia berdasarkan Transformer dan beroperasi pada set tampalan imej. Dan mereka menggunakan perwakilan medan cahaya 4D untuk pengekodan kedudukan, membantu mensimulasikan kesan berkaitan paparan.
Hasil percubaan akhir menunjukkan bahawa kaedah ini mengatasi kaedah lain dalam sintesis paparan baharu bagi adegan ghaib, walaupun apabila dilatih dengan data yang jauh lebih sedikit daripada .
Rendering Neural Medan CahayaInput kepada model terdiri daripada set imej rujukan, parameter kamera yang sepadan (panjang fokus, kedudukan dan orientasi ruang), dan maklumat yang pengguna ingin tentukan Koordinat sinar sasaran warna.
Untuk menghasilkan imej baharu, kita perlu bermula dengan parameter kamera imej input, mula-mula dapatkan koordinat sinar sasaran (setiap satu sepadan dengan piksel), dan untuk setiap pertanyaan Model koordinat.
Penyelesaian penyelidik adalah untuk tidak memproses sepenuhnya setiap imej rujukan, tetapi hanya melihat kawasan yang mungkin mempengaruhi piksel sasaran. Kawasan ini boleh ditentukan oleh geometri epipolar, memetakan setiap piksel sasaran ke garisan pada setiap bingkai rujukan.
Demi keselamatan, anda perlu memilih kawasan kecil di sekeliling beberapa titik pada garisan epipolar untuk membentuk satu set tampalan yang akan diproses sebenarnya oleh model, dan kemudian gunakan Transformer kepada set tampalan ini Dapatkan warna piksel sasaran.
Transformer amat berguna dalam kes ini kerana mekanisme perhatian kendiri di dalamnya secara semula jadi boleh mengambil koleksi tampalan sebagai input dan berat perhatian itu sendiri Ia boleh digunakan untuk meramalkan warna piksel keluaran dengan menggabungkan warna dan ciri paparan rujukan.
Dalam pemaparan saraf medan cahaya (LFNR), penyelidik menggunakan dua jujukan Transformer untuk memetakan koleksi tampalan untuk menyasarkan warna piksel.
Pengubah pertama mengagregatkan maklumat sepanjang setiap garisan epipolar, dan Transformer kedua mengagregatkan maklumat di sepanjang setiap imej rujukan.
Kaedah ini boleh mentafsirkan Transformer pertama sebagai mencari korespondensi berpotensi piksel sasaran pada setiap bingkai rujukan, manakala Transformer kedua bertanggungjawab untuk kesan ketergantungan oklusi dan garis pandang. penaakulan, yang juga merupakan kesukaran biasa dengan pemaparan berasaskan imej.
LFNR mengatasi model sota pada penanda aras sintesis paparan yang paling popular (Adegan NeRF’s Blender dan Real Forward-Facing dan NeX’s Shiny The peak). nisbah -kepada-bunyi (PSNR) dipertingkatkan sehingga 5dB, yang bersamaan dengan mengurangkan ralat tahap piksel sebanyak 1.8 kali.
LFNR boleh menghasilkan semula beberapa kesan yang bergantung kepada garis penglihatan yang lebih sukar dalam set data NeX/Shiny, seperti pelangi dan pantulan pada CD, pantulan, pembiasan dan lutsinar pada botol .
Berbanding dengan kaedah sebelumnya seperti NeX dan NeRF, mereka tidak dapat menghasilkan semula kesan berkaitan garis penglihatan, seperti dalam NeX /Dataset berkilat Ketelusan dan indeks biasan tabung uji dalam adegan makmal.
Tetapi LFNR juga mempunyai had.
Transformer pertama melipat maklumat di sepanjang setiap garisan epipolar secara bebas untuk setiap imej rujukan, yang juga bermakna model hanya boleh menentukan maklumat yang perlu dikekalkan berdasarkan koordinat sinar keluaran dan tampalan setiap imej rujukan , yang berfungsi baik dalam latihan pada satu adegan (seperti kebanyakan kaedah rendering saraf), tetapi ia tidak boleh digeneralisasikan kepada adegan yang berbeza.
Model yang boleh digeneralisasikan adalah penting kerana ia boleh digunakan terus pada senario baharu tanpa latihan semula.
Para penyelidik mencadangkan model pemaparan saraf (GPNR) berasaskan patch umum untuk menyelesaikan kekurangan LFNR ini.
Dengan menambahkan Transformer pada model supaya ia berjalan sebelum dua Transformer yang lain dan antara titik kedalaman yang sama bagi semua pertukaran imej rujukan maklumat antara.
GPNR terdiri daripada jujukan tiga Transformer yang memetakan satu set tompok yang diekstrak sepanjang garis epipolar kepada warna piksel. Tompok imej dipetakan kepada ciri awal melalui lapisan unjuran linear, dan kemudian ciri ini terus diperhalusi dan diagregatkan oleh model untuk akhirnya membentuk ciri dan warna.
Sebagai contoh, selepas Transformer pertama mengekstrak jujukan tampalan daripada "bangku taman", model baharu boleh menggunakan "bunga" yang muncul pada kedalaman yang sepadan dalam kedua-dua paparan Petunjuk sedemikian menunjukkan perlawanan yang berpotensi.
Satu lagi idea utama kerja ini adalah untuk menormalkan pengekodan kedudukan mengikut sinar sasaran, kerana kita ingin membuat generalisasi dalam senario yang berbeza, Kuantiti mesti diwakili dalam relatif dan bukannya rangka rujukan mutlak
Untuk menilai prestasi generalisasi model, penyelidik melatih GPNR pada satu set adegan dan mengujinya pada adegan baru.
GPNR bertambah baik dengan purata 0.5-1.0 dB pada beberapa penanda aras (mengikuti protokol IBRNet dan MVSNeRF), terutamanya pada penanda aras IBRNet, di mana GPNR bertambah baik menggunakan hanya 11% daripada senario latihan kes, ia melebihi model garis dasar.
GPNR menjana butiran paparan pada adegan NeX/Shiny dan LLFF yang dikekalkan tanpa sebarang penalaan halus. GPNR mengeluarkan semula butiran pada bilah dan pembiasan melalui kanta dengan lebih tepat daripada IBRNet.
Atas ialah kandungan terperinci Hanya berlatih sekali untuk menjana adegan 3D baharu! Sejarah evolusi 'Rendering Neural Medan Cahaya' Google. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
