


Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda
Walaupun kualiti 4K, video 60 bingkai hanya boleh ditonton oleh ahli pada beberapa APP, penyelidik AI telah pun mencapai video sintesis dinamik 3D tahap 4K, dan gambarnya agak lancar.
Dalam kehidupan sebenar, kebanyakan video yang kami hubungi adalah 2D. Apabila menonton video jenis ini, kami tidak mempunyai cara untuk memilih sudut tontonan, seperti berjalan di kalangan pelakon atau berjalan ke sudut ruang. Kemunculan peranti VR dan AR telah menggantikan kelemahan ini. Video 3D yang mereka sediakan membolehkan kami mengubah perspektif kami dan juga bergerak sesuka hati, dengan banyaknya meningkatkan rendaman kami.
Walau bagaimanapun, sintesis adegan dinamik 3D seperti ini sentiasa menjadi kesukaran, baik dari segi kualiti imej dan kelancaran.
Baru-baru ini, penyelidik dari Universiti Zhejiang, Teknologi Xiangyan dan Kumpulan Semut telah mencabar masalah ini. Dalam kertas kerja bertajuk "4K4D: Sintesis Paparan 4D Masa Nyata pada Resolusi 4K", mereka mencadangkan kaedah perwakilan awan titik yang dipanggil 4K4D, yang meningkatkan kelajuan pemaparan sintesis pemandangan dinamik 3D resolusi tinggi. Khususnya, menggunakan GPU RTX 4090, kaedah mereka boleh menghasilkan pada resolusi 4K pada kadar bingkai sehingga 80 FPS dan pada resolusi 1080p pada kadar bingkai sehingga 400 FPS. Secara keseluruhan, ia lebih daripada 30 kali lebih pantas daripada kaedah sebelumnya, dan kualiti pemaparan mencapai SOTA.
Berikut ialah pengenalan kertas kerja.
Pautan kertas: https://arxiv.org/pdf/2310.11448.pdf
https://z ju3dv. github .io/4k4d/
- Sintesis paparan dinamik bertujuan untuk membina semula adegan 3D yang dinamik daripada video yang ditangkap dan mencipta main balik maya yang mengasyikkan, yang merupakan masalah penglihatan komputer dan penyelidikan jangka panjang Kunci kepada utiliti teknologi ini ialah keupayaannya untuk memaparkan dalam masa nyata dengan kesetiaan yang tinggi, membolehkan ia digunakan dalam VR/AR, siaran sukan dan tangkapan prestasi artistik. Pendekatan tradisional mewakili adegan 3D dinamik sebagai jujukan jerat bertekstur dan menggunakan perkakasan yang kompleks untuk membina semulanya. Oleh itu, mereka biasanya terhad kepada persekitaran terkawal.
- Baru-baru ini, perwakilan saraf tersirat telah mencapai kejayaan besar dalam membina semula adegan 3D dinamik daripada video RGB melalui pemaparan boleh dibezakan. Contohnya, "Sintesis video 3d saraf daripada video berbilang tontonan" memodelkan pemandangan sasaran sebagai medan sinaran dinamik, menggunakan pemaparan volum untuk mensintesis imej dan membandingkan serta mengoptimumkannya dengan imej input. Walaupun hasil sintesis paparan dinamik yang mengagumkan, kaedah sedia ada selalunya memerlukan beberapa saat atau bahkan minit untuk menghasilkan imej pada resolusi 1080p kerana penilaian rangkaian yang mahal. Diinspirasikan oleh kaedah sintesis paparan statik, beberapa kaedah sintesis paparan dinamik meningkatkan kelajuan pemaparan dengan mengurangkan kos atau bilangan penilaian rangkaian. Melalui strategi ini, Peta MLP dapat memaparkan angka dinamik latar depan pada 41.7 fps. Walau bagaimanapun, cabaran kelajuan pemaparan kekal, kerana prestasi masa nyata Peta MLP hanya boleh dicapai apabila menggubah imej dengan resolusi sederhana (384×512). Apabila memaparkan imej resolusi 4K, ia perlahan kepada hanya 1.3 FPS.
Pengarang menyatakan bahawa inovasi teras mereka terletak pada perwakilan awan titik 4D dan model penampilan hibrid. Khususnya, untuk adegan dinamik, mereka menggunakan algoritma ukiran ruang untuk mendapatkan jujukan awan titik kasar dan memodelkan kedudukan setiap titik sebagai vektor yang boleh dipelajari. Mereka juga memperkenalkan grid ciri 4D untuk menetapkan vektor ciri kepada setiap titik dan memasukkannya ke dalam rangkaian MLP untuk meramalkan jejari, ketumpatan dan pekali harmonik sfera (SH) titik. Jerat ciri 4D secara semula jadi menggunakan penyelarasan spatial pada awan titik, menjadikan pengoptimuman lebih mantap. Berdasarkan 4K4D, penyelidik membangunkan algoritma pengelupasan kedalaman yang boleh dibezakan yang menggunakan rasterisasi perkakasan untuk mencapai kelajuan pemaparan yang tidak pernah berlaku sebelum ini.
Penyelidik mendapati model SH berasaskan MLP sukar untuk mewakili penampilan adegan dinamik. Bagi mengurangkan masalah ini, mereka turut memperkenalkan model campuran imej untuk digabungkan dengan model SH bagi mewakili penampilan adegan. Reka bentuk yang penting ialah mereka menjadikan rangkaian pengadunan imej bebas daripada arah tontonan, jadi ia boleh diprakira selepas latihan untuk meningkatkan kelajuan pemaparan. Sebagai pedang bermata dua, strategi ini menjadikan model campuran imej diskret sepanjang arah tontonan. Masalah ini boleh diatasi menggunakan model SH berterusan. Berbanding dengan 3D Gaussian Splatting yang hanya menggunakan model SH, model penampilan hibrid yang dicadangkan oleh penyelidik menggunakan sepenuhnya maklumat yang ditangkap oleh imej input, dengan itu meningkatkan kualiti rendering dengan berkesan.
Untuk mengesahkan keberkesanan kaedah baharu, penyelidik menilai 4K4D pada berbilang set data sintesis paparan baharu dinamik berbilang paparan yang digunakan secara meluas, termasuk NHR, ENeRF-Outdoo, DNA-Rendering dan Neural3DV. Eksperimen yang meluas menunjukkan bahawa 4K4D bukan sahaja tertib magnitud lebih pantas dalam kelajuan pemaparan, tetapi juga jauh lebih baik daripada teknologi SOTA dari segi kualiti pemaparan. Menggunakan GPU RTX 4090, kaedah baharu ini mencapai 400 FPS pada set data Rendering DNA pada resolusi 1080p dan 80 FPS pada set data ENeRF-Outdoor pada resolusi 4k.
Pengenalan Kaedah
Memandangkan video berbilang tontonan yang menangkap pemandangan 3D dinamik, kertas kerja ini bertujuan untuk membina semula adegan sasaran dan melaksanakan sintesis paparan dalam masa nyata. Gambar rajah seni bina model ditunjukkan dalam Rajah 2:
Kemudian artikel itu memperkenalkan pengetahuan berkaitan menggunakan awan titik untuk memodelkan pemandangan dinamik ia bermula dari perspektif pembenaman 4D, model geometri dan model penampilan.
Pembenaman 4D: Memandangkan awan titik kasar bagi pemandangan sasaran, makalah ini menggunakan rangkaian saraf dan jerat ciri untuk mewakili geometri dan rupa dinamiknya. Khususnya, artikel ini mula-mula mentakrifkan enam pesawat ciri θ_xy, θ_xz, θ_yz, θ_tx, θ_ty dan θ_tz, dan mengguna pakai strategi K-Planes untuk menggunakan enam pesawat ini untuk memodelkan medan ciri 4D Θ(x, t):
Model geometri: Berdasarkan awan titik kasar, geometri pemandangan dinamik diwakili dengan mempelajari tiga atribut (entri) pada setiap titik, iaitu kedudukan p ∈ R^3 , jejari r ∈ R dan Ketumpatan σ ∈ R. Kemudian dengan bantuan titik-titik ini, ketumpatan isipadu titik x dalam ruang dikira. Kedudukan titik p dimodelkan sebagai vektor yang boleh dioptimumkan. Jejari r dan ketumpatan σ diramalkan dengan memasukkan vektor ciri f dalam Pers.(1) ke dalam rangkaian MLP.
Model rupa: Seperti yang ditunjukkan dalam Rajah 2c, kertas kerja ini menggunakan teknologi pengadunan imej dan model fungsi harmonik sfera (SH) untuk membina model rupa hibrid, di mana teknologi pengadunan imej mewakili rupa paparan diskret c_ibr, dan model SH mewakili rupa yang bergantung pada pandangan berterusan Kemunculan c_sh. Untuk titik x pada bingkai ke-t, warnanya dalam arah pandangan d ialah:
pengelupasan kedalaman yang boleh dibezakan
Dicadangkan dalam perwakilan adegan dinamik ini bantuan algoritma pengelupasan kedalaman ke dalam imej.
Para penyelidik membangunkan pelorek tersuai untuk melaksanakan algoritma pengelupasan kedalaman yang terdiri daripada pas rendering K. Iaitu, untuk piksel u tertentu, penyelidik melakukan pemprosesan berbilang langkah Akhirnya, selepas pemaparan K, piksel u memperoleh satu set titik isihan {x_k|k = 1, ..., K}.
Berdasarkan titik ini {x_k|k = 1, ..., K}, warna piksel u dalam pemaparan volum dinyatakan sebagai:
Semasa proses latihan, memandangkan warna piksel yang diberikan C (u), kertas ini membandingkannya dengan warna piksel sebenar C_gt (u) dan mengoptimumkan model secara hujung ke hujung menggunakan fungsi kehilangan berikut:
Selain itu, artikel ini juga menggunakan kehilangan persepsi:
dan kehilangan topeng:
ditakrifkan sebagai fungsi akhir
Eksperimen dan keputusan
Kertas ini menilai kaedah 4K4D pada dataset DNA-Rendering, ENeRF-Outdoor, NHR dan Neural3DV. Keputusan
🎜🎜🎜Sila lihat kertas asal untuk butiran lanjut. 🎜🎜
Atas ialah kandungan terperinci Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

GO Pointer Syntax dan menangani masalah dalam penggunaan perpustakaan Viper semasa pengaturcaraan dalam bahasa Go, adalah penting untuk memahami sintaks dan penggunaan petunjuk, terutama dalam ...

Mengapa lelaran peta di GO menyebabkan semua nilai menjadi elemen terakhir? Dalam bahasa Go, ketika berhadapan dengan beberapa soalan wawancara, anda sering menemui peta ...

Tidak ada XML percuma yang mudah dan langsung ke alat PDF di mudah alih. Proses visualisasi data yang diperlukan melibatkan pemahaman dan rendering data yang kompleks, dan kebanyakan alat yang dipanggil "percuma" di pasaran mempunyai pengalaman yang buruk. Adalah disyorkan untuk menggunakan alat sampingan komputer atau menggunakan perkhidmatan awan, atau membangunkan aplikasi sendiri untuk mendapatkan kesan penukaran yang lebih dipercayai.

Dalam pembangunan bahasa Go, dengan betul memperkenalkan pakej tersuai adalah langkah penting. Artikel ini akan menyasarkan "Golang ...

Pengindahan XML pada dasarnya meningkatkan kebolehbacaannya, termasuk lekukan yang munasabah, rehat garis dan organisasi tag. Prinsipnya adalah untuk melintasi pokok XML, tambah lekukan mengikut tahap, dan mengendalikan tag dan tag kosong yang mengandungi teks. Perpustakaan XML.Etree.ElementTree Python menyediakan fungsi Pretty_XML yang mudah yang dapat melaksanakan proses pengindahan di atas.

Mengapa menggunakan kunci menyebabkan panik sekali -sekala? Mari kita lihat soalan yang menarik: mengapa pergi, walaupun kunci ditambah dalam kod, kadang -kadang ...

Pengesahan format XML melibatkan memeriksa struktur dan pematuhannya dengan DTD atau skema. Parser XML diperlukan, seperti ElementTree (pemeriksaan sintaks asas) atau LXML (pengesahan yang lebih kuat, sokongan XSD). Proses pengesahan melibatkan parsing fail XML, memuatkan skema XSD, dan melaksanakan kaedah AssertValid untuk membuang pengecualian apabila ralat dikesan. Mengesahkan format XML juga memerlukan pengendalian pelbagai pengecualian dan mendapat gambaran mengenai bahasa skema XSD.

Arus char menyimpan urutan watak dalam bahasa C dan diisytiharkan sebagai array_name char [saiz]. Unsur akses diluluskan melalui pengendali subskrip, dan elemen berakhir dengan terminator null '\ 0', yang mewakili titik akhir rentetan. Bahasa C menyediakan pelbagai fungsi manipulasi rentetan, seperti strlen (), strcpy (), strcat () dan strcmp ().
