Jadual Kandungan
Pautan kertas: https://arxiv.org/pdf/2310.11448.pdf
Pengenalan Kaedah
Rumah Peranti teknologi AI Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Oct 19, 2023 pm 02:21 PM
ai Model

Walaupun kualiti 4K, video 60 bingkai hanya boleh ditonton oleh ahli pada beberapa APP, penyelidik AI telah pun mencapai video sintesis dinamik 3D tahap 4K, dan gambarnya agak lancar.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Dalam kehidupan sebenar, kebanyakan video yang kami hubungi adalah 2D. Apabila menonton video jenis ini, kami tidak mempunyai cara untuk memilih sudut tontonan, seperti berjalan di kalangan pelakon atau berjalan ke sudut ruang. Kemunculan peranti VR dan AR telah menggantikan kelemahan ini. Video 3D yang mereka sediakan membolehkan kami mengubah perspektif kami dan juga bergerak sesuka hati, dengan banyaknya meningkatkan rendaman kami.

Walau bagaimanapun, sintesis adegan dinamik 3D seperti ini sentiasa menjadi kesukaran, baik dari segi kualiti imej dan kelancaran.

Baru-baru ini, penyelidik dari Universiti Zhejiang, Teknologi Xiangyan dan Kumpulan Semut telah mencabar masalah ini. Dalam kertas kerja bertajuk "4K4D: Sintesis Paparan 4D Masa Nyata pada Resolusi 4K", mereka mencadangkan kaedah perwakilan awan titik yang dipanggil 4K4D, yang meningkatkan kelajuan pemaparan sintesis pemandangan dinamik 3D resolusi tinggi. Khususnya, menggunakan GPU RTX 4090, kaedah mereka boleh menghasilkan pada resolusi 4K pada kadar bingkai sehingga 80 FPS dan pada resolusi 1080p pada kadar bingkai sehingga 400 FPS. Secara keseluruhan, ia lebih daripada 30 kali lebih pantas daripada kaedah sebelumnya, dan kualiti pemaparan mencapai SOTA.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Berikut ialah pengenalan kertas kerja.

Pautan kertas: https://arxiv.org/pdf/2310.11448.pdf

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda https://z ju3dv. github .io/4k4d/


  • Sintesis paparan dinamik bertujuan untuk membina semula adegan 3D yang dinamik daripada video yang ditangkap dan mencipta main balik maya yang mengasyikkan, yang merupakan masalah penglihatan komputer dan penyelidikan jangka panjang Kunci kepada utiliti teknologi ini ialah keupayaannya untuk memaparkan dalam masa nyata dengan kesetiaan yang tinggi, membolehkan ia digunakan dalam VR/AR, siaran sukan dan tangkapan prestasi artistik. Pendekatan tradisional mewakili adegan 3D dinamik sebagai jujukan jerat bertekstur dan menggunakan perkakasan yang kompleks untuk membina semulanya. Oleh itu, mereka biasanya terhad kepada persekitaran terkawal.
  • Baru-baru ini, perwakilan saraf tersirat telah mencapai kejayaan besar dalam membina semula adegan 3D dinamik daripada video RGB melalui pemaparan boleh dibezakan. Contohnya, "Sintesis video 3d saraf daripada video berbilang tontonan" memodelkan pemandangan sasaran sebagai medan sinaran dinamik, menggunakan pemaparan volum untuk mensintesis imej dan membandingkan serta mengoptimumkannya dengan imej input. Walaupun hasil sintesis paparan dinamik yang mengagumkan, kaedah sedia ada selalunya memerlukan beberapa saat atau bahkan minit untuk menghasilkan imej pada resolusi 1080p kerana penilaian rangkaian yang mahal. Diinspirasikan oleh kaedah sintesis paparan statik, beberapa kaedah sintesis paparan dinamik meningkatkan kelajuan pemaparan dengan mengurangkan kos atau bilangan penilaian rangkaian. Melalui strategi ini, Peta MLP dapat memaparkan angka dinamik latar depan pada 41.7 fps. Walau bagaimanapun, cabaran kelajuan pemaparan kekal, kerana prestasi masa nyata Peta MLP hanya boleh dicapai apabila menggubah imej dengan resolusi sederhana (384×512). Apabila memaparkan imej resolusi 4K, ia perlahan kepada hanya 1.3 FPS.
Dalam kertas kerja ini, penyelidik mencadangkan perwakilan saraf baharu - 4K4D, untuk memodelkan dan memaparkan adegan 3D dinamik. Seperti yang ditunjukkan dalam Rajah 1, 4K4D dengan ketara mengatasi kaedah sintesis paparan dinamik sebelumnya dalam kelajuan pemaparan sambil berdaya saing dalam kualiti pemaparan.

Pengarang menyatakan bahawa inovasi teras mereka terletak pada perwakilan awan titik 4D dan model penampilan hibrid. Khususnya, untuk adegan dinamik, mereka menggunakan algoritma ukiran ruang untuk mendapatkan jujukan awan titik kasar dan memodelkan kedudukan setiap titik sebagai vektor yang boleh dipelajari. Mereka juga memperkenalkan grid ciri 4D untuk menetapkan vektor ciri kepada setiap titik dan memasukkannya ke dalam rangkaian MLP untuk meramalkan jejari, ketumpatan dan pekali harmonik sfera (SH) titik. Jerat ciri 4D secara semula jadi menggunakan penyelarasan spatial pada awan titik, menjadikan pengoptimuman lebih mantap. Berdasarkan 4K4D, penyelidik membangunkan algoritma pengelupasan kedalaman yang boleh dibezakan yang menggunakan rasterisasi perkakasan untuk mencapai kelajuan pemaparan yang tidak pernah berlaku sebelum ini.

Penyelidik mendapati model SH berasaskan MLP sukar untuk mewakili penampilan adegan dinamik. Bagi mengurangkan masalah ini, mereka turut memperkenalkan model campuran imej untuk digabungkan dengan model SH bagi mewakili penampilan adegan. Reka bentuk yang penting ialah mereka menjadikan rangkaian pengadunan imej bebas daripada arah tontonan, jadi ia boleh diprakira selepas latihan untuk meningkatkan kelajuan pemaparan. Sebagai pedang bermata dua, strategi ini menjadikan model campuran imej diskret sepanjang arah tontonan. Masalah ini boleh diatasi menggunakan model SH berterusan. Berbanding dengan 3D Gaussian Splatting yang hanya menggunakan model SH, model penampilan hibrid yang dicadangkan oleh penyelidik menggunakan sepenuhnya maklumat yang ditangkap oleh imej input, dengan itu meningkatkan kualiti rendering dengan berkesan.

Untuk mengesahkan keberkesanan kaedah baharu, penyelidik menilai 4K4D pada berbilang set data sintesis paparan baharu dinamik berbilang paparan yang digunakan secara meluas, termasuk NHR, ENeRF-Outdoo, DNA-Rendering dan Neural3DV. Eksperimen yang meluas menunjukkan bahawa 4K4D bukan sahaja tertib magnitud lebih pantas dalam kelajuan pemaparan, tetapi juga jauh lebih baik daripada teknologi SOTA dari segi kualiti pemaparan. Menggunakan GPU RTX 4090, kaedah baharu ini mencapai 400 FPS pada set data Rendering DNA pada resolusi 1080p dan 80 FPS pada set data ENeRF-Outdoor pada resolusi 4k.

Pengenalan Kaedah

Memandangkan video berbilang tontonan yang menangkap pemandangan 3D dinamik, kertas kerja ini bertujuan untuk membina semula adegan sasaran dan melaksanakan sintesis paparan dalam masa nyata. Gambar rajah seni bina model ditunjukkan dalam Rajah 2:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Kemudian artikel itu memperkenalkan pengetahuan berkaitan menggunakan awan titik untuk memodelkan pemandangan dinamik ia bermula dari perspektif pembenaman 4D, model geometri dan model penampilan.

Pembenaman 4D: Memandangkan awan titik kasar bagi pemandangan sasaran, makalah ini menggunakan rangkaian saraf dan jerat ciri untuk mewakili geometri dan rupa dinamiknya. Khususnya, artikel ini mula-mula mentakrifkan enam pesawat ciri θ_xy, θ_xz, θ_yz, θ_tx, θ_ty dan θ_tz, dan mengguna pakai strategi K-Planes untuk menggunakan enam pesawat ini untuk memodelkan medan ciri 4D Θ(x, t):

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Model geometri: Berdasarkan awan titik kasar, geometri pemandangan dinamik diwakili dengan mempelajari tiga atribut (entri) pada setiap titik, iaitu kedudukan p ∈ R^3 , jejari r ∈ R dan Ketumpatan σ ∈ R. Kemudian dengan bantuan titik-titik ini, ketumpatan isipadu titik x dalam ruang dikira. Kedudukan titik p dimodelkan sebagai vektor yang boleh dioptimumkan. Jejari r dan ketumpatan σ diramalkan dengan memasukkan vektor ciri f dalam Pers.(1) ke dalam rangkaian MLP.

Model rupa: Seperti yang ditunjukkan dalam Rajah 2c, kertas kerja ini menggunakan teknologi pengadunan imej dan model fungsi harmonik sfera (SH) untuk membina model rupa hibrid, di mana teknologi pengadunan imej mewakili rupa paparan diskret c_ibr, dan model SH mewakili rupa yang bergantung pada pandangan berterusan Kemunculan c_sh. Untuk titik x pada bingkai ke-t, warnanya dalam arah pandangan d ialah:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

pengelupasan kedalaman yang boleh dibezakan

Dicadangkan dalam perwakilan adegan dinamik ini bantuan algoritma pengelupasan kedalaman ke dalam imej.

Para penyelidik membangunkan pelorek tersuai untuk melaksanakan algoritma pengelupasan kedalaman yang terdiri daripada pas rendering K. Iaitu, untuk piksel u tertentu, penyelidik melakukan pemprosesan berbilang langkah Akhirnya, selepas pemaparan K, piksel u memperoleh satu set titik isihan {x_k|k = 1, ..., K}.

Berdasarkan titik ini {x_k|k = 1, ..., K}, warna piksel u dalam pemaparan volum dinyatakan sebagai:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Semasa proses latihan, memandangkan warna piksel yang diberikan C (u), kertas ini membandingkannya dengan warna piksel sebenar C_gt (u) dan mengoptimumkan model secara hujung ke hujung menggunakan fungsi kehilangan berikut:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Selain itu, artikel ini juga menggunakan kehilangan persepsi:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

dan kehilangan topeng:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

ditakrifkan sebagai fungsi akhir

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Eksperimen dan keputusan

Kertas ini menilai kaedah 4K4D pada dataset DNA-Rendering, ENeRF-Outdoor, NHR dan Neural3DV. Keputusan

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

pada dataset Rendering DNA ditunjukkan dalam Jadual 1. Keputusan menunjukkan bahawa kelajuan pemaparan 4K4D adalah lebih daripada 30 kali lebih pantas daripada ENeRF dengan prestasi SOTA, dan kualiti pemaparan adalah lebih baik.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Hasil kualitatif pada dataset Rendering DNA ditunjukkan dalam Rajah 5. Kplanes tidak dapat memulihkan penampilan terperinci dan geometri adegan dinamik 4D, manakala kaedah berasaskan imej lain menghasilkan Penampilan berkualiti tinggi. Walau bagaimanapun, kaedah ini cenderung untuk menghasilkan hasil yang kabur di sekitar oklusi dan tepi, mengakibatkan kualiti visual berkurangan, manakala 4K4D boleh menghasilkan pemaparan ketepatan yang lebih tinggi pada lebih 200 FPS.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Seterusnya, eksperimen menunjukkan hasil kualitatif dan kuantitatif kaedah berbeza pada set data ENeRFOutdoor. Seperti yang ditunjukkan dalam Jadual 2, 4K4D masih mencapai hasil yang jauh lebih baik apabila memaparkan pada lebih 140 FPS.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Sementara kaedah lain, seperti ENeRF, menghasilkan hasil rendering IBRNet mengandungi artifak hitam di sekeliling tepi imej, seperti yang ditunjukkan dalam Rajah 3; .

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Jadual 6 menunjukkan keberkesanan algoritma pengelupasan kedalaman boleh dibezakan, dengan 4K4D adalah lebih daripada 7 kali lebih pantas daripada kaedah berasaskan CUDA.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Artikel ini juga melaporkan kelajuan pemaparan 4K4D pada perkakasan berbeza (RTX 3060, 3090 dan 4090) pada peleraian berbeza dalam Jadual 7.

🎜🎜🎜Sila lihat kertas asal untuk butiran lanjut. 🎜🎜

Atas ialah kandungan terperinci Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kenapa perlu lulus petunjuk apabila menggunakan perpustakaan Go dan Viper? Kenapa perlu lulus petunjuk apabila menggunakan perpustakaan Go dan Viper? Apr 02, 2025 pm 04:00 PM

GO Pointer Syntax dan menangani masalah dalam penggunaan perpustakaan Viper semasa pengaturcaraan dalam bahasa Go, adalah penting untuk memahami sintaks dan penggunaan petunjuk, terutama dalam ...

Kenapa semua nilai menjadi elemen terakhir apabila menggunakan bahasa dalam bahasa Go untuk melintasi kepingan dan menyimpan peta? Kenapa semua nilai menjadi elemen terakhir apabila menggunakan bahasa dalam bahasa Go untuk melintasi kepingan dan menyimpan peta? Apr 02, 2025 pm 04:09 PM

Mengapa lelaran peta di GO menyebabkan semua nilai menjadi elemen terakhir? Dalam bahasa Go, ketika berhadapan dengan beberapa soalan wawancara, anda sering menemui peta ...

Adakah terdapat XML percuma untuk alat PDF untuk telefon bimbit? Adakah terdapat XML percuma untuk alat PDF untuk telefon bimbit? Apr 02, 2025 pm 09:12 PM

Tidak ada XML percuma yang mudah dan langsung ke alat PDF di mudah alih. Proses visualisasi data yang diperlukan melibatkan pemahaman dan rendering data yang kompleks, dan kebanyakan alat yang dipanggil "percuma" di pasaran mempunyai pengalaman yang buruk. Adalah disyorkan untuk menggunakan alat sampingan komputer atau menggunakan perkhidmatan awan, atau membangunkan aplikasi sendiri untuk mendapatkan kesan penukaran yang lebih dipercayai.

Bagaimana untuk mengimport pakej tersuai dengan betul di bawah modul GO? Bagaimana untuk mengimport pakej tersuai dengan betul di bawah modul GO? Apr 02, 2025 pm 03:42 PM

Dalam pembangunan bahasa Go, dengan betul memperkenalkan pakej tersuai adalah langkah penting. Artikel ini akan menyasarkan "Golang ...

Cara Mencantikkan Format XML Cara Mencantikkan Format XML Apr 02, 2025 pm 09:57 PM

Pengindahan XML pada dasarnya meningkatkan kebolehbacaannya, termasuk lekukan yang munasabah, rehat garis dan organisasi tag. Prinsipnya adalah untuk melintasi pokok XML, tambah lekukan mengikut tahap, dan mengendalikan tag dan tag kosong yang mengandungi teks. Perpustakaan XML.Etree.ElementTree Python menyediakan fungsi Pretty_XML yang mudah yang dapat melaksanakan proses pengindahan di atas.

Kenapa kod menggunakan kunci dalam GO kadang -kadang membawa kepada panik? Kenapa kod menggunakan kunci dalam GO kadang -kadang membawa kepada panik? Apr 02, 2025 pm 04:36 PM

Mengapa menggunakan kunci menyebabkan panik sekali -sekala? Mari kita lihat soalan yang menarik: mengapa pergi, walaupun kunci ditambah dalam kod, kadang -kadang ...

Cara mengesahkan format XML Cara mengesahkan format XML Apr 02, 2025 pm 10:00 PM

Pengesahan format XML melibatkan memeriksa struktur dan pematuhannya dengan DTD atau skema. Parser XML diperlukan, seperti ElementTree (pemeriksaan sintaks asas) atau LXML (pengesahan yang lebih kuat, sokongan XSD). Proses pengesahan melibatkan parsing fail XML, memuatkan skema XSD, dan melaksanakan kaedah AssertValid untuk membuang pengecualian apabila ralat dikesan. Mengesahkan format XML juga memerlukan pengendalian pelbagai pengecualian dan mendapat gambaran mengenai bahasa skema XSD.

Cara menggunakan array char dalam bahasa c Cara menggunakan array char dalam bahasa c Apr 03, 2025 pm 03:24 PM

Arus char menyimpan urutan watak dalam bahasa C dan diisytiharkan sebagai array_name char [saiz]. Unsur akses diluluskan melalui pengendali subskrip, dan elemen berakhir dengan terminator null '\ 0', yang mewakili titik akhir rentetan. Bahasa C menyediakan pelbagai fungsi manipulasi rentetan, seperti strlen (), strcpy (), strcat () dan strcmp ().

See all articles