Rumah > Peranti teknologi > AI > teks badan

Kertas pemarkahan tinggi CVPR 2024: Rangka kerja penyuntingan generatif baharu GenN2N, menyatukan tugas penukaran NeRF

WBOY
Lepaskan: 2024-04-19 21:40:09
ke hadapan
1101 orang telah melayarinya

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

Lajur AIxiv laman web kami ialah lajur tentang kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv di laman web kami telah menerima lebih daripada 2,000 keping kandungan, meliputi makmal terkemuka daripada universiti dan syarikat utama di seluruh dunia, membantu mempromosikan pertukaran dan penyebaran akademik. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. Alamat e-mel penyerahan ialah liyazhou@jiqizhixin.com zhaoyunfeng@jiqizhixin.com;


Penyelidik dari Universiti Sains dan Teknologi Hong Kong dan Universiti Tsinghua mencadangkan "GenN2N", rangka kerja penukaran NeRF-ke-NeRF generatif bersatu yang sesuai untuk pelbagai tugas penukaran NeRF, seperti penyuntingan NeRF dipacu teks , teduhan , resolusi super, pemulihan, dsb., prestasinya sangat bagus! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • Alamat kertas: https://arxiv.org/abs/2404.02788
  • Laman utama kertas: https://xiangyueli. alamat thub: https://github.com/Lxiangyue/GenN2N
  • Tajuk kertas: GenN2N: Penterjemahan NeRF2NeRF Generatif
Dalam beberapa tahun kebelakangan ini, Medan Sinaran Neural (NeRF) telah menarik perhatian ramai , kualiti tinggi dan serba boleh Bidang pembinaan semula 3D, penjanaan 3D dan sintesis perspektif baharu telah menarik perhatian meluas. Walau bagaimanapun, sebaik sahaja adegan NeRF dicipta, kaedah ini sering tidak mempunyai kawalan lanjut ke atas geometri dan rupa yang terhasil. Oleh itu, Penyuntingan NeRF baru-baru ini telah menjadi tumpuan penyelidikan yang patut diberi perhatian.

Kaedah pengeditan NeRF semasa biasanya khusus tugasan, seperti penyuntingan dipacu teks, resolusi super, pengecatan dan pewarnaan NeRF. Kaedah ini memerlukan sejumlah besar pengetahuan domain khusus tugas. Dalam bidang penyuntingan imej 2D, ia telah menjadi trend untuk membangunkan kaedah penukaran imej-ke-imej sejagat Contohnya, model 2D Stable Difussion digunakan untuk menyokong penyuntingan imej berbilang fungsi. Oleh itu, kami mencadangkan pengeditan NeRF sejagat menggunakan model generatif 2D asas.

Cabaran yang datang bersama ini ialah jurang perwakilan antara imej NeRF dan 2D, terutamanya kerana editor imej sering menjana berbilang suntingan yang tidak konsisten untuk sudut pandangan yang berbeza. Kaedah penyuntingan NeRF berasaskan teks baru-baru ini, Instruct-NeRF2NeRF, meneroka perkara ini. Ia menggunakan proses "penyuntingan-penyuntingan-pengagregatan" untuk mengemas kini adegan NeRF secara beransur-ansur dengan secara beransur-ansur memaparkan imej berbilang paparan, mengedit imej ini dan mengagregatkan imej yang diedit ke dalam NeRF. Walau bagaimanapun, kaedah penyuntingan ini, selepas banyak pengoptimuman untuk keperluan penyuntingan tertentu, hanya boleh menjana hasil penyuntingan tertentu Jika pengguna tidak berpuas hati, percubaan berulang perlu diulang.

Oleh itu, kami mencadangkan "GenN2N", rangka kerja umum NeRF-to-NeRF yang sesuai untuk pelbagai tugas penyuntingan NeRF Terasnya ialah menggunakan pendekatan generatif untuk mencirikan sifat pelbagai penyelesaian proses penyuntingan. supaya Ia boleh menggunakan pengeditan generatif dengan mudah menjana sejumlah besar hasil pengeditan yang memenuhi keperluan untuk dipilih oleh pengguna.

Di bahagian teras GenN2N, 1) rangka kerja generatif VAE-GAN 3D diperkenalkan, menggunakan VAE untuk mewakili keseluruhan ruang penyuntingan untuk mempelajari semua kemungkinan pengedaran penyuntingan NeRF 3D sepadan dengan set imej penyuntingan 2D input , dan gunakan GAN untuk menyediakan penyeliaan yang munasabah untuk mengedit pandangan NeRF yang berbeza untuk memastikan keaslian hasil pengeditan 2) Gunakan pembelajaran kontrastif untuk memisahkan kandungan penyuntingan dan perspektif untuk memastikan konsistensi kandungan penyuntingan antara perspektif yang berbeza , pengguna Hanya mengambil sampel berbilang kod pengeditan secara rawak daripada model penjanaan bersyarat boleh menjana pelbagai hasil pengeditan 3D yang sepadan dengan sasaran pengeditan.

Berbanding dengan kaedah SOTA untuk pelbagai tugas penyuntingan NeRF (ICCV2023 Oral, dll.), GenN2N lebih unggul daripada kaedah sedia ada dari segi kualiti penyuntingan, kepelbagaian, kecekapan, dsb.

Pengenalan Kaedah

Kami mula-mula melakukan penyuntingan imej 2D, dan kemudian meningkatkan suntingan 2D ini kepada NeRF 3D untuk mencapai penukaran NeRF-ke-NeRF generatif.

A. Penyulingan Tersirat (Penyulingan Terpendam)

Kami menggunakan Modul Penyulingan Terpendam sebagai pengekod VAE untuk mempelajari kod penyuntingan tersirat bagi setiap imej yang diedit, dan menghantarnya dalam kod Edit penukaran NeRF-ke-NeRF mengawal kandungan yang dihasilkan. Semua kod penyuntingan mematuhi taburan normal yang baik di bawah kekangan kehilangan KL untuk pensampelan yang lebih baik. Untuk memisahkan kandungan penyuntingan dan perspektif, kami telah mereka bentuk pembelajaran perbandingan dengan teliti untuk menggalakkan kod penyuntingan gambar dengan gaya penyuntingan yang sama tetapi perspektif yang berbeza menjadi serupa, dan kod penyuntingan gambar dengan gaya penyuntingan yang berbeza tetapi perspektif yang sama menjadi jauh. berjauhan antara satu sama lain.

Penukaran B.NeRF-ke-NeRF (Terjemahan NeRF)

Kami menggunakan Terjemahan NeRF-to-NeRF sebagai penyahkod VAE, yang mengambil kod pengeditan sebagai input dan mengubah suai asal untuk NeRF yang ditukar. Kami menambah lapisan baki antara lapisan tersembunyi rangkaian NeRF asal ini menggunakan kod penyuntingan sebagai input untuk memodulasi neuron lapisan tersembunyi, supaya NeRF yang ditukar bukan sahaja dapat mengekalkan maklumat NeRF asal, tetapi juga mengawal penukaran 3D. berdasarkan kod penyuntingan. Pada masa yang sama, Terjemahan NeRF-to-NeRF juga berfungsi sebagai penjana untuk mengambil bahagian dalam latihan permusuhan generatif. Dengan menjana dan bukannya mengoptimumkan, kami boleh memperoleh berbilang hasil penukaran sekaligus, meningkatkan kecekapan penukaran NeRF dan kepelbagaian hasil dengan ketara.

c. . Oleh itu kami menyediakan syarat sebagai maklumat tambahan untuk diskriminasi. Khususnya, apabila diskriminator mengenal pasti gambar yang dihasilkan oleh penjana (sampel negatif) atau gambar yang diedit
(sampel positif) dalam data latihan, kami memilih gambar yang diedit
dengan perspektif yang sama daripada data latihan sebagai syarat , yang menghalang diskriminator daripada diganggu oleh faktor perspektif apabila membezakan sampel positif dan negatif.
CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务D. Inferens

Selepas pengoptimuman GenN2N, pengguna boleh mengambil sampel kod penyuntingan secara rawak dan memasukkan NeRF yang ditukar adegan.

Eksperimen

Kami menjalankan eksperimen yang meluas ke atas pelbagai tugas NeRF-ke-NeRF, termasuk penyuntingan dipacu teks NeRF, pewarnaan, resolusi super, lukisan, dsb. Keputusan percubaan menunjukkan kualiti pengeditan unggul GenN2N, konsistensi berbilang paparan, kepelbagaian yang dihasilkan dan kecekapan penyuntingan. Penyuntingan NeRF berasaskan teks kuantitatif berbanding dengan kaedah SOTA untuk pelbagai tugas NeRF tertentu ( termasuk penyuntingan dipacu teks, pewarnaan, resolusi super dan lukisan dalam, dsb.). Keputusan menunjukkan bahawa GenN2N, sebagai rangka kerja umum, berfungsi dengan baik atau lebih baik daripada SOTA khusus tugas, manakala hasil pengeditan mempunyai kepelbagaian yang lebih besar (berikut ialah perbandingan antara GenN2N dan Instruct-NeRF2NeRF pada tugas penyuntingan NeRF berasaskan teks ).

A. Penyuntingan NeRF berasaskan teksCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
Untuk lebih banyak percubaan dan kaedah, sila rujuk halaman utama kertas.

Team PENGENALAN Kertas ini datang dari pasukan Tan Ping University of Science and Technology, Tsinghua University 3Dvici Lab, Shanghai Buatan Perisikan Buatan dan Shanghai Qizhi Research Institute. kertas ialah Liu, pelajar Universiti Sains dan Teknologi Hong Kong, Xue Han, pelajar Universiti Tsinghua, Luo Kunming, pelajar Universiti Sains dan Teknologi Hong Kong, dan pengajarnya ialah Guru Yi Li dari Tsinghua. Universiti dan Guru Tan Ping dari Universiti Sains dan Teknologi Hong Kong.

Atas ialah kandungan terperinci Kertas pemarkahan tinggi CVPR 2024: Rangka kerja penyuntingan generatif baharu GenN2N, menyatukan tugas penukaran NeRF. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!