CVPR 2024 |. Rangka kerja baharu CustomNeRF mengedit pemandangan 3D dengan hanya teks atau gesaan imej-AI-php.cn

Rumah

Peranti teknologi

CVPR 2024 |. Rangka kerja baharu CustomNeRF mengedit pemandangan 3D dengan hanya teks atau gesaan imej

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2024 am 10:13 AM

git projek Lukis semula

Institut Penyelidikan Pengimejan Meitu (MT Lab), bersama-sama dengan Institut Kejuruteraan Maklumat Akademi Sains China, Universiti Aeronautik dan Astronautik Beijing, dan Universiti Sun Yat-sen, bersama-sama mencadangkan kaedah penyuntingan pemandangan 3D - CustomNeRF. Hasil penyelidikan telah diterima oleh CVPR 2024. CustomNeRF bukan sahaja menyokong penerangan teks dan gambar rujukan sebagai petua penyuntingan untuk pemandangan 3D, tetapi juga menjana pemandangan 3D berkualiti tinggi berdasarkan maklumat yang diberikan oleh pengguna.

Neural Radiance Field (NeRF) Sejak Neural Radiance Field (NeRF) dicadangkan pada tahun 2020, ia telah mendorong ekspresi tersirat ke tahap yang baharu. Sebagai salah satu teknologi yang paling canggih pada masa ini, NeRF telah digeneralisasikan dengan pantas dan digunakan dalam bidang seperti penglihatan komputer, grafik komputer, realiti tambahan dan realiti maya, dan terus mendapat perhatian meluas. NeRF mendayakan sintesis imej berkualiti tinggi dengan memodelkan sinaran dan ketumpatan setiap titik dalam pemandangan, yang menjadikannya menarik secara meluas untuk aplikasi dalam bidang seperti penglihatan komputer, grafik komputer, realiti tambahan dan realiti maya. NeRF adalah unik dalam keupayaannya untuk menjana imej berkualiti tinggi daripada pemandangan input tanpa memerlukan imbasan 3D yang kompleks atau imej perspektif yang padat. Ciri ini menjadikan NeRF mempunyai prospek aplikasi yang luas dalam banyak bidang, termasuk penglihatan komputer, grafik komputer, realiti tambahan dan realiti maya, dan terus mendapat perhatian meluas. NeRF membolehkan sintesis imej berkualiti tinggi dengan memodelkan sinaran dan ketumpatan setiap titik dalam pemandangan. NeRF juga boleh digunakan untuk menjana pemaparan 3D berkualiti tinggi, yang menjadikannya sangat menjanjikan untuk aplikasi dalam bidang seperti realiti maya dan realiti tambahan. Pembangunan pesat dan aplikasi meluas NeRF akan terus mendapat perhatian meluas, dan dijangka lebih banyak inovasi dan aplikasi berdasarkan NeRF akan muncul pada masa hadapan.

NeRF (Medan Sinaran Neural) ialah ciri untuk pengoptimuman dan perwakilan berterusan yang mempunyai banyak aplikasi dalam pembinaan semula pemandangan 3D. Ia juga telah memacu penyelidikan dalam bidang pengeditan pemandangan 3D, seperti lukisan semula tekstur dan penggayaan objek atau pemandangan 3D. Untuk meningkatkan lagi fleksibiliti pengeditan pemandangan 3D, kaedah pengeditan NeRF berdasarkan model pra-latihan juga sedang diterokai secara meluas baru-baru ini Disebabkan oleh perwakilan tersirat NeRF dan ciri geometri adegan 3D, hasil pengeditan yang mematuhi gesaan teks. boleh diperolehi Ini adalah Sesuatu yang sangat mudah untuk dilaksanakan.

Untuk membolehkan penyuntingan adegan 3D dipacu teks mencapai kawalan yang tepat, Institut Penyelidikan Pengimejan Meitu (MT Lab), Institut Kejuruteraan Maklumat Akademi Sains China, Universiti Beihang dan Universiti Sun Yat-sen bersama-sama mencadangkan kaedah yang menggabungkan penerangan teks dan rujukan Penyatuan Imej menyediakan rangka kerja CustomNeRF untuk penyuntingan. Rangka kerja ini mempunyai subjek khusus perspektif terbina dalam V∗, yang dibenamkan ke dalam perwakilan hibrid untuk memenuhi keperluan pengeditan pemandangan 3D umum dan tersuai. Hasil penyelidikan telah direkodkan dalam CVPR 2024 dan kod tersebut adalah sumber terbuka.

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

Pautan kertas: https://arxiv.org/abs/2312.01663
Pautan kod: https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{. : The kesan penyuntingan CustomNeRF dalam dipacu teks (kiri) dan dipacu imej (kanan)}

Dua cabaran utama yang diselesaikan oleh CustomNeRF

Pada masa ini, kaedah arus perdana untuk penyuntingan pemandangan 3D berdasarkan model resapan yang telah dilatih terutamanya terbahagi kepada dua kategori.

Salah satunya ialah menggunakan model penyuntingan imej untuk mengemas kini imej secara berulang dalam set data Walau bagaimanapun, disebabkan keupayaan model penyuntingan imej yang terhad, ia akan gagal dalam beberapa situasi penyuntingan. Kedua, kehilangan pensampelan penyulingan pecahan (SDS) digunakan untuk mengedit adegan Walau bagaimanapun, disebabkan masalah penjajaran antara teks dan adegan, kaedah ini tidak boleh disesuaikan secara langsung dalam adegan sebenar dan akan menyebabkan herotan yang tidak perlu dalam adegan yang tidak. kawasan penyuntingan. Pengubahsuaian selalunya memerlukan ungkapan perantaraan yang jelas seperti mesh atau voxel.

Selain itu, dua jenis kaedah semasa memfokuskan pada tugasan pengeditan pemandangan 3D dipacu teks selalunya sukar untuk menyatakan keperluan pengeditan pengguna dengan tepat dan tidak boleh menyesuaikan konsep tertentu dalam imej ke dalam pemandangan 3D Pemandangan 3D asal biasanya disunting, jadi sukar untuk mendapatkan hasil pengeditan yang diharapkan oleh pengguna.

Malah, kunci untuk mendapatkan hasil pengeditan yang diingini adalah dengan mengenal pasti dengan tepat kawasan latar depan imej, yang boleh mempromosikan pengeditan latar depan imej yang konsisten secara geometri sambil mengekalkan latar belakang imej.

Oleh itu, untuk mencapai pengeditan tepat hanya kawasan latar depan imej, kertas kerja mencadangkan skim latihan penyuntingan lelaran tempatan-global (LGIE) yang berselang-seli antara penyuntingan kawasan latar depan dan penyuntingan imej penuh. Penyelesaian ini boleh mengesan kawasan latar depan imej dengan tepat dan hanya beroperasi pada latar depan imej sambil mengekalkan latar belakang imej.

Selain itu, dalam pengeditan pemandangan 3D dipacu imej, terdapat masalah ketidakkonsistenan geometri dalam hasil pengeditan yang disebabkan oleh model resapan yang diperhalusi yang terlalu sesuai dengan perspektif imej rujukan. Dalam hal ini, makalah itu mereka bentuk penyelarasan berpandukan kelas, menggunakan hanya perkataan kelas untuk mewakili subjek imej rujukan dalam peringkat penyuntingan tempatan, dan memanfaatkan kelas umum sebelum ini dalam model resapan terlatih untuk mempromosikan penyuntingan yang konsisten dari segi geometri.

Proses keseluruhan CustomNeRF

Seperti yang ditunjukkan dalam Rajah 2, CustomNeRF menggunakan 3 langkah untuk mencapai matlamat mengedit dan membina semula adegan 3D dengan tepat di bawah bimbingan gesaan teks atau imej rujukan.

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{Rajah 2 Carta aliran keseluruhan CustomNerf}

Pertama, apabila membina semula adegan 3D asal, CustomNerf memperkenalkan medan topeng tambahan untuk menganggarkan kebarangkalian edit melebihi ketumpatan. Seperti yang ditunjukkan dalam Rajah 2(a), untuk set imej yang perlu membina semula pemandangan 3D, kertas pertama menggunakan SAM Beralur untuk mengekstrak topeng kawasan penyuntingan imej daripada perihalan bahasa semula jadi dan menggabungkan set imej asal kepada melatih NeRF yang sedar latar depan. Selepas pembinaan semula NeRF, kebarangkalian pengeditan digunakan untuk membezakan kawasan imej yang akan diedit (iaitu, kawasan latar depan imej) daripada kawasan imej yang tidak berkaitan (iaitu, kawasan latar belakang imej) untuk memudahkan pemaparan dipisahkan semasa latihan penyuntingan imej.

Kedua, untuk menyatukan tugas pengeditan pemandangan 3D dipacu imej dan dipacu teks, seperti yang ditunjukkan dalam Rajah 2(b), kertas kerja menggunakan kaedah Resapan Tersuai untuk memperhalusi imej rujukan di bawah keadaan dipacu imej untuk belajar Ciri Utama khusus subjek. Selepas latihan, perkataan khas V* boleh digunakan sebagai tag perkataan biasa untuk menyatakan konsep subjek dalam imej rujukan, sekali gus membentuk kiu hibrid, seperti "foto anjing V*". Dengan cara ini, CustomNeRF membolehkan pengeditan yang konsisten dan cekap bagi jenis data adaptif, termasuk imej atau teks.

Dalam peringkat penyuntingan akhir, disebabkan oleh ekspresi tersirat NeRF, mengoptimumkan keseluruhan kawasan 3D menggunakan kehilangan SDS akan membawa kepada perubahan ketara dalam kawasan latar belakang, yang sepatutnya konsisten dengan pemandangan asal selepas penyuntingan. Seperti yang ditunjukkan dalam Rajah 2(c), kertas itu mencadangkan skema penyuntingan lelaran tempatan-global (LGIE) untuk latihan SDS yang dipisahkan, membolehkannya mengekalkan kandungan latar belakang semasa mengedit kawasan susun atur.

Secara khusus, kertas kerja ini membahagikan proses latihan penyuntingan NeRF kepada cara yang lebih terperinci. Dengan NeRF yang sedar latar depan, CustomNeRF boleh mengawal proses pemaparan NeRF secara fleksibel semasa latihan, iaitu, di bawah perspektif kamera tetap, ia boleh memilih untuk memaparkan latar depan, latar belakang dan imej biasa yang mengandungi latar depan dan latar belakang. Semasa proses latihan, adegan NeRF semasa boleh diedit pada tahap yang berbeza menggunakan kehilangan SDS dengan secara berulang-ulang memaparkan latar depan dan latar belakang, digabungkan dengan latar depan atau latar belakang yang sepadan. Antaranya, latihan latar depan tempatan membolehkan anda memberi tumpuan hanya pada kawasan yang perlu diedit semasa proses penyuntingan, memudahkan kesukaran tugasan menyunting dalam adegan yang kompleks manakala latihan global mengambil kira keseluruhan adegan dan boleh mengekalkan penyelarasan latar depan dan latar belakang. Untuk terus mengekalkan kawasan yang tidak disunting tidak berubah, makalah itu juga menggunakan latar belakang yang baru diberikan semasa proses latihan penyeliaan latar belakang sebelum latihan menyunting untuk mengekalkan ketekalan piksel latar belakang.

Selain itu, terdapat ketidakkonsistenan geometri yang memburukkan lagi dalam penyuntingan pemandangan 3D dipacu imej. Oleh kerana model resapan yang telah diperhalusi dengan imej rujukan cenderung untuk menghasilkan imej dengan perspektif yang serupa dengan imej rujukan semasa proses inferens, menyebabkan pelbagai perspektif pemandangan 3D yang diedit menjadi masalah geometri pandangan hadapan. Untuk tujuan ini, kertas kerja mereka bentuk strategi penyusunan berpandukan kelas, menggunakan deskriptor khas V* dalam isyarat global dan hanya kata kelas dalam isyarat tempatan untuk memanfaatkan keutamaan kelas yang disertakan dalam model resapan terlatih, menggunakan lebih banyak konsep baharu Inject ke tempat kejadian dengan cara yang konsisten secara geometri.

Hasil eksperimen

Rajah 3 dan Rajah 4 menunjukkan perbandingan hasil pembinaan semula pemandangan 3D CustomNeRF dan kaedah garis dasar Dalam kedua-dua tugas penyuntingan pemandangan 3D yang dipacu imej rujukan dan, CustomNeRF telah mencapai hasil pengeditan yang baik, bukan. hanya Penjajaran yang baik dengan petua penyuntingan dicapai dan kawasan latar belakang kekal konsisten dengan pemandangan asal. Selain itu, Jadual 1 dan Jadual 2 menunjukkan perbandingan kuantitatif CustomNeRF dengan kaedah garis dasar apabila didorong oleh imej dan teks Keputusan menunjukkan bahawa CustomNeRF mengatasi kaedah garis dasar dalam metrik penjajaran teks, metrik penjajaran imej dan penilaian manusia.

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{Perbandingan kuantitatif dengan garis dasar di bawah pengeditan yang didorong oleh imej}

^{Perbandingan kuantitatif dengan garis dasar di bawah penyuntingan}

Summary

ini kertas inovatif mencadangkan model customnerf, sambil menyokong pengeditan gesaan untuk perihalan teks atau imej rujukan, dan menyelesaikan dua cabaran utama - tepat sahaja Pengeditan latar depan dan ketekalan merentas berbilang paparan apabila menggunakan imej rujukan satu paparan. Skim ini termasuk skim latihan penyuntingan lelaran tempatan (LGIE), yang membolehkan operasi penyuntingan menumpukan pada latar depan sambil mengekalkan latar belakang tidak berubah dan penyelarasan berpandukan kelas, yang mengurangkan ketidakkonsistenan paparan dalam pengeditan dipacu imej, dan telah disahkan; melalui eksperimen yang meluas CustomNeRF membolehkan pengeditan tepat bagi adegan 3D yang didorong oleh penerangan teks dan imej rujukan dalam pelbagai senario dunia sebenar.

Atas ialah kandungan terperinci CVPR 2024 |. Rangka kerja baharu CustomNeRF mengedit pemandangan 3D dengan hanya teks atau gesaan imej. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7470

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? Apr 04, 2025 pm 11:54 PM

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

Cara Menjalankan Projek H5 Apr 06, 2025 pm 12:21 PM

Menjalankan projek H5 memerlukan langkah -langkah berikut: memasang alat yang diperlukan seperti pelayan web, node.js, alat pembangunan, dan lain -lain. Membina persekitaran pembangunan, membuat folder projek, memulakan projek, dan menulis kod. Mulakan pelayan pembangunan dan jalankan arahan menggunakan baris arahan. Pratonton projek dalam penyemak imbas anda dan masukkan URL Server Pembangunan. Menerbitkan projek, mengoptimumkan kod, menggunakan projek, dan menyediakan konfigurasi pelayan web.

Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal? Apr 02, 2025 pm 04:12 PM

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Apr 02, 2025 pm 03:54 PM

Di bawah rangka kerja beegoorm, bagaimana untuk menentukan pangkalan data yang berkaitan dengan model? Banyak projek beego memerlukan pelbagai pangkalan data untuk dikendalikan secara serentak. Semasa menggunakan beego ...

Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Apr 05, 2025 pm 11:27 PM

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Apr 02, 2025 pm 04:54 PM

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Python Hourglass Graph Lukisan: Bagaimana untuk mengelakkan kesilapan yang tidak ditentukan? Apr 01, 2025 pm 06:27 PM

Bermula dengan Python: Lukisan Grafik Hourglass dan Pengesahan Input Artikel ini akan menyelesaikan masalah definisi berubah -ubah yang dihadapi oleh pemula python dalam program lukisan grafik Hourglass. Kod ...

See all articles