


MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat
Penjanaan imej realistik mempunyai aplikasi luas dalam bidang seperti realiti maya, realiti tambahan, permainan video dan penerbitan filem.
Dengan perkembangan pesat model penyebaran dalam tempoh dua tahun yang lalu, penemuan besar telah dibuat dalam bidang penjanaan imej. Satu siri model sumber terbuka atau komersial yang diperoleh daripada Stable Diffusion untuk menjana imej berdasarkan penerangan teks telah memberi impak yang besar pada reka bentuk, permainan dan medan lain
Walau bagaimanapun, cara untuk menjana imej berkualiti tinggi berdasarkan teks yang diberikan atau lain-lain keadaan? Imej berbilang paparan kekal sebagai cabaran. Kaedah sedia ada mempunyai kelemahan yang jelas dalam ketekalan berbilang paparan
Kaedah biasa pada masa ini boleh dibahagikan secara kasar kepada dua kategori
Kaedah kategori pertama dikhususkan untuk menjana gambar dan peta kedalaman sesuatu pemandangan, dan mendapatkan jaringan yang sepadan , seperti Text2Room, SceneScape - mula-mula gunakan Stable Diffusion untuk menjana imej pertama, dan kemudian gunakan kaedah autoregresif meledingkan imej dan mengecat imej untuk menjana imej dan peta kedalaman seterusnya.
Walau bagaimanapun, penyelesaian sedemikian boleh menyebabkan ralat terkumpul secara beransur-ansur semasa penjanaan berbilang gambar, dan biasanya terdapat masalah gelung tertutup (contohnya, apabila kamera berputar dan kembali ke kedudukan permulaan, kandungan yang dihasilkan adalah berbeza daripada gambar pertama) Gambar tidak konsisten sepenuhnya), mengakibatkan prestasi buruk apabila pemandangan besar atau perspektif berubah antara gambar.
Kaedah jenis kedua menjana berbilang gambar pada masa yang sama dengan memanjangkan algoritma penjanaan model resapan untuk menghasilkan kandungan yang lebih kaya daripada satu gambar (seperti menjana panorama 360 darjah, atau memindahkan kandungan satu gambar kepada kedua-dua pihak ekstrapolasi tak terhingga), seperti MultiDiffusion dan DiffCollage. Walau bagaimanapun, memandangkan model kamera tidak dipertimbangkan, hasil yang dihasilkan oleh kaedah jenis ini bukanlah panorama sebenar Matlamat MVDiffusion adalah untuk menjana imej berbilang paparan yang mematuhi model kamera tertentu, dan imej ini benar-benar konsisten dalam kandungan. dan mempunyai semantik global yang bersatu. Idea teras kaedah ini adalah untuk mengecam dan mempelajari korespondensi antara imej secara serentak untuk mengekalkan konsistensi
Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/abs/2307.01097
Sila layari tapak web projek: https://mvdiffusion.github.io/
Demo: https://huggingface.co/spaces/tangshiao/MVDiffusion
Kod: https://github. com/Tangshiao/ MVDiffusion
Persidangan Diterbitkan: NeurIPS (Key Point)
Matlamat MVDiffusion adalah untuk menjana imej berbilang paparan dengan kandungan yang sangat konsisten dan semantik global yang bersatu melalui kesedaran serentak dan korespondensi global antara imej
Secara khusus, penyelidik mengembangkan model resapan teks-imej sedia ada (seperti Resapan Stabil), mula-mula membenarkannya memproses berbilang imej secara selari, dan seterusnya menambahkan mekanisme "Perhatian Sedar Surat-menyurat" tambahan kepada yang asal UNet Untuk mempelajari konsistensi antara pelbagai perspektif dan perpaduan global.
Dengan memperhalusi sejumlah kecil data latihan imej berbilang paparan, model yang terhasil secara serentak boleh menjana imej berbilang perspektif dengan kandungan yang sangat konsisten.
mvdiffusion telah mencapai hasil yang baik dalam tiga senario aplikasi yang berbeza:
Generate pelbagai pandangan berdasarkan teks, dan kemudian menyambungkannya untuk mendapatkan panorama
2. lengkapkan panorama 360 darjah
3.
Paparan Senario AplikasiAplikasi 1: Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain (mengikut teks)
Ambil menjana panorama sebagai contoh, masukkan teks yang menerangkan pemandangan, MVDIffusion boleh menjana gambar pelbagai perspektif daripada pemandanganMasukkan yang berikut untuk mendapatkan 8 imej berbilang paparan: "Dapur ini merupakan gabungan menawan antara desa dan moden, menampilkan pulau kayu tebus guna yang besar dengan bahagian atas meja marmar dan singki yang dikelilingi oleh kabinet. Di sebelah kiri pulau itu adalah peti sejuk keluli tahan karat yang tinggi Di sebelah kanan singki terdapat kabinet kayu terbina dalam yang dicat dengan warna pastel."
8 gambar ini boleh dicantum dalam satu panorama:
#🎜 #🎜 #🎜🎜
MVDiffusion juga menyokong penyediaan penerangan teks yang berbeza untuk setiap imej, tetapi konsistensi semantik perlu dikekalkan antara penerangan ini.
Aplikasi 2: Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (berdasarkan imej perspektif) .Sebagai contoh, andaikan kita memasuki perspektif berikut:
#🎜#🎜🎜 MVDiffusion boleh menjana lagi panorama berikut:
Anda boleh melihat input Panorama seman yang dijana secara meluas imej, dan kandungan paling kiri dan kanan disambungkan (tiada isu penutupan gelung).
Aplikasi 3: Menjana Bahan Adegan
Gunakan MVDiffusion untuk menjana bahan (tekstur) untuk jejaring adegan tanpa material yang diberikan#🎜🎜 🎜#
Secara khusus, kami mula-mula mendapatkan peta kedalaman berbilang paparan (peta kedalaman) dengan memaparkan jejaring Melalui pose kamera (pose) dan peta kedalaman, kita boleh mendapatkan imej berbilang paparan Surat-menyurat antara piksel.Kemudian, MVDiffusion menggunakan peta kedalaman berbilang paparan sebagai syarat untuk menjana imej RGB berbilang paparan yang konsisten secara serentak.
Oleh kerana gambar berbilang paparan yang dijana boleh mengekalkan tahap konsistensi kandungan yang tinggi, dan kemudian membuangnya semula ke dalam jaringan, anda boleh mendapatkan tekstur yang berkualiti tinggi mesh (jaring bertekstur) .
Berikut adalah lebih banyak contoh kesan:
#🎜🎜 Proses ##Panorama penjanaan ialah mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain 🎜#
#🎜 🎜#
Dalam aplikasi ini, adalah penting untuk menyebut walaupun data imej berbilang paparan yang digunakan dalam latihan MVDiffusion semuanya datang daripada pemandangan dalaman Panorama, dan gaya semuanya adalah tunggal
Akhir sekali, model masih boleh menjana gambar berbilang paparan pelbagai gaya (seperti luar, kartun, dll.) berdasarkan teks yang diberikan.
Kandungan yang perlu ditulis semula ialah: ekstrapolasi paparan tunggal
Kami akan pertama Artikel ini memperkenalkan proses penjanaan imej khusus MVDiffusion dalam tiga tugasan yang berbeza, dan akhirnya memperkenalkan bahagian teras kaedah, iaitu modul "Perhatian Sedar Surat-menyurat". Rajah 1 menunjukkan gambaran keseluruhan MVDiffusion
MVDiffusion secara serentak menghasilkan 8 gambar bertindih (imej perspektif), dan kemudian mencantumkan 8 gambar ini (jahitan) menjadi panorama. Dalam 8 imej perspektif ini, matriks homografi 3x3 menentukan korespondensi piksel antara setiap dua imej.
Dalam proses penjanaan khusus, MVDiffusion mula-mula menggunakan pemula rawak Gaussian untuk menjana 8 paparan gambar
Kemudian, 8 gambar ini dimasukkan ke dalam rangkaian Unet terlatih Stable Diffusion dengan berbilang cawangan Menjalankan tanpa segerak memperoleh hasil yang dihasilkan.
Modul baru "Perhatian Sedar Surat-menyurat" (bahagian biru muda dalam gambar di atas) telah ditambahkan pada rangkaian UNet, yang digunakan untuk mempelajari ketekalan geometri antara pandangan silang, supaya 8 gambar ini boleh disambung menjadi satu Panorama yang konsisten.
2. Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta imej atau video perspektif panorama. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai aplikasi yang luas dalam pelancongan, hartanah, realiti maya dan bidang lain (berdasarkan gambar perspektif)
MVDiffusion juga boleh melengkapkan imej perspektif tunggal menjadi panorama. Proses penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam bidang pelancongan, hartanah, realiti maya dan lain-lain input MVDiffusion yang dimulakan secara rawak 8 gambar perspektif (termasuk perspektif yang sepadan dengan pandangan perspektif) ke dalam rangkaian UNet terlatih Stable Diffusion Inpainting.
Dalam model Stable Diffusion Inpainting, perbezaannya ialah UNet menggunakan input mask tambahan untuk membezakan gambar sebagai keadaan dan gambar yang akan dihasilkan
Perspektif yang sepadan dengan perspektif, mask Jika kod itu ditetapkan kepada 1, UNet cawangan ini akan memulihkan perspektif secara langsung. Untuk perspektif lain, topeng ditetapkan kepada 0, dan UNet cawangan yang sepadan akan menjana pandangan perspektif baharu
Begitu juga, MVDiffusion menggunakan modul "Perhatian Sedar Surat-menyurat" untuk mempelajari ketekalan geometri antara imej yang dijana dan imej bersyarat.
3. Penjanaan bahan pemandangan
MVDiffusion mula-mula menjana imej RGB pada trajektori berdasarkan peta kedalaman dan pose kamera, dan kemudian menggunakan gabungan TSDF untuk mensintesis imej RGB kedalaman yang diberikan sebuah jaringan.
Korespondensi piksel imej RGB boleh diperolehi melalui peta kedalaman dan pose kamera.
Proses dengan penjanaan panorama adalah untuk mencantumkan berbilang foto atau video untuk mencipta paparan panorama imej atau video. Proses ini biasanya melibatkan penggunaan perisian atau alatan khas untuk menjajarkan, menggabungkan dan membaiki imej atau video ini secara automatik atau manual. Melalui penjanaan panorama, orang ramai boleh menghayati dan mengalami pemandangan, seperti landskap, bangunan atau ruang dalaman, dengan pemandangan yang lebih luas. Teknologi ini mempunyai pelbagai aplikasi dalam pelancongan, hartanah, realiti maya dan bidang lain Kami menggunakan UNet berbilang cawangan dan memasukkan "Perhatian Sedar Surat-menyurat" untuk mempelajari konsistensi geometri merentasi perspektif.
4. Mekanisme Perhatian Sedar Surat-menyurat
"Perhatian Sedar Surat-menyurat" (CAA) ialah teras kepada ketekalan geometrik.
MVDiffusion menyisipkan blok "Perhatian Sedar Persuratan" selepas setiap blok UNet dalam Stable Diffusion UNet. CAA berfungsi dengan mempertimbangkan peta ciri sumber dan peta ciri sasaran N.
Untuk lokasi dalam peta ciri sumber, kami mengira output perhatian berdasarkan piksel yang sepadan dan kejiranannya dalam peta ciri sasaran.
Khususnya, untuk setiap piksel sasaran t^l, MVDiffusion akan mempertimbangkan kejiranan K x K dengan menambahkan sesaran integer (dx/dy) pada koordinat (x/y) , di mana |dx| mewakili sesaran dalam arah x, |dy| mewakili sesaran dalam arah y
Dalam aplikasi praktikal, algoritma MVDiffusion menggunakan K=3 dan memilih kejiranan 9 mata untuk meningkatkan kualiti panorama. Walau bagaimanapun, apabila menjana imej berbilang paparan tertakluk kepada keadaan geometri, untuk meningkatkan kecekapan pengendalian, kami memilih untuk menggunakan K=1
Pengiraan modul CAA mengikut mekanisme perhatian standard, seperti yang ditunjukkan dalam formula di atas, dengan W_Q, W_K dan W_V ialah pemberat yang boleh dipelajari bagi pertanyaan, kunci dan matriks nilai, ciri sasaran tidak terletak pada kedudukan integer tetapi diperoleh dengan interpolasi dwilinear.
Perbezaan utama ialah pengekodan kedudukan ditambah pada ciri sasaran berdasarkan anjakan 2D (panorama) atau ralat kedalaman 1D (geometri) antara kedudukan s^l dan s yang sepadan dalam imej sumber.
Dalam penjanaan panorama (Aplikasi 1 dan Aplikasi 2), anjakan ini memberikan kedudukan relatif dalam kejiranan tempatan.
Dan dalam penjanaan mendalam-ke-imej (Aplikasi 3), ketaksamaan memberikan petunjuk tentang ketakselanjaran atau oklusi kedalaman, yang sangat penting untuk penjanaan imej ketepatan tinggi.
Sila ambil perhatian bahawa anjakan ialah konsep yang mengandungi vektor 2D (anjakan) atau 1D (ralat kedalaman). MVDiffusion menggunakan pengekodan frekuensi standard pada koordinat x dan y anjakan
Atas ialah kandungan terperinci MVDiffusion: Mencapai penjanaan imej berbilang paparan berkualiti tinggi dan pengeluaran semula bahan pemandangan yang tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Untuk membuat jadual data menggunakan phpmyadmin, langkah -langkah berikut adalah penting: Sambungkan ke pangkalan data dan klik tab baru. Namakan jadual dan pilih enjin penyimpanan (disyorkan innoDB). Tambah butiran lajur dengan mengklik butang Tambah Lajur, termasuk nama lajur, jenis data, sama ada untuk membenarkan nilai null, dan sifat lain. Pilih satu atau lebih lajur sebagai kunci utama. Klik butang Simpan untuk membuat jadual dan lajur.

Mewujudkan pangkalan data Oracle tidak mudah, anda perlu memahami mekanisme asas. 1. Anda perlu memahami konsep pangkalan data dan Oracle DBMS; 2. Menguasai konsep teras seperti SID, CDB (pangkalan data kontena), PDB (pangkalan data pluggable); 3. Gunakan SQL*Plus untuk membuat CDB, dan kemudian buat PDB, anda perlu menentukan parameter seperti saiz, bilangan fail data, dan laluan; 4. Aplikasi lanjutan perlu menyesuaikan set aksara, memori dan parameter lain, dan melakukan penalaan prestasi; 5. Beri perhatian kepada ruang cakera, keizinan dan parameter, dan terus memantau dan mengoptimumkan prestasi pangkalan data. Hanya dengan menguasai ia dengan mahir memerlukan amalan yang berterusan, anda boleh benar -benar memahami penciptaan dan pengurusan pangkalan data Oracle.

Untuk membuat pangkalan data Oracle, kaedah biasa adalah menggunakan alat grafik DBCA. Langkah -langkah adalah seperti berikut: 1. Gunakan alat DBCA untuk menetapkan DBName untuk menentukan nama pangkalan data; 2. Tetapkan SYSPASSWORD dan SYSTEMPASSWORD kepada kata laluan yang kuat; 3. Tetapkan aksara dan NationalCharacterset ke Al32utf8; 4. Tetapkan MemorySize dan Tablespacesize untuk menyesuaikan mengikut keperluan sebenar; 5. Tentukan laluan logfile. Kaedah lanjutan dibuat secara manual menggunakan arahan SQL, tetapi lebih kompleks dan terdedah kepada kesilapan. Perhatikan kekuatan kata laluan, pemilihan set aksara, saiz dan memori meja makan

Inti dari pernyataan Oracle SQL adalah pilih, masukkan, mengemas kini dan memadam, serta aplikasi fleksibel dari pelbagai klausa. Adalah penting untuk memahami mekanisme pelaksanaan di sebalik pernyataan, seperti pengoptimuman indeks. Penggunaan lanjutan termasuk subqueries, pertanyaan sambungan, fungsi analisis, dan PL/SQL. Kesilapan umum termasuk kesilapan sintaks, isu prestasi, dan isu konsistensi data. Amalan terbaik pengoptimuman prestasi melibatkan menggunakan indeks yang sesuai, mengelakkan pilih *, mengoptimumkan di mana klausa, dan menggunakan pembolehubah terikat. Menguasai Oracle SQL memerlukan amalan, termasuk penulisan kod, debugging, berfikir dan memahami mekanisme asas.

Panduan Operasi Lapangan di MySQL: Tambah, mengubah suai, dan memadam medan. Tambahkan medan: alter table table_name tambah column_name data_type [not null] [default default_value] [primary kekunci] [AUTO_INCREMENT] Modify Field: Alter Table Table_Name Ubah suai column_name data_type [not null] [default default_value] [Kunci Utama]

Kekangan integriti pangkalan data Oracle dapat memastikan ketepatan data, termasuk: tidak null: nilai null dilarang; Unik: Keunikan menjamin, membolehkan nilai null tunggal; Kunci utama: kekangan utama utama, menguatkan unik, dan melarang nilai null; Kunci asing: Mengekalkan hubungan antara jadual, kunci asing merujuk kepada kunci utama jadual utama; Semak: Hadkan nilai lajur mengikut syarat.

Pertanyaan bersarang adalah cara untuk memasukkan pertanyaan lain dalam satu pertanyaan. Mereka digunakan terutamanya untuk mendapatkan data yang memenuhi syarat kompleks, mengaitkan pelbagai jadual, dan mengira nilai ringkasan atau maklumat statistik. Contohnya termasuk mencari pekerja di atas gaji purata, mencari pesanan untuk kategori tertentu, dan mengira jumlah jumlah pesanan bagi setiap produk. Apabila menulis pertanyaan bersarang, anda perlu mengikuti: Tulis subqueries, tulis hasilnya kepada pertanyaan luar (dirujuk dengan alias atau sebagai klausa), dan mengoptimumkan prestasi pertanyaan (menggunakan indeks).

Log Tomcat adalah kunci untuk mendiagnosis masalah kebocoran memori. Dengan menganalisis log tomcat, anda boleh mendapatkan wawasan mengenai kelakuan memori dan pengumpulan sampah (GC), dengan berkesan mencari dan menyelesaikan kebocoran memori. Berikut adalah cara menyelesaikan masalah kebocoran memori menggunakan log Tomcat: 1. GC Log Analysis terlebih dahulu, membolehkan pembalakan GC terperinci. Tambah pilihan JVM berikut kepada parameter permulaan TOMCAT: -XX: PrintGCDetails-XX: PrintGCDATestamps-XLogGC: GC.LOG Parameter ini akan menghasilkan log GC terperinci (GC.LOG), termasuk maklumat seperti jenis GC, saiz dan masa yang dikitar semula. Analisis GC.Log
