


Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan
Sebagai tindak balas kepada pertumbuhan berterusan dalam permintaan untuk alatan kreatif 3D dalam Metaverse, orang ramai baru-baru ini menunjukkan minat yang tinggi terhadap penjanaan kandungan tiga dimensi (3D AIGC). Pada masa yang sama, penciptaan kandungan 3D juga telah mencapai kemajuan yang ketara dalam kualiti dan kelajuan.
Walaupun model generatif suapan hadapan semasa boleh menjana objek 3D dalam beberapa saat, resolusinya dihadkan oleh pengiraan intensif yang diperlukan semasa latihan, menghasilkan penjanaan kandungan berkualiti rendah. Ini menimbulkan persoalan, bolehkah objek 3D beresolusi tinggi dan berkualiti tinggi dijana dalam masa 5 saat sahaja?
Dalam artikel ini, penyelidik dari Universiti Peking, Nanyang Technological University S-Lab dan Makmal Kepintaran Buatan Shanghai mencadangkan rangka kerja LGM baharu, iaitu Large Gaussian Model, yang merealisasikan transformasi imej pandangan tunggal Atau input teks untuk menjana resolusi tinggi, objek 3D berkualiti tinggi dalam masa 5 saat sahaja.
Pada masa ini, kedua-dua kod dan berat model adalah sumber terbuka. Para penyelidik juga menyediakan Demo dalam talian untuk semua orang mencuba. . : https://github.com/3DTopia/LGM
Kertas: https://arxiv.org/abs/2402.05054
- Demo Dalam Talian: https://huggingface.co/spaces/ashawkey/LGM
- Untuk mencapai matlamat sedemikian, penyelidik menghadapi dua cabaran berikut:
- Perwakilan 3D yang cekap di bawah amaun pengiraan terhad : 3D yang sedia ada menggunakan rancangan penjanaan 3D sebagai NeRF berdasarkan tiga rancangan generasi 3D dan rendering. saluran paip, pemodelan intensif adegan dan teknologi pemaparan volum jejak sinar sangat mengehadkan resolusi latihannya (128×128), menjadikan tekstur kandungan terjana akhir menjadi kabur dan tidak berkualiti.
: Kerja penjanaan 3D sedia ada menggunakan transformer padat sebagai rangkaian tulang belakang untuk memastikan jumlah parameter yang cukup padat untuk memodelkan objek universal, tetapi ini dikorbankan pada tahap tertentu Resolusi latihan menghasilkan kualiti objek tiga dimensi akhir yang rendah.
- Untuk tujuan ini, kertas kerja ini mencadangkan kaedah baharu untuk mensintesis perwakilan tiga dimensi resolusi tinggi daripada imej empat paparan, dan kemudian gunakan teks sedia ada untuk imej berbilang paparan atau imej tunggal kepada model imej berbilang paparan . Menyokong tugasan Text-to-3D dan Image-to-3D yang berkualiti tinggi .
- Secara teknikal, Modul teras LGM ialah Model Gaussian Berbilang Pandangan Besar. Diilhamkan oleh sputtering Gaussian, kaedah ini menggunakan U-Net asimetri yang cekap dan ringan sebagai rangkaian tulang belakang untuk secara langsung meramalkan primitif Gaussian resolusi tinggi daripada imej empat paparan, dan akhirnya menghasilkan imej dari mana-mana sudut pandangan.
Secara khusus, rangkaian tulang belakang U-Net menerima imej daripada empat perspektif dan koordinat Plucker yang sepadan, dan mengeluarkan bilangan tetap ciri Gaussian daripada pelbagai perspektif. Set ciri Gaussian ini dicantumkan terus ke dalam elemen Gaussian terakhir dan imej dari pelbagai sudut tontonan diperoleh melalui pemaparan boleh dibezakan. Dalam proses ini, mekanisme perhatian kendiri pandangan silang digunakan untuk melaksanakan pemodelan korelasi antara pandangan berbeza pada peta ciri resolusi rendah sambil mengekalkan overhed pengiraan yang rendah.
Perlu diingat bahawa bukan mudah untuk melatih model sedemikian dengan cekap pada resolusi tinggi. Untuk mencapai latihan yang mantap, penyelidik masih menghadapi dua masalah berikut.
Pertama, imej berbilang paparan konsisten tiga dimensi yang dipaparkan dalam set data objaverse digunakan dalam fasa latihan, manakala dalam fasa inferens, model sedia ada digunakan secara langsung untuk mensintesis imej berbilang perspektif daripada teks atau imej. Memandangkan gambar berbilang paparan yang disintesis berdasarkan model sentiasa menghadapi masalah ketidakkonsistenan berbilang paparan, untuk merapatkan jurang dalam domain ini, artikel ini mencadangkan strategi peningkatan data berdasarkan herotan grid: menggunakan rawak pada gambar daripada tiga paparan dalam ruang imej Herotan untuk mensimulasikan ketidakkonsistenan berbilang paparan.
Kedua, kerana imej berbilang paparan yang dijana semasa peringkat inferens tidak menjamin konsistensi geometri tiga dimensi perspektif kamera, artikel ini juga secara rawak mengganggu pose kamera bagi tiga perspektif untuk mensimulasikan fenomena ini , supaya model boleh berprestasi lebih baik dalam penaakulan Peringkat lebih stabil .
Akhir sekali, primitif Gaussian yang dijanakan dijadikan imej yang sepadan melalui pemaparan boleh dibezakan, dan dipelajari secara langsung hujung ke hujung pada imej dua dimensi melalui pembelajaran diselia.Selepas latihan selesai, LGM boleh mencapai tugasan Text-to-3D dan Image-to-3D yang berkualiti tinggi melalui model penyebaran imej-ke-multi-view atau teks-ke-multi-view yang sedia ada.
untuk butiran kertas asal Sila rujuk kepada butiran kertas asal kandungan.
Atas ialah kandungan terperinci Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Penalaan prestasi zookeeper pada centOs boleh bermula dari pelbagai aspek, termasuk konfigurasi perkakasan, pengoptimuman sistem operasi, pelarasan parameter konfigurasi, pemantauan dan penyelenggaraan, dan lain -lain. Memori yang cukup: memperuntukkan sumber memori yang cukup untuk zookeeper untuk mengelakkan cakera kerap membaca dan menulis. CPU multi-teras: Gunakan CPU multi-teras untuk memastikan bahawa zookeeper dapat memprosesnya selari.

Latihan yang cekap model pytorch pada sistem CentOS memerlukan langkah -langkah, dan artikel ini akan memberikan panduan terperinci. 1. Penyediaan Persekitaran: Pemasangan Python dan Ketergantungan: Sistem CentOS biasanya mempamerkan python, tetapi versi mungkin lebih tua. Adalah disyorkan untuk menggunakan YUM atau DNF untuk memasang Python 3 dan menaik taraf PIP: Sudoyumupdatepython3 (atau SudodnfupdatePython3), pip3install-upgradepip. CUDA dan CUDNN (Percepatan GPU): Jika anda menggunakan Nvidiagpu, anda perlu memasang Cudatool

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Apabila memilih versi pytorch di bawah CentOS, faktor utama berikut perlu dipertimbangkan: 1. Keserasian versi CUDA Sokongan GPU: Jika anda mempunyai NVIDIA GPU dan ingin menggunakan pecutan GPU, anda perlu memilih pytorch yang menyokong versi CUDA yang sepadan. Anda boleh melihat versi CUDA yang disokong dengan menjalankan arahan NVIDIA-SMI. Versi CPU: Jika anda tidak mempunyai GPU atau tidak mahu menggunakan GPU, anda boleh memilih versi CPU PyTorch. 2. Pytorch versi python
