Sebagai tindak balas kepada pertumbuhan berterusan dalam permintaan untuk alatan kreatif 3D dalam Metaverse, orang ramai baru-baru ini menunjukkan minat yang tinggi terhadap penjanaan kandungan tiga dimensi (3D AIGC). Pada masa yang sama, penciptaan kandungan 3D juga telah mencapai kemajuan yang ketara dalam kualiti dan kelajuan.
Walaupun model generatif suapan hadapan semasa boleh menjana objek 3D dalam beberapa saat, resolusinya dihadkan oleh pengiraan intensif yang diperlukan semasa latihan, menghasilkan penjanaan kandungan berkualiti rendah. Ini menimbulkan persoalan, bolehkah objek 3D beresolusi tinggi dan berkualiti tinggi dijana dalam masa 5 saat sahaja?
Dalam artikel ini, penyelidik dari Universiti Peking, Nanyang Technological University S-Lab dan Makmal Kepintaran Buatan Shanghai mencadangkan rangka kerja LGM baharu, iaitu Large Gaussian Model, yang merealisasikan transformasi imej pandangan tunggal Atau input teks untuk menjana resolusi tinggi, objek 3D berkualiti tinggi dalam masa 5 saat sahaja.
Pada masa ini, kedua-dua kod dan berat model adalah sumber terbuka. Para penyelidik juga menyediakan Demo dalam talian untuk semua orang mencuba. . : https://github.com/3DTopia/LGM
Kertas: https://arxiv.org/abs/2402.05054
: Kerja penjanaan 3D sedia ada menggunakan transformer padat sebagai rangkaian tulang belakang untuk memastikan jumlah parameter yang cukup padat untuk memodelkan objek universal, tetapi ini dikorbankan pada tahap tertentu Resolusi latihan menghasilkan kualiti objek tiga dimensi akhir yang rendah.
Secara khusus, rangkaian tulang belakang U-Net menerima imej daripada empat perspektif dan koordinat Plucker yang sepadan, dan mengeluarkan bilangan tetap ciri Gaussian daripada pelbagai perspektif. Set ciri Gaussian ini dicantumkan terus ke dalam elemen Gaussian terakhir dan imej dari pelbagai sudut tontonan diperoleh melalui pemaparan boleh dibezakan. Dalam proses ini, mekanisme perhatian kendiri pandangan silang digunakan untuk melaksanakan pemodelan korelasi antara pandangan berbeza pada peta ciri resolusi rendah sambil mengekalkan overhed pengiraan yang rendah.
Perlu diingat bahawa bukan mudah untuk melatih model sedemikian dengan cekap pada resolusi tinggi. Untuk mencapai latihan yang mantap, penyelidik masih menghadapi dua masalah berikut.
Pertama, imej berbilang paparan konsisten tiga dimensi yang dipaparkan dalam set data objaverse digunakan dalam fasa latihan, manakala dalam fasa inferens, model sedia ada digunakan secara langsung untuk mensintesis imej berbilang perspektif daripada teks atau imej. Memandangkan gambar berbilang paparan yang disintesis berdasarkan model sentiasa menghadapi masalah ketidakkonsistenan berbilang paparan, untuk merapatkan jurang dalam domain ini, artikel ini mencadangkan strategi peningkatan data berdasarkan herotan grid: menggunakan rawak pada gambar daripada tiga paparan dalam ruang imej Herotan untuk mensimulasikan ketidakkonsistenan berbilang paparan.
Kedua, kerana imej berbilang paparan yang dijana semasa peringkat inferens tidak menjamin konsistensi geometri tiga dimensi perspektif kamera, artikel ini juga secara rawak mengganggu pose kamera bagi tiga perspektif untuk mensimulasikan fenomena ini , supaya model boleh berprestasi lebih baik dalam penaakulan Peringkat lebih stabil .
Akhir sekali, primitif Gaussian yang dijanakan dijadikan imej yang sepadan melalui pemaparan boleh dibezakan, dan dipelajari secara langsung hujung ke hujung pada imej dua dimensi melalui pembelajaran diselia.Selepas latihan selesai, LGM boleh mencapai tugasan Text-to-3D dan Image-to-3D yang berkualiti tinggi melalui model penyebaran imej-ke-multi-view atau teks-ke-multi-view yang sedia ada.
Memandangkan teks atau imej input yang sama, kaedah ini boleh menjana pelbagai model 3D berkualiti tinggi.
Untuk menyokong lagi tugas-tugas grafik hiliran, penyelidik juga mencadangkan kaedah yang cekap untuk menukar perwakilan Gaussian yang dijana kepada Mesh yang licin dan bertekstur:
untuk butiran kertas asal Sila rujuk kepada butiran kertas asal kandungan.
Atas ialah kandungan terperinci Model Gaussian berbilang pandangan besar LGM: menghasilkan objek 3D berkualiti tinggi dalam 5 saat, tersedia untuk permainan percubaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!