Stability AI, syarikat di sebalik Stable Diffusion, telah melancarkan sesuatu yang baharu.
Apa yang dibawa oleh ini ialah kemajuan baharu dalam grafik 3D:
Video 3D (SV3D) Stabil berdasarkan Resapan Video Stabil, yang boleh menjana jerat 3D berkualiti tinggi dengan hanya satu gambar.
Stable Video Diffusion (SVD) ialah model yang dikeluarkan sebelum ini oleh Stability AI untuk menjana video resolusi tinggi. Kemunculan SV3D menandakan kali pertama model penyebaran video telah berjaya digunakan dalam bidang penjanaan 3D.
Secara rasmi menyatakan bahawa berdasarkan ini, SV3D telah meningkatkan kualiti dan ketekalan paparan penjanaan 3D. . melihat butiran kertas.
Menggunakan model resapan video untuk penjanaan 3D
Memperkenalkan model resapan video terpendam, tujuan teras SV3D adalah untuk menggunakan ketekalan temporal model video untuk meningkatkan ketekalan penjanaan 3D. Dan data video itu sendiri juga lebih mudah diperoleh daripada data 3D. Stability AI menyediakan dua versi SV3D kali ini:SV3D_u: Jana video orbit berdasarkan satu imej.
Mereka juga mereka bentuk fungsi kehilangan khas yang dipanggil pensampelan penyulingan skor bertopeng (SDS) untuk meningkatkan kualiti dan konsistensi model 3D yang dijana dengan mengoptimumkan kawasan yang tidak dapat dilihat secara langsung dalam data latihan.
Pada masa yang sama, SV3D memperkenalkan model pencahayaan berdasarkan Gaussian sfera untuk memisahkan kesan pencahayaan dan tekstur, dengan berkesan mengurangkan masalah pencahayaan terbina dalam sambil mengekalkan kejelasan tekstur.
Khusus dari segi seni bina, SV3D mengandungi komponen utama berikut:
UNet: SV3D dibina berdasarkan SVD dan mengandungi UNet berbilang lapisan, di mana setiap lapisan mempunyai siri blok sisa (termasuk Lapisan konvolusi 3D) dan dua modul Transformer yang masing-masing memproses maklumat spatial dan temporal.Input bersyarat: Imej input dibenamkan ke dalam ruang terpendam melalui pengekod VAE, digabungkan dengan keadaan pendam hingar, dan input ke dalam UNet bersama-sama matriks benam CLIP bagi imej input digunakan sebagai kunci setiap salib modul Transformer -pasangan nilai lapisan perhatian.
Pengekodan trajektori kamera: SV3D mereka bentuk dua jenis trajektori, statik dan dinamik, untuk mengkaji kesan keadaan sikap kamera. Dalam orbit statik, kamera mengelilingi objek pada sudut azimut yang dijarakkan secara tetap dalam orbit dinamik, kamera membenarkan sudut azimut jarak yang tidak teratur dan sudut ketinggian yang berbeza.
Selain itu, SV3D menggunakan CFG (panduan bebas pengelas) semasa proses penjanaan untuk mengawal ketajaman penjanaan, terutamanya apabila menjana beberapa bingkai terakhir trek, penskalaan CFG segi tiga digunakan untuk mengelakkan penajaman berlebihan .
Para penyelidik melatih SV3D pada set data Objaverse, dengan resolusi imej 575×576 dan medan pandangan 33.8 darjah. Makalah ini mendedahkan bahawa ketiga-tiga model (SV3D_u, SV3D_c, SV3D_p) telah dilatih pada 4 nod selama kira-kira 6 hari, setiap nod dilengkapi dengan 8 80GB A100 GPU.
Dari segi sintesis perspektif baharu (NVS) dan pembinaan semula 3D, SV3D mengatasi kaedah sedia ada lain dan mencapai SOTA.
Berdasarkan hasil perbandingan kualitatif, paparan berbilang paparan yang dijana oleh SV3D mempunyai butiran yang lebih kaya dan lebih dekat dengan imej input asal. Dalam erti kata lain, SV3D boleh menangkap butiran dengan lebih tepat dan mengekalkan konsistensi apabila melihat perubahan sudut dalam memahami dan membina semula struktur 3D objek.
Hasil sebegini telah membangkitkan emosi ramai netizen:
Boleh dibayangkan dalam tempoh 6-12 bulan akan datang, teknologi generasi 3D akan digunakan dalam permainan dan projek video.
Selalu ada beberapa idea berani di ruang komen...
Dan projek itu adalah sumber terbuka.
Pautan rujukan:
[1]https://twitter.com/StabilityAI/status/1769817136799855098.
[2]https://stability.ai/news/introducing-stable-video-3d.
[3]https://sv3d.github.io/index.html.
Atas ialah kandungan terperinci Keluaran baharu sumber terbuka AI Kestabilan: Penjanaan 3D memperkenalkan model penyebaran video, ketekalan kualiti meningkat, 4090 boleh dimainkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!