Dengan pembangunan model bahasa besar (LLM), penyebaran (Diffusion) dan teknologi lain, kelahiran produk seperti ChatGPT dan Midjourney telah mencetuskan gelombang baru kegilaan AI, dan AI generatif juga telah menjadi topik yang amat membimbangkan.
Tidak seperti teks dan imej, penjanaan 3D masih dalam peringkat penerokaan teknologi.
Pada penghujung tahun 2022, Google, NVIDIA dan Microsoft telah melancarkan kerja penjanaan 3D mereka sendiri secara berturut-turut, tetapi kebanyakannya adalah berdasarkan ungkapan tersirat Neural Radiation Field (NeRF) dan tidak serasi dengan perisian 3D industri Saluran paip Rendering seperti Unity, Unreal Engine dan Maya tidak serasi.
Walaupun ia ditukar kepada peta geometri dan warna yang dinyatakan oleh Mesh melalui penyelesaian tradisional, ia akan menyebabkan ketepatan yang tidak mencukupi dan kualiti visual yang berkurangan, dan tidak boleh digunakan secara langsung pada pengeluaran filem dan televisyen dan pengeluaran permainan.
Tapak web projek: https://sites.google.com/view/dreamface
Alamat kertas: https://arxiv.org/abs/2304.03117
Demo Web: https ://hyperhuman.top
Ruang Muka Peluk: https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
Untuk menyelesaikan masalah ini, pasukan R&D dari Yingmo Technology dan ShanghaiTech University mencadangkan rangka kerja penjanaan 3D progresif berpandukan teks.
Rangka kerja memperkenalkan set data luaran (termasuk bahan geometri dan PBR) yang mematuhi piawaian pengeluaran CG, dan boleh menjana secara langsung aset 3D yang mematuhi piawaian ini berdasarkan teks pertama untuk menyokong rangka kerja Sedia Pengeluaran A untuk penjanaan aset 3D.
Untuk mencapai manusia digital hiper-realistik 3D yang dipacu penjanaan teks, pasukan itu menggabungkan rangka kerja ini dengan set data manusia digital 3D gred pengeluaran. Kerja ini telah diterima oleh Transactions on Graphics, jurnal antarabangsa teratas dalam bidang grafik komputer, dan akan dibentangkan di SIGGRAPH 2023, persidangan grafik komputer antarabangsa teratas.
DreamFace terutamanya merangkumi tiga modul, penjanaan geometri, penyebaran bahan berasaskan fizik dan penjanaan keupayaan animasi.
Berbanding dengan karya generasi 3D sebelumnya, sumbangan utama karya ini termasuk:
· Cadangan DreamFace Novel ini pendekatan generatif menggabungkan model bahasa visual terkini dengan aset muka boleh animasi dan fizikal, menggunakan pembelajaran progresif untuk memisahkan geometri, rupa dan keupayaan animasi.
· Memperkenalkan reka bentuk penjanaan penampilan dwi saluran, menggabungkan model penyebaran bahan novel dengan model pra-latihan, serentak dalam ruang terpendam dan ruang imej Lakukan pengoptimuman dua peringkat.
· Aset muka menggunakan BlendShapes atau Personalized BlendShapes yang dihasilkan mempunyai keupayaan animasi dan seterusnya menunjukkan penggunaan DreamFace untuk reka bentuk watak semula jadi.
Modul penjanaan geometri boleh menjana model geometri yang konsisten berdasarkan gesaan teks. Walau bagaimanapun, apabila ia datang untuk menghadapi penjanaan, ini boleh menjadi sukar untuk diawasi dan berkumpul.
Oleh itu, DreamFace mencadangkan rangka kerja pemilihan berdasarkan CLIP (Contrastive Language-Image Pra-Training), yang mula-mula memilih calon terbaik daripada calon sampel rawak dalam ruang parameter geometri muka model geometri kasar yang baik dan kemudian memahat butiran geometri untuk menjadikan model kepala lebih konsisten dengan gesaan teks.
Menurut gesaan input, DreamFace menggunakan model CLIP untuk memilih calon geometri kasar dengan skor padanan tertinggi. Seterusnya, DreamFace menggunakan model resapan tersirat (LDM) untuk melakukan pemprosesan Pensampelan Penyulingan Berskor (SDS) pada imej yang diberikan di bawah sudut tontonan rawak dan keadaan pencahayaan.
Ini membolehkan DreamFace menambah butiran muka pada model geometri kasar melalui anjakan bucu dan peta normal yang terperinci, menghasilkan geometri yang sangat terperinci.
Sama seperti model kepala, DreamFace juga membuat pilihan gaya rambut dan warna berdasarkan rangka kerja ini.
Modul resapan bahan berasaskan fizikal direka untuk meramalkan tekstur muka yang konsisten dengan geometri dan isyarat teks yang diramalkan.
Pertama, DreamFace memperhalusi LDM pra-latihan pada set data bahan UV berskala besar yang dikumpul untuk mendapatkan dua model penyebaran LDM.
DreamFace menggunakan skema latihan bersama yang menyelaraskan dua proses penyebaran, satu untuk menafikan secara langsung peta tekstur UV dan satu lagi digunakan untuk mengawasi imej yang diberikan untuk memastikan pembentukan peta UV muka yang betul dan imej yang dihasilkan konsisten dengan isyarat teks.
Untuk mengurangkan masa penjanaan, DreamFace menggunakan peringkat resapan potensi tekstur kasar untuk menyediakan potensi priori untuk penjanaan tekstur terperinci.
Untuk memastikan peta tekstur yang dibuat tidak mengandungi ciri atau situasi pencahayaan yang tidak diingini sambil mengekalkan kepelbagaian, reka bentuk A strategi pembelajaran cued.
Pasukan menggunakan dua kaedah untuk menjana peta meresap berkualiti tinggi:
(1) Penalaan Segera. Tidak seperti isyarat teks khusus domain buatan tangan, DreamFace menggabungkan dua isyarat teks berterusan khusus domain Cd dan Cu dengan isyarat teks yang sepadan, yang akan dioptimumkan semasa latihan denoiser U-Net untuk mengelakkan ketidakstabilan dan penulisan gesaan manual yang memakan masa.
(2) Topeng bukan kawasan muka. Proses denoising LDM akan dikekang tambahan oleh topeng bukan kawasan muka untuk memastikan peta meresap yang terhasil tidak mengandungi sebarang unsur yang tidak diingini.
Sebagai langkah terakhir, DreamFace menggunakan modul resolusi super untuk menjana tekstur berasaskan fizikal 4K untuk kualiti tinggi rendering.
Rangka kerja DreamFace telah mencapai hasil yang cukup baik dalam menjana selebriti dan menjana watak berdasarkan huraian Dalam Kajian Pengguna Diperolehi keputusan yang jauh melebihi kerja sebelumnya. Berbanding dengan kerja sebelumnya, ia juga mempunyai kelebihan yang jelas dalam masa berjalan.
Selain itu, DreamFace juga menyokong penyuntingan tekstur menggunakan pembayang dan lakaran. Kesan penyuntingan global seperti penuaan dan solek boleh dicapai dengan terus menggunakan tekstur LDM dan isyarat yang diperhalusi. Dengan menggabungkan lagi topeng atau lakaran, pelbagai kesan boleh dicipta seperti tatu, janggut, dan tanda lahir.
Model yang dihasilkan oleh DreamFace mempunyai keupayaan animasi. Tidak seperti kaedah berasaskan BlendShapes, kaedah animasi muka saraf DreamFace menghasilkan animasi diperibadikan dengan meramalkan ubah bentuk unik untuk menghidupkan model Neutral yang terhasil.
Pertama, penjana geometri dilatih untuk mempelajari ruang terpendam ungkapan, di mana penyahkod dilanjutkan untuk dikondisikan pada geometri neutral. Kemudian, pengekod ekspresi dilatih lagi untuk mengekstrak ciri ekspresi daripada imej RGB. Oleh itu, DreamFace mampu menjana animasi diperibadikan yang dikondisikan pada bentuk geometri neutral menggunakan imej RGB monokular.
Berbanding DECA yang menggunakan BlendShapes generik untuk kawalan ekspresi, rangka kerja DreamFace memberikan butiran ekspresi yang halus dan mampu menangkap persembahan dengan perincian yang halus.
Kertas kerja ini memperkenalkan DreamFace, rangka kerja penjanaan 3D progresif berpandukan teks yang menggabungkan model bahasa visual terkini, model Difusi tersirat dan secara fizikal berasaskan teknik penyebaran bahan.
Inovasi utama DreamFace termasuk penjanaan geometri, penjanaan penyebaran bahan berasaskan fizikal dan penjanaan keupayaan animasi. Berbanding dengan kaedah penjanaan 3D tradisional, DreamFace mempunyai ketepatan yang lebih tinggi, kelajuan larian yang lebih pantas dan keserasian saluran paip CG yang lebih baik.
Rangka kerja penjanaan progresif DreamFace menyediakan penyelesaian yang berkesan untuk menyelesaikan tugas penjanaan 3D yang kompleks dan dijangka mempromosikan penyelidikan dan pembangunan teknologi yang lebih serupa.
Selain itu, penjanaan penyebaran bahan berasaskan fizikal dan penjanaan keupayaan animasi akan menggalakkan aplikasi teknologi penjanaan 3D dalam pengeluaran filem dan televisyen, pembangunan permainan dan industri lain yang berkaitan.
Atas ialah kandungan terperinci Universiti Sains dan Teknologi Shanghai dan lain-lain mengeluarkan DreamFace: hanya teks boleh menjana 'manusia digital 3D yang hiper-realistik'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!