Terima kasih kepada pemaparan boleh beza yang disediakan oleh NeRF, model generatif 3D terkini telah mencapai hasil yang menakjubkan pada objek pegun. Walau bagaimanapun, dalam kategori yang lebih kompleks dan boleh berubah bentuk seperti tubuh manusia, generasi 3D masih menimbulkan cabaran yang hebat. Makalah ini mencadangkan perwakilan NeRF gabungan yang cekap bagi tubuh manusia, membolehkan penjanaan badan manusia 3D resolusi tinggi (512x256) tanpa menggunakan model resolusi super. EVA3D telah dengan ketara mengatasi penyelesaian sedia ada pada empat set data badan manusia berskala besar, dan kod tersebut adalah sumber terbuka.
Menggunakan algoritma pemaparan boleh dibezakan yang disediakan oleh NeRF, algoritma penjanaan tiga dimensi, seperti EG3D dan StyleSDF, digunakan untuk menjana kategori objek statik Ia telah pun mempunyai hasil yang sangat baik. Walau bagaimanapun, berbanding dengan kategori seperti wajah atau model CAD, badan manusia adalah lebih kompleks dari segi rupa dan geometri, dan badan manusia boleh berubah bentuk, jadi belajar untuk menjana badan manusia 3D daripada imej 2D masih merupakan tugas yang sangat sukar. Penyelidik telah membuat beberapa percubaan pada tugas ini, seperti ENARF-GAN dan GNARF, tetapi terhad oleh ekspresi manusia yang tidak cekap, mereka tidak dapat mencapai penjanaan resolusi tinggi, jadi kualiti penjanaan juga sangat rendah.
Untuk menyelesaikan masalah ini, kertas kerja ini mencadangkan gabungan perwakilan NeRF badan manusia 3D yang cekap untuk mencapai latihan dan penjanaan GAN badan manusia 3D resolusi tinggi (512x256). Perwakilan NeRF manusia yang dicadangkan dalam artikel ini dan rangka kerja latihan GAN manusia tiga dimensi akan diperkenalkan di bawah.
NeRF manusia yang dicadangkan dalam kertas ini adalah berdasarkan model badan manusia parametrik SMPL, yang menyediakan kawalan yang mudah terhadap postur dan bentuk manusia. Apabila melakukan pemodelan NeRF, seperti yang ditunjukkan dalam rajah di bawah, artikel ini membahagikan badan manusia kepada 16 bahagian. Setiap bahagian sepadan dengan rangkaian NeRF kecil untuk pemodelan tempatan. Apabila memaparkan setiap bahagian, kertas ini hanya perlu membuat alasan tentang NeRF tempatan. Kaedah pemaparan jarang ini juga boleh mencapai pemaparan resolusi tinggi asli dengan sumber pengkomputeran yang lebih rendah.
Contohnya, apabila memaparkan badan manusia yang badan dan parameter tindakannya adalah kupasan campuran linear songsang), tukar titik pensampelan dalam ruang berpos kepada ruang kanonik. Kemudian dikira bahawa titik pensampelan dalam ruang Canonical tergolong dalam satu atau beberapa kotak sempadan NeRF tempatan, dan kemudian model NeRF disimpulkan untuk mendapatkan warna dan ketumpatan yang sepadan dengan setiap titik pensampelan apabila titik pensampelan tertentu jatuh ke dalam berbilang tempatan NeRF Dalam kawasan bertindih, setiap model NeRF akan disimpulkan, dan berbilang hasil akan diinterpolasi menggunakan fungsi tetingkap, akhirnya, maklumat ini akan digunakan untuk penyepaduan cahaya untuk mendapatkan pemaparan akhir.
Berdasarkan ungkapan NeRF manusia cekap yang dicadangkan, kertas kerja ini melaksanakan rangka kerja latihan GAN manusia tiga dimensi. Dalam setiap lelaran latihan, kertas ini mula-mula mengambil sampel parameter SMPL dan parameter kamera daripada set data, dan secara rawak menjana bunyi Gaussian z. Menggunakan NeRF badan manusia yang dicadangkan dalam artikel ini, artikel ini boleh menjadikan parameter sampel menjadi gambar badan manusia dua dimensi sebagai sampel palsu. Menggunakan sampel sebenar dalam set data, artikel ini menjalankan latihan menentang GAN.
Dataset badan manusia 2D, seperti DeepFashion, biasanya Ia disediakan untuk tugas penglihatan dua dimensi, jadi kepelbagaian postur tubuh manusia adalah sangat terhad. Untuk mengukur tahap ketidakseimbangan, kertas ini mengira kekerapan orientasi muka model dalam DeepFashion. Seperti yang ditunjukkan dalam rajah di bawah, garis oren mewakili taburan orientasi muka dalam DeepFashion Ia boleh dilihat bahawa ia sangat tidak seimbang, yang menjadikannya sukar untuk mempelajari perwakilan badan manusia tiga dimensi. Untuk mengurangkan masalah ini, kami mencadangkan kaedah pensampelan berpandukan postur manusia untuk meratakan lengkung taburan, seperti yang ditunjukkan oleh garis berwarna lain dalam rajah di bawah. Ini membolehkan model semasa latihan melihat imej sudut badan manusia yang lebih pelbagai dan lebih besar, sekali gus membantu mempelajari geometri manusia tiga dimensi. Kami menjalankan analisis eksperimen terhadap parameter persampelan Seperti yang dapat dilihat dari jadual di bawah, selepas menambah kaedah persampelan bimbingan postur manusia, walaupun kualiti imej (FID) akan berkurangan sedikit, geometri tiga dimensi (Kedalaman) yang dipelajari telah. bertambah baik dengan ketara.
Angka berikut menunjukkan beberapa hasil penjanaan EVA3D EVA3D boleh mencuba penampilan badan manusia secara rawak dan boleh mengawal parameter kamera dan postur manusia. dan bentuk badan.
Kertas kerja ini menjalankan eksperimen ke atas empat set data manusia berskala besar, iaitu DeepFashion, SHHQ, UBCFashion, AIST . Kajian ini membandingkan algoritma penjanaan objek 3D statik terkini EG3D dengan StyleSDF. Pada masa yang sama, para penyelidik juga membandingkan ENARF-GAN, algoritma yang direka khusus untuk penjanaan manusia 3D. Dalam pemilihan penunjuk, artikel ini mengambil kira penilaian kualiti rendering (FID/KID), ketepatan kawalan badan manusia (PCK) dan kualiti penjanaan geometri (Kedalaman). Seperti yang ditunjukkan dalam rajah di bawah, artikel ini dengan ketara mengatasi penyelesaian sebelumnya dalam semua set data dan semua penunjuk.
Akhir sekali, artikel ini juga menunjukkan beberapa potensi aplikasi EVA3D. Pertama, kajian menguji perbezaan dalam ruang terpendam. Seperti yang ditunjukkan dalam rajah di bawah, artikel ini dapat membuat perubahan yang lancar antara dua orang tiga dimensi, dan hasil perantaraan mengekalkan kualiti yang tinggi. Di samping itu, artikel ini juga menjalankan eksperimen mengenai penyongsangan GAN Para penyelidik menggunakan Penyongsangan Penalaan Pivotal, algoritma yang biasa digunakan dalam penyongsangan GAN dua dimensi. Seperti yang ditunjukkan dalam rajah kanan di bawah, kaedah ini boleh memulihkan penampilan sasaran yang dibina semula dengan lebih baik, tetapi banyak butiran hilang dalam bahagian geometri. Dapat dilihat bahawa penyongsangan 3D GAN masih merupakan tugas yang sangat mencabar.
Kertas kerja ini mencadangkan algoritma penjanaan NeRF manusia tiga dimensi EVA3D manusia definisi tinggi yang pertama , dan hanya memerlukan Ia boleh dilatih menggunakan data imej badan manusia 2D. EVA3D mencapai prestasi terkini pada pelbagai set data manusia berskala besar dan menunjukkan potensi untuk diaplikasikan pada tugas hiliran. Kod latihan dan ujian EVA3D telah bersumberkan terbuka, dan semua orang dialu-alukan untuk mencubanya!
Atas ialah kandungan terperinci Gunakan imej 2D untuk mencipta tubuh manusia 3D Anda boleh memakai sebarang pakaian dan menukar pergerakan anda.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!