Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan-AI-php.cn

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-03-30 13:31:35

ke hadapan

976 orang telah melayarinya

Sebuah foto + video boleh menjadikan foto itu hidup!

Baru-baru ini, Champ, karya penjanaan penglihatan manusia yang boleh dikawal yang dikeluarkan bersama oleh Alibaba, Universiti Fudan dan Universiti Nanjing, telah menjadi popular di seluruh Internet. Model ini hanya bersumberkan terbuka selama 5 hari dan telah menerima 1k bintang di GitHub Ia telah menjadi sangat popular di Twitter, menarik sejumlah besar penulis blog untuk mencipta projek baharu, dan jumlah tontonan telah mencecah 300K.

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Pada masa ini, Champ telah membuka sumber kod inferens dan pemberat, dan pengguna boleh memuat turun dan menggunakannya terus daripada Github. Demo rasmi Memeluk Wajah telah dilancarkan, dan Champ-ComfyUI yang terkandung juga dipromosikan secara serentak. Halaman utama GitHub menunjukkan bahawa pasukan akan membuka sumber kod latihan dan set data dalam masa terdekat Rakan kongsi yang berminat boleh terus memberi perhatian kepada dinamik projek. Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Laman utama projek: https://fudan-generative-vision.github.io/champ/
Pautan kertas: https://arxiv.org/abs/2403.14781
://github.com/fudan-generative-vision/champ
Pautan Muka Berpeluk: https://huggingface.co/fudan-generative-ai/champ

Kesan video Champ pada potret dunia sebenar , yang membenarkan potret berbeza untuk "menyalin" tindakan yang sama, mengambil video tindakan dari sudut kiri atas sebagai input.

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Walaupun Champ hanya dilatih dengan video tubuh manusia sebenar, ia telah menunjukkan keupayaan generalisasi yang kuat pada pelbagai jenis imej:

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Foto hitam putih, lukisan minyak, cat air dan kesan lain adalah luar biasa, dan ia berprestasi baik pada pelbagai jenis imej. Imej realistik yang dijana oleh model graf, termasuk aksara maya:

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Tinjauan Teknikal

Champ menggunakan model pemulihan jaringan manusia termaju untuk mengekstrak badan manusia tiga dimensi berparameter yang sepadan daripada input video badan manusia Urutan SMPL model mesh (Model Linear Berbilang Orang Berkulit) seterusnya menjadikan peta kedalaman yang sepadan, peta normal, postur manusia dan peta semantik manusia, yang digunakan sebagai keadaan kawalan gerakan yang sepadan untuk membimbing penjanaan video dan memindahkan tindakan kepada input Pada potret rujukan, ia boleh meningkatkan kualiti video pergerakan manusia dengan ketara, serta ketekalan geometri dan rupa.

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Untuk keadaan pergerakan yang berbeza, Champ menggunakan modul gabungan gerakan berbilang lapisan (MLMF), yang menggunakan mekanisme perhatian kendiri untuk menyepadukan sepenuhnya ciri-ciri antara keadaan berbeza untuk mencapai kawalan gerakan yang lebih halus. Rajah berikut menunjukkan hasil visualisasi perhatian modul ini dalam keadaan yang berbeza: peta kedalaman memfokuskan pada maklumat garis besar geometri bentuk manusia, peta biasa menunjukkan orientasi badan manusia, peta semantik mengawal koresponden penampilan bahagian yang berbeza. badan manusia, dan rangka postur manusia Ia hanya menumpukan pada butiran utama muka dan tangan.

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Sebaliknya, Champ menemui dan menyelesaikan masalah migrasi bentuk badan yang telah diabaikan dalam penjanaan video manusia. Kerja sebelum ini sama ada berdasarkan model rangka manusia atau berdasarkan maklumat geometri lain yang diperoleh daripada video input untuk memacu pergerakan figura manusia Walau bagaimanapun, kaedah ini tidak dapat memisahkan pergerakan daripada bentuk badan manusia, mengakibatkan terhasil keputusan tidak konsisten dengan badan manusia dalam padanan jenis badan.

Sebagai contoh, diberikan orang gemuk besar sebagai imej rujukan, hasil perbandingan ditunjukkan dalam Rajah 7 di bawah:

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Dapat dilihat bahawa dalam hasil yang dihasilkan Animate Anyone dan MagicAnimate, perut besar yang gemuk adalah terlicin, malah Bingkainya juga telah mengecut sedikit. Champ menggunakan parameter bentuk badan dalam SMPL untuk menyelaraskannya dengan jujukan SMPL yang memacu video dalam bentuk badan berparameter, dengan itu mencapai konsistensi terbaik dalam bentuk badan dan aksi (dengan PST dalam gambar).

Hasil eksperimen

Seperti yang ditunjukkan dalam Jadual 4 di bawah, berbanding dengan kerja SOTA yang lain, Champ mempunyai kawalan pergerakan yang lebih baik dan lebih sedikit artifak:

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

🎜

Pada masa yang sama, Champ juga menunjukkan prestasi generalisasi yang unggul dan kestabilan dalam padanan penampilan:

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Dalam set data Tarian TikTok, Champ menilai kesan kuantifikasi penjanaan imej dan penjanaan video telah menunjukkan peningkatan yang ketara dalam pelbagai petunjuk penilaian, seperti ditunjukkan dalam Jadual 1 di bawah.

Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan

Untuk butiran lanjut teknikal dan hasil percubaan, sila rujuk kertas dan kod asal Champ Anda juga boleh pergi ke HuggingFace atau memuat turun kod sumber rasmi untuk pengalaman langsung.

Atas ialah kandungan terperinci Champ ialah sumber terbuka pertama: video badan manusia menjana SOTA baharu, memperoleh 1k bintang dalam masa 5 hari dan demo boleh dimainkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!