Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Tiada latihan atau penalaan halus diperlukan atau pergerakan badan tempatan dengan satu klik untuk menyelesaikannya.
Kertas: https://arxiv.org/abs/2406.05338
Laman utama: https://bujiazi.github.io/motionclone.github.io/
Maklumat gerakan dalam modul perhatian temporal
Dalam kerja video janaan teks, modul perhatian temporal (Perhatian Temporal) digunakan secara meluas untuk memodelkan korelasi antara bingkai video. Memandangkan skor perhatian (skor peta perhatian) dalam modul perhatian temporal mencirikan korelasi antara bingkai, idea intuitif ialah sama ada sambungan antara bingkai boleh direplikasi dengan mengekang skor perhatian supaya konsisten sepenuhnya untuk mencapai pengklonan gerakan. Walau bagaimanapun, eksperimen mendapati bahawa menyalin terus peta perhatian yang lengkap (kawalan biasa) hanya boleh mencapai pemindahan gerakan yang sangat kasar Ini kerana kebanyakan pemberat dalam perhatian sepadan dengan bunyi atau maklumat gerakan yang sangat halus, yang sukar untuk Digabungkan. ini dengan senario baharu yang ditentukan teks, sebaliknya, mengaburkan panduan pergerakan yang berpotensi berkesan. Untuk menyelesaikan masalah ini, MotionClone memperkenalkan mekanisme panduan perhatian temporal komponen utama (Panduan perhatian temporal utama), yang hanya menggunakan komponen utama dalam perhatian temporal untuk membimbing penjanaan video secara jarang, dengan itu menapis bunyi dan pergerakan halus. kesan maklumat membolehkan pengklonan gerakan yang berkesan dalam senario baharu yang ditentukan oleh teks.Pembetulan semantik spatial
Panduan gerakan perhatian temporal komponen utama boleh mencapai pengklonan gerakan video rujukan, tetapi ia tidak dapat memastikan subjek yang bergerak konsisten dengan niat pengguna, yang akan mengurangkan kualiti penjanaan video . Dalam sesetengah kes, ia mungkin menyebabkan terkehel subjek yang bergerak. Untuk menyelesaikan masalah di atas, MotionClone memperkenalkan mekanisme bimbingan semantik spatial (panduan semantik sedar lokasi), membahagikan kawasan latar belakang depan dan belakang video melalui Topeng Perhatian Silang, dan menjaminnya dengan mengekang maklumat semantik masing-masing daripada latar belakang hadapan dan belakang video Susun atur rasional semantik spatial menggalakkan gandingan gerakan temporal dan semantik spatial yang betul.Butiran pelaksanaan MotionClone
🎜DDIM Inversion: MotionClone menggunakan DDIM Inversion untuk menyongsangkan video rujukan input ke dalam ruang terpendam untuk melaksanakan pengekstrakan komponen utama perhatian sementara bagi video rujukan.
Peringkat bimbingan: Semasa setiap denoising, MotionClone pada masa yang sama memperkenalkan panduan gerakan perhatian temporal komponen utama dan panduan maklumat semantik spatial, yang bekerjasama untuk menyediakan gerakan komprehensif dan panduan semantik untuk penjanaan video yang boleh dikawal.
Topeng Gaussian: Dalam mekanisme bimbingan semantik spatial, fungsi kernel Gaussian digunakan untuk mengaburkan topeng perhatian silang untuk menghapuskan pengaruh maklumat struktur yang berpotensi.
30 video daripada set data DAVIS telah digunakan untuk ujian. Keputusan eksperimen menunjukkan bahawa MotionClone telah mencapai peningkatan yang ketara dalam kesesuaian teks, ketekalan masa dan penunjuk tinjauan pengguna berbilang, mengatasi kaedah pemindahan gerakan sebelumnya. Keputusan khusus ditunjukkan dalam jadual di bawah.
Perbandingan hasil penjanaan MotionClone dan kaedah migrasi gerakan sedia ada ditunjukkan dalam rajah di bawah. Dapat dilihat bahawa MotionClone mempunyai prestasi yang terkemuka.
Ringkasnya, MotionClone ialah rangka kerja pemindahan gerakan baharu yang boleh mengklon gerakan secara berkesan dalam video rujukan kepada adegan baharu yang ditentukan oleh kata gesaan yang diberikan pengguna tanpa latihan atau penalaan halus penyelesaian penyesuaian gerakan untuk model video Vincent sedia ada.
MotionClone memperkenalkan panduan maklumat gerakan komponen utama yang cekap dan panduan semantik spatial atas dasar mengekalkan kualiti penjanaan model asas sedia ada, yang meningkatkan konsistensi gerakan dengan video rujukan dengan ketara sambil memastikan keupayaan penjajaran semantik dengan teks mencapai penjanaan video berkualiti tinggi dan boleh dikawal.
Selain itu, MotionClone boleh menyesuaikan secara langsung kepada model komuniti yang kaya untuk mencapai penjanaan video yang pelbagai, dan mempunyai kebolehskalaan yang sangat tinggi.
Atas ialah kandungan terperinci MotionClone: Tiada latihan diperlukan, pengklonan satu klik pergerakan video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!