Rumah Peranti teknologi AI MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Jul 18, 2024 pm 05:06 PM
industri

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Tiada latihan atau penalaan halus diperlukan atau pergerakan badan tempatan dengan satu klik untuk menyelesaikannya. MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

  • Kertas: https://arxiv.org/abs/2406.05338

  • Laman utama: https://bujiazi.github.io/motionclone.github.io/

  • github.com/Bujiazi/MotionClone

Artikel ini mencadangkan rangka kerja baharu yang dipanggil MotionClone Memandangkan sebarang video rujukan, maklumat gerakan yang sepadan boleh diekstrak tanpa latihan model atau maklumat gerakan ini secara langsung boleh membimbing penjanaan baharu video bersama dengan gesaan teks untuk mencapai video yang dihasilkan teks dengan gerakan tersuai (text2video).

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Berbanding dengan penyelidikan terdahulu, MotionClone mempunyai kelebihan berikut:
  • Tiada latihan atau penalaan halus diperlukan: Kaedah sebelumnya biasanya memerlukan model latihan untuk mengekod isyarat gerakan atau model resapan video penalaan halus agar sesuai dengan corak gerakan tertentu . Model latihan untuk mengekod isyarat gerakan mempunyai keupayaan generalisasi yang lemah untuk bergerak di luar domain latihan, dan memperhalusi model penjanaan video sedia ada boleh merosakkan kualiti penjanaan video asas model asas. MotionClone tidak memerlukan pengenalan sebarang latihan tambahan atau penalaan halus, meningkatkan keupayaan generalisasi gerakan sambil mengekalkan kualiti penjanaan model asas ke tahap yang terbaik.
  • Kualiti gerakan yang lebih tinggi: Sukar untuk model video Wensheng sumber terbuka sedia ada untuk menjana pergerakan yang besar dan munasabah memperkenalkan panduan gerakan perhatian pemasaan komponen utama untuk meningkatkan amplitud gerakan video yang dijana dengan berkesan sambil memastikan pergerakan yang rasional.
  • Hubungan kedudukan spatial yang lebih baik: Untuk mengelakkan ketidakpadanan semantik spatial yang mungkin disebabkan oleh pengklonan gerakan langsung, MotionClone mencadangkan panduan maklumat semantik spatial berdasarkan topeng perhatian silang untuk membantu dalam maklumat semantik spatial dan maklumat spatiotemporal yang betul gandingan.

Maklumat gerakan dalam modul perhatian temporal

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Dalam kerja video janaan teks, modul perhatian temporal (Perhatian Temporal) digunakan secara meluas untuk memodelkan korelasi antara bingkai video. Memandangkan skor perhatian (skor peta perhatian) dalam modul perhatian temporal mencirikan korelasi antara bingkai, idea intuitif ialah sama ada sambungan antara bingkai boleh direplikasi dengan mengekang skor perhatian supaya konsisten sepenuhnya untuk mencapai pengklonan gerakan.

Walau bagaimanapun, eksperimen mendapati bahawa menyalin terus peta perhatian yang lengkap (kawalan biasa) hanya boleh mencapai pemindahan gerakan yang sangat kasar Ini kerana kebanyakan pemberat dalam perhatian sepadan dengan bunyi atau maklumat gerakan yang sangat halus, yang sukar untuk Digabungkan. ini dengan senario baharu yang ditentukan teks, sebaliknya, mengaburkan panduan pergerakan yang berpotensi berkesan.

Untuk menyelesaikan masalah ini, MotionClone memperkenalkan mekanisme panduan perhatian temporal komponen utama (Panduan perhatian temporal utama), yang hanya menggunakan komponen utama dalam perhatian temporal untuk membimbing penjanaan video secara jarang, dengan itu menapis bunyi dan pergerakan halus. kesan maklumat membolehkan pengklonan gerakan yang berkesan dalam senario baharu yang ditentukan oleh teks.

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Pembetulan semantik spatial

Panduan gerakan perhatian temporal komponen utama boleh mencapai pengklonan gerakan video rujukan, tetapi ia tidak dapat memastikan subjek yang bergerak konsisten dengan niat pengguna, yang akan mengurangkan kualiti penjanaan video . Dalam sesetengah kes, ia mungkin menyebabkan terkehel subjek yang bergerak.

Untuk menyelesaikan masalah di atas, MotionClone memperkenalkan mekanisme bimbingan semantik spatial (panduan semantik sedar lokasi), membahagikan kawasan latar belakang depan dan belakang video melalui Topeng Perhatian Silang, dan menjaminnya dengan mengekang maklumat semantik masing-masing daripada latar belakang hadapan dan belakang video Susun atur rasional semantik spatial menggalakkan gandingan gerakan temporal dan semantik spatial yang betul.

Butiran pelaksanaan MotionClone

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

🎜
  1. DDIM Inversion: MotionClone menggunakan DDIM Inversion untuk menyongsangkan video rujukan input ke dalam ruang terpendam untuk melaksanakan pengekstrakan komponen utama perhatian sementara bagi video rujukan.

  2. Peringkat bimbingan: Semasa setiap denoising, MotionClone pada masa yang sama memperkenalkan panduan gerakan perhatian temporal komponen utama dan panduan maklumat semantik spatial, yang bekerjasama untuk menyediakan gerakan komprehensif dan panduan semantik untuk penjanaan video yang boleh dikawal.

  3. Topeng Gaussian: Dalam mekanisme bimbingan semantik spatial, fungsi kernel Gaussian digunakan untuk mengaburkan topeng perhatian silang untuk menghapuskan pengaruh maklumat struktur yang berpotensi.

30 video daripada set data DAVIS telah digunakan untuk ujian. Keputusan eksperimen menunjukkan bahawa MotionClone telah mencapai peningkatan yang ketara dalam kesesuaian teks, ketekalan masa dan penunjuk tinjauan pengguna berbilang, mengatasi kaedah pemindahan gerakan sebelumnya. Keputusan khusus ditunjukkan dalam jadual di bawah.

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Perbandingan hasil penjanaan MotionClone dan kaedah migrasi gerakan sedia ada ditunjukkan dalam rajah di bawah. Dapat dilihat bahawa MotionClone mempunyai prestasi yang terkemuka.

MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video

Ringkasnya, MotionClone ialah rangka kerja pemindahan gerakan baharu yang boleh mengklon gerakan secara berkesan dalam video rujukan kepada adegan baharu yang ditentukan oleh kata gesaan yang diberikan pengguna tanpa latihan atau penalaan halus penyelesaian penyesuaian gerakan untuk model video Vincent sedia ada.

MotionClone memperkenalkan panduan maklumat gerakan komponen utama yang cekap dan panduan semantik spatial atas dasar mengekalkan kualiti penjanaan model asas sedia ada, yang meningkatkan konsistensi gerakan dengan video rujukan dengan ketara sambil memastikan keupayaan penjajaran semantik dengan teks mencapai penjanaan video berkualiti tinggi dan boleh dikawal.

Selain itu, MotionClone boleh menyesuaikan secara langsung kepada model komuniti yang kaya untuk mencapai penjanaan video yang pelbagai, dan mempunyai kebolehskalaan yang sangat tinggi.

Atas ialah kandungan terperinci MotionClone: ​​​​Tiada latihan diperlukan, pengklonan satu klik pergerakan video. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Aug 19, 2024 pm 04:48 PM

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI

See all articles