Heim Technologie-Peripheriegeräte KI MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

Jul 18, 2024 pm 05:06 PM
产业

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Übermittlungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Klonen Sie die Bewegung des Referenzvideos in der durch das Eingabeaufforderungswort angegebenen neuen Szene, unabhängig davon, ob es sich um eine globale Kamerabewegung handelt oder lokale Körperbewegung, um es zu erledigen. MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

  • Papier: https://arxiv.org/abs/2406.05338

  • Homepage: https://bujiazi.github.io/motionclone.github.io/

  • Code: https:// github.com/Bujiazi/MotionClone

In diesem Artikel wird ein neues Framework namens MotionClone vorgeschlagen, mit dem die entsprechenden Bewegungsinformationen ohne Modelltraining oder Feinabstimmung extrahiert werden können Videos zusammen mit Textansagen, um textgenerierte Videos mit individueller Bewegung zu erstellen (text2video).

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

Im Vergleich zu früheren Untersuchungen bietet MotionClone die folgenden Vorteile:

  • Keine Schulung oder Feinabstimmung erforderlich: Frühere Methoden erfordern normalerweise Trainingsmodelle zum Kodieren von Bewegungshinweisen oder Feinabstimmung von Videodiffusionsmodellen, um sie an bestimmte Bewegungsmuster anzupassen . Trainingsmodelle zum Kodieren von Bewegungshinweisen verfügen über eine schlechte Generalisierungsfähigkeit auf Bewegungen außerhalb des Trainingsbereichs, und die Feinabstimmung vorhandener Videogenerierungsmodelle kann die zugrunde liegende Videogenerierungsqualität des Basismodells beeinträchtigen. MotionClone erfordert keine zusätzliche Schulung oder Feinabstimmung, wodurch die Bewegungsgeneralisierungsfähigkeiten verbessert werden und gleichzeitig die Generierungsqualität des Basismodells weitestgehend erhalten bleibt.

  • Höhere Bewegungsqualität: Für bestehende Open-Source-Videomodelle von Wensheng ist es schwierig, große und vernünftige Bewegungen zu erzeugen. MotionClone führt eine Hauptkomponenten-Timing-Aufmerksamkeitsbewegungsführung ein, um die Bewegungsamplitude des generierten Videos erheblich zu verbessern und gleichzeitig die Rationalität sicherzustellen.

  • Bessere räumliche Positionsbeziehung: Um die räumliche semantische Diskrepanz zu vermeiden, die durch direktes Bewegungsklonen verursacht werden kann, schlägt MotionClone eine räumliche semantische Informationsführung auf der Grundlage von Kreuzaufmerksamkeitsmasken vor, um die korrekten räumlichen semantischen Informationen und räumlich-zeitlichen Bewegungsinformationen zu unterstützen . Kopplung.

Bewegungsinformationen im zeitlichen Aufmerksamkeitsmodul

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

In textgenerierten Videoarbeiten wird das zeitliche Aufmerksamkeitsmodul (Temporal Attention) häufig zur Modellierung der Inter-Frame-Korrelation von Videos verwendet. Da die Aufmerksamkeitsbewertung (Aufmerksamkeitskartenbewertung) im zeitlichen Aufmerksamkeitsmodul die Korrelation zwischen Frames charakterisiert, besteht eine intuitive Idee darin, ob die Verbindungen zwischen Frames repliziert werden können, indem die Aufmerksamkeitsbewertungen so eingeschränkt werden, dass sie vollständig konsistent sind, um Bewegungsklonen zu erreichen.

Experimente haben jedoch ergeben, dass durch direktes Kopieren der gesamten Aufmerksamkeitskarte (einfache Steuerung) nur eine sehr grobe Bewegungsübertragung erreicht werden kann. Dies liegt daran, dass die meisten Gewichte in der Aufmerksamkeit Rauschen oder sehr subtilen Bewegungsinformationen entsprechen, die schwer zu kombinieren sind Dies bei textlich vorgegebenen neuen Szenarien trübt hingegen eine potenziell wirksame Bewegungsführung.

Um dieses Problem zu lösen, führt MotionClone den Hauptkomponenten-Mechanismus zur zeitlichen Aufmerksamkeitsführung (primäre zeitliche Aufmerksamkeitsführung) ein, der nur die Hauptkomponenten der zeitlichen Aufmerksamkeit verwendet, um die Videogenerierung spärlich zu steuern und dadurch Rauschen und subtile Bewegungen zu filtern Die Auswirkung der Informationen ermöglicht ein effektives Klonen der Bewegung in neuen, im Text spezifizierten Szenarien.

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

Räumliche semantische Korrektur

Die Hauptkomponente der zeitlichen Aufmerksamkeitsbewegungsführung kann das Bewegungsklonen des Referenzvideos erreichen, aber nicht sicherstellen, dass das sich bewegende Motiv mit der Absicht des Benutzers übereinstimmt, was die Qualität der Videogenerierung verringert In manchen Fällen kann es sogar zu einer Verschiebung des sich bewegenden Motivs kommen.

Um die oben genannten Probleme zu lösen, führt MotionClone einen räumlichen semantischen Führungsmechanismus (standortbezogene semantische Führung) ein, unterteilt die vorderen und hinteren Hintergrundbereiche des Videos durch eine Cross Attention Mask und gewährleistet dies durch entsprechende Einschränkung der semantischen Informationen des vorderen und hinteren Hintergrunds des Videos. Die rationale Anordnung der räumlichen Semantik fördert die korrekte Kopplung von zeitlicher Bewegung und räumlicher Semantik.

MotionClone-Implementierungsdetails

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

  1. DDIM-Inversion: MotionClone verwendet die DDIM-Inversion, um das eingegebene Referenzvideo in den latenten Raum umzukehren, um die Extraktion der Hauptkomponente der zeitlichen Aufmerksamkeit aus dem Referenzvideo zu implementieren.

  2. Führungsphase: Während jeder Rauschunterdrückung führt MotionClone gleichzeitig die Hauptkomponente der zeitlichen Aufmerksamkeitsbewegungsführung und die räumliche semantische Informationsführung ein, die zusammenwirken, um eine umfassende Bewegungs- und semantische Führung für die steuerbare Videoerzeugung bereitzustellen.

  3. Gaußsche Maske: Im räumlichen semantischen Führungsmechanismus wird die Gaußsche Kernelfunktion verwendet, um die Kreuzaufmerksamkeitsmaske zu verwischen und den Einfluss potenzieller Strukturinformationen zu eliminieren.

30 Videos aus dem DAVIS-Datensatz wurden zum Testen verwendet. Experimentelle Ergebnisse zeigen, dass MotionClone erhebliche Verbesserungen bei der Textanpassung, der Zeitkonsistenz und den Indikatoren für mehrere Benutzerumfragen erzielt hat und damit frühere Bewegungsübertragungsmethoden übertrifft. Die spezifischen Ergebnisse sind in der folgenden Tabelle aufgeführt.

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

Der Vergleich der Generierungsergebnisse von MotionClone und vorhandenen Bewegungsmigrationsmethoden ist in der folgenden Abbildung dargestellt. Es ist ersichtlich, dass MotionClone eine führende Leistung aufweist.

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

Zusammenfassend lässt sich sagen, dass MotionClone ein neues Bewegungsübertragungs-Framework ist, das Bewegungen in einem Referenzvideo ohne Schulung oder Feinabstimmung effektiv in eine neue Szene klonen kann, die durch ein vom Benutzer eingegebenes Eingabewort angegeben wird Bewegungsanpassungslösungen für bestehende Vincent-Videomodelle.

MotionClone führt eine effiziente Hauptkomponenten-Bewegungsinformationsführung und räumliche semantische Führung auf der Grundlage der Beibehaltung der Generierungsqualität des vorhandenen Basismodells ein, wodurch die Bewegungskonsistenz mit dem Referenzvideo erheblich verbessert und gleichzeitig die semantische Ausrichtungsfähigkeit mit dem Text sichergestellt wird Erzielen Sie eine qualitativ hochwertige und kontrollierbare Videogenerierung.

Darüber hinaus kann sich MotionClone direkt an umfangreiche Community-Modelle anpassen, um eine vielfältige Videogenerierung zu erreichen, und verfügt über eine extrem hohe Skalierbarkeit.

Das obige ist der detaillierte Inhalt vonMotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Sep 02, 2024 pm 01:56 PM

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Aug 21, 2024 pm 07:33 PM

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Aug 22, 2024 pm 10:35 PM

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Sep 03, 2024 pm 05:18 PM

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award

Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht

Das erste große UI-Modell in China wird veröffentlicht! Das große Modell von Motiff ist der beste Assistent für Designer und optimiert den UI-Design-Workflow Das erste große UI-Modell in China wird veröffentlicht! Das große Modell von Motiff ist der beste Assistent für Designer und optimiert den UI-Design-Workflow Aug 19, 2024 pm 04:48 PM

Das erste große UI-Modell in China wird veröffentlicht! Das große Modell von Motiff ist der beste Assistent für Designer und optimiert den UI-Design-Workflow

See all articles