Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Übermittlungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Klonen Sie die Bewegung des Referenzvideos in der durch das Eingabeaufforderungswort angegebenen neuen Szene, unabhängig davon, ob es sich um eine globale Kamerabewegung handelt oder lokale Körperbewegung, um es zu erledigen.
Papier: https://arxiv.org/abs/2406.05338
Homepage: https://bujiazi.github.io/motionclone.github.io/
Code: https:// github.com/Bujiazi/MotionClone
In diesem Artikel wird ein neues Framework namens MotionClone vorgeschlagen, mit dem die entsprechenden Bewegungsinformationen ohne Modelltraining oder Feinabstimmung extrahiert werden können Videos zusammen mit Textansagen, um textgenerierte Videos mit individueller Bewegung zu erstellen (text2video).
Im Vergleich zu früheren Untersuchungen bietet MotionClone die folgenden Vorteile:
Keine Schulung oder Feinabstimmung erforderlich: Frühere Methoden erfordern normalerweise Trainingsmodelle zum Kodieren von Bewegungshinweisen oder Feinabstimmung von Videodiffusionsmodellen, um sie an bestimmte Bewegungsmuster anzupassen . Trainingsmodelle zum Kodieren von Bewegungshinweisen verfügen über eine schlechte Generalisierungsfähigkeit auf Bewegungen außerhalb des Trainingsbereichs, und die Feinabstimmung vorhandener Videogenerierungsmodelle kann die zugrunde liegende Videogenerierungsqualität des Basismodells beeinträchtigen. MotionClone erfordert keine zusätzliche Schulung oder Feinabstimmung, wodurch die Bewegungsgeneralisierungsfähigkeiten verbessert werden und gleichzeitig die Generierungsqualität des Basismodells weitestgehend erhalten bleibt.
Höhere Bewegungsqualität: Für bestehende Open-Source-Videomodelle von Wensheng ist es schwierig, große und vernünftige Bewegungen zu erzeugen. MotionClone führt eine Hauptkomponenten-Timing-Aufmerksamkeitsbewegungsführung ein, um die Bewegungsamplitude des generierten Videos erheblich zu verbessern und gleichzeitig die Rationalität sicherzustellen.
Bessere räumliche Positionsbeziehung: Um die räumliche semantische Diskrepanz zu vermeiden, die durch direktes Bewegungsklonen verursacht werden kann, schlägt MotionClone eine räumliche semantische Informationsführung auf der Grundlage von Kreuzaufmerksamkeitsmasken vor, um die korrekten räumlichen semantischen Informationen und räumlich-zeitlichen Bewegungsinformationen zu unterstützen . Kopplung.
Bewegungsinformationen im zeitlichen Aufmerksamkeitsmodul
In textgenerierten Videoarbeiten wird das zeitliche Aufmerksamkeitsmodul (Temporal Attention) häufig zur Modellierung der Inter-Frame-Korrelation von Videos verwendet. Da die Aufmerksamkeitsbewertung (Aufmerksamkeitskartenbewertung) im zeitlichen Aufmerksamkeitsmodul die Korrelation zwischen Frames charakterisiert, besteht eine intuitive Idee darin, ob die Verbindungen zwischen Frames repliziert werden können, indem die Aufmerksamkeitsbewertungen so eingeschränkt werden, dass sie vollständig konsistent sind, um Bewegungsklonen zu erreichen.
Experimente haben jedoch ergeben, dass durch direktes Kopieren der gesamten Aufmerksamkeitskarte (einfache Steuerung) nur eine sehr grobe Bewegungsübertragung erreicht werden kann. Dies liegt daran, dass die meisten Gewichte in der Aufmerksamkeit Rauschen oder sehr subtilen Bewegungsinformationen entsprechen, die schwer zu kombinieren sind Dies bei textlich vorgegebenen neuen Szenarien trübt hingegen eine potenziell wirksame Bewegungsführung.
Um dieses Problem zu lösen, führt MotionClone den Hauptkomponenten-Mechanismus zur zeitlichen Aufmerksamkeitsführung (primäre zeitliche Aufmerksamkeitsführung) ein, der nur die Hauptkomponenten der zeitlichen Aufmerksamkeit verwendet, um die Videogenerierung spärlich zu steuern und dadurch Rauschen und subtile Bewegungen zu filtern Die Auswirkung der Informationen ermöglicht ein effektives Klonen der Bewegung in neuen, im Text spezifizierten Szenarien.
Räumliche semantische Korrektur
Die Hauptkomponente der zeitlichen Aufmerksamkeitsbewegungsführung kann das Bewegungsklonen des Referenzvideos erreichen, aber nicht sicherstellen, dass das sich bewegende Motiv mit der Absicht des Benutzers übereinstimmt, was die Qualität der Videogenerierung verringert In manchen Fällen kann es sogar zu einer Verschiebung des sich bewegenden Motivs kommen.
Um die oben genannten Probleme zu lösen, führt MotionClone einen räumlichen semantischen Führungsmechanismus (standortbezogene semantische Führung) ein, unterteilt die vorderen und hinteren Hintergrundbereiche des Videos durch eine Cross Attention Mask und gewährleistet dies durch entsprechende Einschränkung der semantischen Informationen des vorderen und hinteren Hintergrunds des Videos. Die rationale Anordnung der räumlichen Semantik fördert die korrekte Kopplung von zeitlicher Bewegung und räumlicher Semantik.
MotionClone-Implementierungsdetails
DDIM-Inversion: MotionClone verwendet die DDIM-Inversion, um das eingegebene Referenzvideo in den latenten Raum umzukehren, um die Extraktion der Hauptkomponente der zeitlichen Aufmerksamkeit aus dem Referenzvideo zu implementieren.
Führungsphase: Während jeder Rauschunterdrückung führt MotionClone gleichzeitig die Hauptkomponente der zeitlichen Aufmerksamkeitsbewegungsführung und die räumliche semantische Informationsführung ein, die zusammenwirken, um eine umfassende Bewegungs- und semantische Führung für die steuerbare Videoerzeugung bereitzustellen.
Gaußsche Maske: Im räumlichen semantischen Führungsmechanismus wird die Gaußsche Kernelfunktion verwendet, um die Kreuzaufmerksamkeitsmaske zu verwischen und den Einfluss potenzieller Strukturinformationen zu eliminieren.
30 Videos aus dem DAVIS-Datensatz wurden zum Testen verwendet. Experimentelle Ergebnisse zeigen, dass MotionClone erhebliche Verbesserungen bei der Textanpassung, der Zeitkonsistenz und den Indikatoren für mehrere Benutzerumfragen erzielt hat und damit frühere Bewegungsübertragungsmethoden übertrifft. Die spezifischen Ergebnisse sind in der folgenden Tabelle aufgeführt.
Der Vergleich der Generierungsergebnisse von MotionClone und vorhandenen Bewegungsmigrationsmethoden ist in der folgenden Abbildung dargestellt. Es ist ersichtlich, dass MotionClone eine führende Leistung aufweist.
Zusammenfassend lässt sich sagen, dass MotionClone ein neues Bewegungsübertragungs-Framework ist, das Bewegungen in einem Referenzvideo ohne Schulung oder Feinabstimmung effektiv in eine neue Szene klonen kann, die durch ein vom Benutzer eingegebenes Eingabewort angegeben wird Bewegungsanpassungslösungen für bestehende Vincent-Videomodelle.
MotionClone führt eine effiziente Hauptkomponenten-Bewegungsinformationsführung und räumliche semantische Führung auf der Grundlage der Beibehaltung der Generierungsqualität des vorhandenen Basismodells ein, wodurch die Bewegungskonsistenz mit dem Referenzvideo erheblich verbessert und gleichzeitig die semantische Ausrichtungsfähigkeit mit dem Text sichergestellt wird Erzielen Sie eine qualitativ hochwertige und kontrollierbare Videogenerierung.
Darüber hinaus kann sich MotionClone direkt an umfangreiche Community-Modelle anpassen, um eine vielfältige Videogenerierung zu erreichen, und verfügt über eine extrem hohe Skalierbarkeit.
Das obige ist der detaillierte Inhalt vonMotionClone: Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!