MotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
グローバル カメラの動きであっても、プロンプト ワードで指定された新しいシーンでリファレンス ビデオの動きを複製する必要はありません。またはローカルの身体の動きをクリックするだけで完了します。
論文: https://arxiv.org/abs/2406.05338
ホームページ: https://bujiazi.github.io/motionclone.github.io/
コード: https:// github.com/Bijiazi/MotionClone
この記事では、MotionClone と呼ばれる新しいフレームワークを提案します。モデルのトレーニングや微調整を行わずに、対応するモーション情報を抽出して、新しいモーション情報を直接生成できます。ビデオをテキスト プロンプトと組み合わせて、カスタマイズされたモーションを備えたテキスト生成ビデオ (text2video) を実現します。
以前の研究と比較して、MotionClone には次の利点があります:
トレーニングや微調整が不要: 以前の方法では通常、モーション キューをエンコードするためのトレーニング モデル、または特定のモーション パターンに合わせてビデオ拡散モデルを微調整する必要がありました。 。モーション キューをエンコードするトレーニング モデルは、トレーニング ドメイン外のモーションに対する汎化能力が低く、既存のビデオ生成モデルを微調整すると、ベース モデルの基礎となるビデオ生成の品質が損なわれる可能性があります。 MotionClone では追加のトレーニングや微調整を導入する必要がなく、ベース モデルの生成品質を最大限に維持しながらモーションの汎化機能が向上します。
モーション品質の向上: 既存のオープンソース Wensheng ビデオ モデルでは、大きくて合理的な動きを生成することが困難です。MotionClone は、モーションの合理性を効果的に確保しながら、生成されたビデオのモーション振幅を大幅に強化するために、主成分タイミング アテンション モーション ガイダンスを導入します。
空間的位置関係の改善: 直接モーションのクローン作成によって引き起こされる可能性のある空間的意味の不一致を回避するために、MotionClone は、正しい空間的意味情報と時空間的動き情報を支援するクロスアテンション マスクに基づく空間的意味情報ガイダンスを提案します。 .カップリング。
時間的注意モジュールのモーション情報
テキスト生成されたビデオ作品では、時間的注意モジュール (Temporal Attendance) は、ビデオのフレーム間相関をモデル化するために広く使用されています。時間的アテンション モジュールのアテンション スコア (アテンション マップ スコア) はフレーム間の相関関係を特徴付けるため、直感的なアイデアは、アテンション スコアを完全に一致するように制約することでフレーム間の接続を複製して、モーション クローンを実現できるかどうかです。
しかし、実験により、完全なアテンション マップ (プレーン コントロール) を直接コピーすると、非常に大まかなモーション転送しか実現できないことがわかりました。これは、アテンションの重みのほとんどがノイズまたは非常に微妙なモーション情報に対応しており、組み合わせるのが難しいためです。一方、テキストで指定された新しいシナリオでは、潜在的に効果的な動作のガイダンスが曖昧になります。
この問題を解決するために、MotionClone は主成分の時間的注意ガイダンス メカニズム (一次時間的注意ガイダンス) を導入しています。これは、時間的注意の主要コンポーネントのみを使用してビデオ生成をまばらにガイドし、それによってノイズと微妙な動きをフィルタリングします。情報の影響により、テキストで指定された新しいシナリオでモーションの効果的な複製が可能になります。
空間意味補正
主成分時間的注意モーションガイダンスは参照ビデオのモーションクローンを実現できますが、動く被写体がユーザーの意図と一致していることを保証できず、ビデオ生成の品質が低下します場合によっては、移動する被写体の脱臼につながる可能性もあります。
上記の問題を解決するために、MotionClone は空間セマンティック ガイダンス メカニズム (位置認識セマンティック ガイダンス) を導入し、クロス アテンション マスクを通じてビデオの前後の背景領域を分割し、それぞれセマンティック情報を制約することでこれを保証します。空間セマンティクスの合理的なレイアウトにより、時間的な動きと空間セマンティクスの正しい結合が促進されます。
MotionClone実装の詳細
DDIM反転: MotionCloneはDDIM反転を使用して入力リファレンスビデオを潜在空間に反転し、リファレンスビデオの時間的注意主成分抽出を実装します。
ガイダンスステージ: 各ノイズ除去中に、MotionClone は主成分の時間的注意モーション ガイダンスと空間的セマンティック情報ガイダンスを同時に導入します。これらは連携して、制御可能なビデオ生成のための包括的なモーションとセマンティック ガイダンスを提供します。
ガウス マスク: 空間セマンティック ガイダンス メカニズムでは、ガウス カーネル関数を使用してクロスアテンション マスクをぼかし、潜在的な構造情報の影響を排除します。
DAVIS データセットからの 30 個のビデオがテストに使用されました。実験結果は、MotionClone が以前のモーション転送方法を超えて、テキストの適合性、タイミングの一貫性、および複数のユーザー調査指標において大幅な改善を達成したことを示しています。具体的な結果を以下の表に示します。
MotionClone と既存のモーション マイグレーション手法の生成結果を比較すると、MotionClone が優れたパフォーマンスを発揮していることがわかります。
要約すると、MotionClone は、トレーニングや微調整を行わずに、リファレンス ビデオ内のモーションを、ユーザーが指定したプロンプト ワードで指定された新しいシーンに効果的に複製できる、新しいモーション転送フレームワークです。既存の Vincent ビデオ モデルのモーション カスタマイズ ソリューション。
MotionClone は、既存のベース モデルの生成品質を維持することに基づいて、効率的な主成分モーション情報ガイダンスと空間セマンティック ガイダンスを導入します。これにより、テキストとのセマンティック アラインメント機能を確保しながら、リファレンス ビデオとのモーションの一貫性が大幅に向上します。高品質で制御可能なビデオ生成を実現します。
さらに、MotionClone は豊富なコミュニティ モデルに直接適応して多様なビデオ生成を実現でき、非常に高い拡張性を備えています。
以上がMotionClone: トレーニングは不要で、ワンクリックでビデオの動きのクローンを作成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました

クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう

初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました

中国初の大型UIモデル登場! Motiff の大規模モデルはデザイナーにとって最適なアシスタントを作成し、UI デザインのワークフローを最適化します
