アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!

WBOY
リリース: 2023-12-15 12:39:16
転載
992 人が閲覧しました

「Dance Whole Job」という別のアリババの論文は、AnimateAnyone の後にセンセーションを巻き起こしました。

さあ、顔の写真をアップロードし、簡単な文で説明するだけです。どこにいても大丈夫です。踊りましょう!

たとえば、以下の「Cleaning the Glass」のダンスビデオ:

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!写真

あなたがする必要があるのは、画像をアップロードすることだけです。ポートレート写真を入力し、対応するプロンプト情報を入力してください。

秋の黄金色の紅葉の中で、女の子は水色のドレスを着て笑顔で踊っています

プロンプトが変化すると、背景と服装が変わります。それに応じてキャラクターも変化します。たとえば、さらにいくつかの文を変更できます:

A 女の子は木造の家で微笑んで踊っています。彼女はセーターとズボンを着ています

A 女の子はタイムズ スクエアで微笑んで踊っています。 , ドレス風の白いシャツ、長袖、長ズボンを着ています。

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!写真

これは Ali の最新研究、DreaMoving です。これは、いつでもどこでも誰もが踊れるようにすることに焦点を当てています。

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!写真

現実の人物だけでなく、漫画やアニメのキャラクターも抱くことができます~

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます! 写真

このプロジェクトは公開されるやいなや、多くのネチズンの注目を集めました。その効果を見て「信じられない」という人もいます~

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます! Picture

では、この結果はどのように達成されたのでしょうか?この研究はどのように行われたのでしょうか?

背後にある原理

Stable Video Diffusion や Gen2 などの Text-to-Video (T2V) モデルの出現により、ビデオ生成の分野では大きな進歩が見られましたが、大きな進歩でした。まだまだ多くの課題があります

たとえば、データセットに関しては、現在、オープンソースのヒューマンダンスビデオデータセットが不足しており、対応する正確なテキスト説明を取得することが困難であるため、モデルの生成が困難になっています。多様なセクシュアリティ、フレームの一貫性、長いビデオが課題となっています

そして、人間中心のコンテンツ生成の分野では、生成された結果のパーソナライゼーションと制御性も重要な要素です。

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!写真

これら 2 つの課題に対処するために、アリババ チームはまずデータセットの処理を開始しました

研究者が最初にインターネットから収集した約1000の高品質のヒューマンダンスビデオ。次に、これらのビデオを約 6,000 の短いビデオ (それぞれ 8 ~ 10 秒) に切り分けて、ビデオ クリップにトランジションや特殊効果がないことを確認します。これは時間モデルのトレーニングに役立ちます。さらに、ビデオのテキスト説明を生成するために、ビデオ キャプション (ビデオ キャプション) として Minigpt-v2 を使用し、具体的には「グラウンディング」バージョンを使用し、フレームを詳細に記述する指示を出しました。

キーフレームの中心フレームに基づいて字幕を生成することで、ビデオクリップのテーマと背景コンテンツを正確に記述することができます。

フレームワークの観点から、Alibaba チームは DreaMoving ベースと呼ばれるツールを提案しました安定拡散モデルについて。

主に、Denoising U-Net (Denoising U-Net)、Video Control Network (Video ControlNet)、Content Guider (コンテンツ ガイダー) の 3 つのニューラル ネットワークで構成されています。 ############写真######

このうち、Video ControlNet は、各 U-Net ブロックの後にモーション ブロックに挿入される画像制御ネットワークであり、制御シーケンス (ポーズまたは深さ) を処理して追加の時間残差を生成します

U-Net のノイズ除去は、ビデオ生成用のモーション ブロックを備えた派生 Stable-Diffusion U-Net。

コンテンツ ガイダーは、入力テキスト プロンプトと外観表現 (顔など) をコンテンツの埋め込みに送信します。

このような操作により、DreaMoving は、ガイダンス シーケンスと簡単なコンテンツ説明 (テキストや参考画像など) を入力すると、高品質で忠実度の高いビデオを生成できます。

アリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!写真

しかし、残念ながら、現在、DreaMoving プロジェクトのオープン ソース コードはありません。

これに興味がある方は、まず注目してオープンソース コードのリリースを待ってください~

次のリンクを参照してください: [1]https:// dreamoving.github.io/dreamoving /[2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving /dreamoving-project

以上がアリが再び革新:「Cleaning the Glass」のダンスを文章と人間の顔で実現し、衣装と背景を自由に切り替えることができます!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート