ビデオ生成における新たなブレークスルー: PixelDance、複雑な動きとクールな特殊効果を簡単に表現
最近、大規模な言語モデルが引き続きニュースの見出しを占め、広く注目されていることに加えて、ビデオ生成技術も大きな進歩を続けており、多くの企業が新しいモデルを続々とリリースしています
まず、Runway は、ビデオ生成の分野を開拓した初期のリーダーの 1 つとして、Gen-2 モデルをアップグレードし、目を引く映画レベルの高解像度を実現しました。同時に、ビデオ生成の一貫性も大幅に向上しました。
# ただし、この一貫性の向上には、ビデオのダイナミクスが犠牲になっているようです。 Gen-2の公式プロモーションビデオを見ると、複数の短いクリップが組み立てられているものの、各クリップのダイナミクスが比較的弱く、キャラクター、動物、オブジェクトの明確なアクションや動きをキャプチャすることが困難であることがわかります。
最近、Meta はビデオ生成モデル Emu Video もリリースしました。 Emu Video の公式例からわかるように、ビデオのダイナミクスは Gen-2 と比較して大幅に改善されていますが、依然として単純なアクションに限定されています。
古典的な Vincent グラフ モデル Stable Diffusion を開発した会社である Stability.ai は、最近、オープンソースのビデオ生成モデル Stable Video Diffusion ( SVD) は、オープンソース コミュニティで多くの注目と議論を集めています。 SVD の効果は Gen-2 と同等ですが、テスト サンプルから、SVD によって生成されたビデオには比較的ダイナミックさが欠けていることがわかります。
#SVD の論文では、SVD によって生成された現在のビデオにはダイナミクスが不十分であると指摘されました。
上記の例は、ビデオ コンテンツが実際に動くように、高い一貫性と豊かなダイナミクスを備えたビデオを 生成することが、ビデオ生成の分野における現在の最大の課題であることを示しています。
この点で、最新の研究結果PixelDance は重要な一歩を踏み出しており、生成された結果のダイナミクスは他の既存のモデルよりも大幅に優れています。業界の注目。
#Twitter の有名な AI ブロガーである @_akhaliq によって転送された PixelDance ニュースは、約 80,000 回の閲覧数を獲得しました
公式 Web サイト (https://makepixelsdance.github.io) で、PixelDance は次のことを提供します。 2 つの異なるビデオ生成モード。
2 つのモードから選択できます。1 つ目は基本モードです。このモードでは、ユーザーはガイド画像とテキストの説明を提供するだけで済み、PixelDance は一貫性の高い動的なビデオを生成できます。誘導画像は実際の写真にすることも、既存のテキスト生成モデルによって生成することもできます。
表示された結果から、実際のスタイル、アニメーション スタイル、2 次元スタイルを PixelDance で生成できます。キャラクターの動き、表情、カメラの視点制御、特殊効果の動きなど、あらゆる魔法のスタイルを処理でき、PixelDance もそれらをうまく完成させることができます。私が言えるのはtqlだけです!
2 つ目は高度なマジック モードで、ユーザーに想像力と創造性を発揮する余地を与えます。このモードでは、ユーザーは 2 つのガイダンス画像とテキストの説明を提供する必要があります。これにより、より難しいビデオ コンテンツをより適切に生成できます。ウェブサイトでは、マジック モードで作成されたさまざまなクールな特殊効果ショットが公開されています。
さらに、公式ウェブサイトでは、すべて PixelDance を使用して制作された 3 分間のショート ストーリー フィルムも公開されています。
非常に衝撃的なのは、PixelDance を使用すると、次のような音楽を作成できるということです。ユーザーが期待するすべてのシーンとそれに対応するアクションを作成するストーリー。現実のシーン (エジプト、万里の長城など) であっても、架空のシーン (異星惑星など) であっても、PixelDance は、豊富なディテールとアクション、さらにはさまざまな特殊効果ショットを備えたビデオを生成できます。
主人公のシロクマさんの黒いシルクハットと赤い蝶ネクタイは、さまざまなシーンでよく映えます。長いビデオを生成するのは、単に無関係な短いビデオ クリップをつなぎ合わせるだけではなくなりました。
このような優れたビデオ生成効果を実現するために、複雑なデータ セットや大規模なモデル トレーニングに依存せず、PixelDance はパブリック WebVid-10M データ セットで 1.5B のみを使用します。大型モデルでは上記の効果が得られます。
論文アドレス: https://arxiv.org/abs/2311.10982
内容を書き直す元の意味を変更せずに、中国語に書き直しました: デモを入手するには、次の Web サイトにアクセスしてください: https://makepixelsdance.github.io
対応する論文「Make Pixels Dance」 :高ダイナミックビデオ生成』の中で、著者はビデオ生成が良好な結果を達成するのが難しい理由を指摘しました。ビデオ生成は、画像生成と比較して、特徴空間が大幅に大きく、アクションの多様性が大幅に大きいという特徴があります。このため、既存のビデオ生成手法では効果的な時間領域のアクション情報を学習することが困難であり、生成されたビデオは高画質ではあるものの、そのダイナミクスは非常に限られています。
上記の問題に対応して、PixelDance は、テキスト ガイダンスと最初と最後のフレーム画像ガイダンスに基づいたビデオ生成方法を提案します。これにより、モデルは、モデルがより完全に注意を払って学習できるようになります。ビデオの動的情報。
ビデオ生成では、画像の最初のフレームがビデオ コンテンツ全体のフレームワークとマテリアルを提供します。同時に、前のビデオ クリップの最後のフレームを次のクリップの最初のフレームのガイドとして使用することで、より長いビデオを生成できます。ビデオ テキストの説明では、ビデオ アクションの具体的な内容が説明されます。最後のフレーム画像ガイダンスは、ビデオ生成プロセスの終了ステータス情報を提供します。著者は、モデルが比較的粗い画像をガイダンスとして受け入れることを可能にする適応方法を提案しています。これにより、ユーザーは基本的な画像編集ツールを使用して終了フレームの画像ガイダンスを取得できるようになります。
公式ウェブサイトの情報は次のとおりです。現在もモデル効果を積極的に反復しており、誰もが試せるモデルが今後 2 ~ 3 か月以内にリリースされる予定です。現在、作者は、テストしたいサンプルを送信するすべての人をサポートする方法も提供しており、現在、いくつかのユーザー テスト サンプルが公式 Web サイトで公開されています。 # #PixelDance を使えば、想像力さえあれば誰でも「100 万ドルの特殊効果マスター」になれるようです。
以上がビデオ生成における新たなブレークスルー: PixelDance、複雑な動きとクールな特殊効果を簡単に表現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

Debianシステムでのデジタル署名検証にOpenSSLを使用すると、次の手順に従うことができます。OpenSSL:Debianシステムがインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoaptupdatesudoaptinInstallopensslslに公開キーを取得できます。デジタル署名検証には、署名者の公開キーが必要です。通常、公開キーは、public_key.peなどのファイルの形で提供されます

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成:yarn.log-aggregation.retain-secondsを設定して、172800秒(2日)などのログの保持時間を定義します。ログストレージパスを指定:Yarn.Nを介して

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。
