特に 2022 年の AIGC の流行を経験したことで、多くの人が生成 AI テクノロジーの魅力をすでに理解していると思います。 Stable Diffusion に代表されるテキストから画像への生成技術は、かつて世界中で普及し、AI の助けを借りて芸術的な想像力を表現するために無数のユーザーが殺到しました...
比較画像編集、ビデオ編集の場合 編集はより難しいトピックであり、時間的な一貫性を維持しながら、単に見た目を変更するのではなく、新しいアクションを合成する必要があります。
多くの企業がこの道を模索しています。少し前に、Google はビデオ編集にテキスト条件付きビデオ拡散モデル (VDM) を適用する Dreamix をリリースしました。
最近、Stable Diffusion の作成に参加した企業である Runway は、テキスト プロンプトまたは参照を適用することで指定されたスタイルを使用する新しい人工知能モデル「Gen-1」を発表しました。画像。既存のビデオを新しいビデオに変換できます。
# 論文リンク: https://arxiv.org/pdf/2302.03011.pdf
プロジェクトホームページ: https://research.runwayml.com/gen1
2021 年、ランウェイと大学ミュンヘンの研究者が協力して、安定拡散の最初のバージョンを構築しました。その後、英国の新興企業である Stability AI が、より多くのデータでモデルをトレーニングするために必要な計算費用に資金提供するために介入しました。 2022 年、Stability AI は Stable Diffusion を主流にし、それを研究プロジェクトから世界的な現象に変えます。
Runway は、Stable Diffusion が画像に対して実現したことを、Gen-1 がビデオに対しても実現できることを期待していると述べました。
「画像生成モデルの爆発的な増加を目の当たりにしました」と、Runway の CEO 兼共同創設者である Cristóbal Valenzuela 氏は述べています。 「2023 年はビデオの年になると心から信じています。」
#具体的には、Gen-1 はいくつかの編集モードをサポートしています:1。様式化。画像やプロンプトのスタイルをビデオのすべてのフレームに転送します。
2. ストーリーボード。モデルを完全に様式化されたアニメーション化されたレンダリングに変換します。
3. マスク。ビデオ内のトピックを分離し、単純なテキスト プロンプトを使用して変更します。
4. レンダリング。入力イメージまたはプロンプトを適用することで、テクスチャレス レンダリングをフォトリアリスティックな出力に変換します。
#5. カスタマイズ。モデルをカスタマイズしてより忠実度の高い結果を得ることで、Gen-1 のパワーを最大限に引き出します。
同社の公式 Web サイトに掲載されているデモでは、Gen-1 がどのようにビデオ スタイルをスムーズに変更できるかを示しています。
たとえば、「路上の人々」を「粘土の人形」に変えるには、プロンプトは 1 行だけ必要です:
# または、「テーブルに積み上げられた本」を「夜の街並み」に変える:
##「雪の上を走る」から「月の上を歩く」へ:
#若い女の子、数秒で古代の賢者になる:
#
視覚効果とビデオ編集は、現代のメディア環境において広く普及しています。ビデオ中心のプラットフォームの人気が高まるにつれて、より直感的で強力なビデオ編集ツールの必要性が高まっています。ただし、ビデオ データの時間的な性質により、この形式での編集は依然として複雑で時間がかかります。最先端の機械学習モデルは編集プロセスの改善に大きな期待を寄せていますが、多くの方法では時間的な一貫性と空間的な詳細のバランスを取る必要があります。
画像合成の生成手法は、大規模なデータセットでトレーニングされた拡散モデルの導入により、最近品質と人気が急速に成長しています。 DALL-E 2 や安定拡散などの一部のテキスト条件付きモデルを使用すると、初心者ユーザーでもテキスト プロンプトだけで詳細な画像を生成できます。潜在拡散モデルは、知覚的に圧縮された空間に合成することで画像を生成する効率的な方法を提供します。
この論文では、研究者らは、大規模なデータセットでトレーニングされた、字幕なしのビデオとテキストと画像のペアデータに関する、制御可能な構造とコンテンツを認識したビデオ拡散モデルを提案します。コンテンツを表現するために事前にトレーニングされたニューラル ネットワークによって予測される構造と埋め込みを表現するために、単眼の深度推定を使用することを選択しました。
この方法では、生成プロセス中にいくつかの強力な制御モードが提供されます。まず、画像合成モデルと同様に、研究者はモデルをトレーニングして、外観やスタイルなどの推定ビデオ コンテンツを作成します。ユーザーが指定した画像またはテキスト プロンプトと一致します (図 1)。次に、拡散プロセスにヒントを得て、研究者らは情報マスキング プロセスを構造表現に適用して、モデルが特定の構造をどの程度適切にサポートするかを選択できるようにしました。最後に、生成されたセグメントの時間的一貫性の制御を実現するために、分類不要のガイダンスにヒントを得たカスタム ガイダンス方法を通じて推論プロセスを調整します。
全体として、この研究のハイライトは次のとおりです。
調査目的の場合、コンテンツと構造の両方の観点からビデオを検討すると役立ちます。ここでの構造とは、物体の形状や位置、時間的変化など、その幾何学的形状や力学を記述する特徴を意味します。コンテンツの場合、ここではオブジェクトの色やスタイル、シーンの照明など、ビデオの外観と意味論を記述する特徴として定義されます。 Gen-1 モデルの目標は、ビデオの構造を維持しながらビデオのコンテンツを編集することです。
この目標を達成するために、研究者はビデオ x の生成モデル p (x|s, c) を学習しました。その条件は構造表現 (s で表される) とコンテンツ表現です。 ( c で表します)。彼らは入力ビデオから形状表現を推測し、編集を説明するテキスト プロンプト c に基づいてそれを修正します。まず、条件付き潜在ビデオ拡散モデルとしての生成モデルの実装について説明し、次に、形状およびコンテンツ表現の選択について説明します。最後に、モデルの最適化プロセスについて説明します。
#モデルの構造を図 2 に示します。
この方法を評価するために、研究者たちはDAVISビデオとさまざまな資料を使用しました。編集プロンプトを自動的に作成するために、研究者らはまず字幕モデルを実行して元のビデオ コンテンツの説明を取得し、次に GPT-3 を使用して編集プロンプトを生成しました。
定性調査
図 5 に示すように、結果は、この記事の方法が次の場合に有効であることを証明しています。いくつかの異なる入力では良好なパフォーマンスが得られます。
##ユーザー調査
研究者もユーザー調査は、Amazon Mechanical Turk (AMT) を使用して、35 の代表的なビデオ編集プロンプトの評価セットに対して実施されました。各サンプルについて、5 人のアノテーターに、ベースライン手法と私たちの手法の間でビデオ編集プロンプトの忠実度を比較するよう依頼し (「提供された編集された字幕をより適切に表すビデオはどれですか?」)、その後ランダムに順番に提示し、多数決を使用して最終決定を行いました。結果。
結果を図 7 に示します。
##定量的評価
図 6 は、この記事のフレームワークの一貫性指標とプロンプト一貫性指標を使用した各モデルの結果を示しています。このペーパーのモデルのパフォーマンスは、両方の側面でベースライン モデルを上回る傾向があります (つまり、図の右上隅でパフォーマンスが高くなります)。研究者らはまた、ベースライン モデルの強度パラメータを増やすと若干のトレードオフがあることにも気づきました。つまり、強度スケーリングを大きくすると、フレームの一貫性が低下する代わりに、プロンプトの一貫性が向上することを意味します。彼らはまた、構造スケーリングを増加させると、コンテンツが入力構造によって決定されなくなるため、プロンプトの一貫性が向上することも観察しました。
カスタマイズ
図 10 は、さまざまな数のカスタマイズ ステップとさまざまなレベルの構造依存関係を持つモデルを示しています。例。研究者らは、カスタマイズによってキャラクターのスタイルと外観の忠実度が高まるため、異なる特性を持つキャラクターの駆動ビデオを使用しているにもかかわらず、より高い ts 値と組み合わせることで、正確なアニメーション効果を実現できることを観察しました。
以上が特殊効果を追加するには 1 つの文または画像だけが必要であり、Stable Diffusion 社は AIGC を使用して新しいトリックを実行しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。