Stability AI の優れたモデル ファミリーに新しいメンバーが加わりました。
昨日、Stable Diffusion と Stable Video Diffusion をリリースした後、Stability AI は大規模な 3D ビデオ生成モデル「Stable Video 3D」(SV3D) をコミュニティに導入しました。
モデルは安定したビデオ拡散に基づいて構築されており、その主な利点は 3D 生成の品質とマルチビューの一貫性が大幅に向上することです。 Stability AI によって発売された以前の Stable Zero123 および共同オープンソース Zero123-XL と比較して、このモデルの効果はさらに優れています。
現在、Stable Video 3D は、Stability AI メンバーシップ (メンバーシップ) への参加が必要な商用利用と、ユーザーが Hugging Face でモデル ウェイトをダウンロードできる非商用利用の両方をサポートしています。
#Stability AI は、SV3D_u と SV3D_p という 2 つのモデル バリアントを提供します。 SV3D_u は、カメラ調整を必要とせずに単一の画像入力に基づいて軌道ビデオを生成します。一方、SV3D_p は、単一の画像と軌道遠近を適応させることで生成機能をさらに拡張し、ユーザーが指定されたカメラ パスに沿って 3D ビデオを作成できるようにします。
現在、Stable Video 3D に関する研究論文が公開されており、中心著者は 3 人です。
以前のアプローチでは、限られた視野角や一貫性のない入力の問題を解決する傾向がありましたが、Stable Video 3D は、任意の角度から一貫したビューを提供し、適切に一般化することができます。その結果、このモデルはポーズの制御性を向上させるだけでなく、複数のビューにわたって一貫したオブジェクトの外観を保証し、リアルで正確な 3D 生成に影響を与える重要な問題をさらに改善します。
下の図に示すように、Stable Zero123 および Zero-XL と比較して、Stable Video 3D は、より強力なディテール、より入力画像に忠実な新しいマルチビューを生成できます。一貫した多視点。
さらに、Stable Video 3D はマルチビューの一貫性を利用して 3D ニューラル ラディアンス フィールド (NeRF) を最適化し、直接再同期を改善します。ビューによって生成された 3D メッシュ。
この目的を達成するために、Stability AI は、予測ビュー内の目に見えない領域の 3D 品質をさらに向上させる、マスクされた分別蒸留サンプリング損失を設計しました。また、ベイクされたライティングの問題を軽減するために、Stable Video 3D は 3D 形状とテクスチャで最適化された分離されたライティング モデルを使用します。 下の画像は、Stable Video 3D モデルとその出力を使用した場合の 3D 最適化による改善された 3D メッシュ生成の例を示しています。 次の図は、Stable Video 3D を使用して生成された 3D メッシュ結果と、EscherNet および Stable Zero123 によって生成された 3D メッシュ結果の比較を示しています。 # アーキテクチャの詳細 Stable Video 3D モデルのアーキテクチャは次のとおりです。図 2 に示すように、これは Stable Video Diffusion アーキテクチャに基づいて構築されており、複数のレイヤーを備えた UNet が含まれており、各レイヤーには Conv3D レイヤーを備えた残差ブロック シーケンスと、アテンション レイヤー (空間および時間) トランスフォーマーを備えた 2 つが含まれています。ブロック。 具体的な処理は次のとおりです。 (i) 「fps id」と「」を削除します。モーション バケット ID」(これらは Stable Video 3D とは関係がないため); (ii) 条件付き画像は、Stable Video Diffusion の VAE エンコーダを通じて潜在空間に埋め込まれます。次に、タイム ステップ t における UNet のノイズ潜在状態入力 zt に渡され、ノイズ潜在状態入力 zt に接続されます; #(iii) 条件付き画像の CLIPembedding 行列が提供されます各トランスフォーマー ブロックのクロスアテンション層にキーと値として機能し、クエリは対応する層の特徴になります; (iv) カメラの軌跡がフィードされます。拡散ノイズの時間ステップに沿った残差ブロック。カメラのポーズ角度 ei と ai およびノイズ時間ステップ t は、最初に正弦波位置埋め込みに埋め込まれ、次にカメラ ポーズの埋め込みが線形変換のために連結され、ノイズ時間ステップの埋め込みに追加され、最後に各残差ブロックに供給され、ブロックの入力特徴量に追加されます。 さらに、Stability AI は、以下の図 3 に示すように、カメラのポーズ調整の影響を研究するために静的軌道と動的軌道を設計しました。 #静的軌道上では、カメラは条件画像と同じ仰角を使用して等距離方位角でオブジェクトの周りを回転します。この欠点は、調整された仰角に基づいて、オブジェクトの上部または下部に関する情報が得られない可能性があることです。動的軌道では、方位角が等しくない場合があり、各ビューの仰角も異なる場合があります。 動的軌道を構築するために、Stability AI は静的軌道をサンプリングし、その方位角に小さなランダム ノイズを追加し、その仰角に異なる周波数の正弦波のランダムに重み付けされた組み合わせを追加します。そうすることで時間的な滑らかさが提供され、カメラの軌道が条件画像と同じ方位角と仰角のループに沿って終了することが保証されます。 安定性 AI は、目に見えない GSO および OmniObject3D データセット上の静的および動的軌道上で安定したビデオを評価し、3D 複合マルチビュー効果を評価しました。以下の表 1 ~ 4 に示す結果は、Stable Video 3D が新しいマルチビュー合成において最先端のパフォーマンスを達成していることを示しています。 表 1 と 3 は、静的軌道上の Stable Video 3D とその他のモデルの結果を示しており、ポーズ調整を行わないモデル SV3D_u でも、以前のすべての方法よりも優れたパフォーマンスを示しています。 アブレーション解析の結果は、SV3D_c と SV3D_p が静的軌道の生成において SV3D_u よりも優れていることを示していますが、後者は静的軌道のみでトレーニングされています。 以下の表 2 および表 4 は、姿勢調整モデル SV3D_c および SV3D_p を含む動的軌道の生成結果を示しています。 、すべてのメトリクスで SOTA を達成します。
#技術的な詳細と実験結果については、元の論文を参照してください。 実験結果
以上がStable Video 3D が衝撃的なデビューを果たします。単一の画像から死角のない 3D ビデオが生成され、モデルの重みがオープンになります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。