IT House News 11 月 22 日、人工知能 (AI) 製品の開発に注力する新興企業である Stability AI が、最新の AI モデルである Stable Video Diffusion をリリースしました。このモデルは既存の画像からビデオを生成でき、以前にリリースされた Stable Diffusion テキストから画像へのモデルの拡張であり、これまでのところビデオを生成できる市場で数少ない AI モデルの 1 つでもあります。
ただし、このモデルは現在誰でも利用できるわけではありません。 Stable Video Diffusion は現在、Stability AI が「リサーチ プレビュー」と呼ぶ段階にあります。このモデルを使用したい人は、Stable Video Diffusion の意図された使用例 (「教育またはクリエイティブ ツール」、「デザインやその他の芸術的プロセス」など) と目的外の使用を指定するいくつかの使用条件に同意する必要があります。場合(「人物または出来事の事実または真実の表現」など)。
安定したビデオの普及は、実際には SVD と SVD-XT の 2 つのモデルで構成されます。 SVD は、静止画像を 14 フレームの 576 × 1024 ピクセルのビデオに変換できます。 SVD-XT は同じ構造を使用しますが、フレーム数が 24 に増加します。どちらも 1 秒あたり 3 ~ 30 フレームのビデオを生成できます
Stability AI が Stable Video Diffusion とともにリリースしたホワイトペーパーによると、SVD と SVD-XT は最初に数百万のビデオを含むデータセットでトレーニングされ、その後より小規模なデータセットでトレーニングされました。「微調整」なしでは、このデータセットのみがトレーニングされました。数十万から約百万のビデオクリップがあります。これらのビデオの出所は完全には明らかではなく、ホワイトペーパーによれば、多くは公開されている研究データセットからのものであるため、著作権の問題があるかどうかを判断することは不可能です。
SVD と SVD-XT はどちらも高品質の 4 秒ビデオを生成でき、Stability AI ブログで厳選されたサンプルから判断すると、その品質は Meta、Google、AI スタートアップの最新ビデオ生成モデルに匹敵します。 Runway、Pika Labs の AI 生成ビデオは
に匹敵します
IT House は、安定したビデオの普及にも限界があることに気づきました。スタビリティ AI もこれについて非常に率直で、モデルは動きやカメラのパンが遅い場合はビデオを生成できず、テキストで制御できず、テキストを (少なくとも明確には) レンダリングできず、一貫して「正しく」顔とキャラクターを生成することはできないと述べています。
Stability AI は初期段階ではありますが、これらのモデルは拡張性が高く、オブジェクトの 360 度ビューの生成など、さまざまなユースケースに適応できると述べています。
Stability AI の最終目標は商業化であるようで、Stable Video Diffusion には「広告、教育、エンターテイメント、その他の分野」での応用の可能性があると述べています。以上がStable AI が画像に基づいてビデオを生成する安定したビデオ拡散モデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。