AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能-AI-php.cn

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能

王林

リリース： 2023-07-09 23:17:20

転載

1247 人が閲覧しました

Stable Diffusion オープンソースグラフモデルの後、「AI アート」は完全に民主化され、非常に美しい画像を作成するにはコンシューマーグレードのグラフィックカードのみを使用できます。

テキストからビデオへの変換の分野では、現在、オープンで競争できる唯一のモデルは、Runway が最近発売した高品質商用 Gen-2 モデルだけです。ソース業界。

最近、Huggingface の作者がテキストからビデオへの合成モデル Zeroscope_v2 をリリースしました。これは、17 億個のパラメーターを備えた ModelScope テキストからビデオへの合成モデルに基づいて開発されました。。

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能 #写真

モデルリンク: https://huggingface.co/cerspense/zeroscope_v2_576w

オリジナルバージョンと比較して、Zeroscope によって生成されたビデオには透かしがなく、16:9 のアスペクト比に適応するために滑らかさと解像度が向上しました。

開発者のサースペンス氏は、オープンソースとして Gen-2 と競合することが目標だと述べました。つまり、モデルの品質を向上させながら、一般人が自由に使用できるようにすることです。。

Zerscope_v2 には 2 つのバージョンがあり、そのうちの Zeroscope_v2 567w は、解像度 576x320 ピクセル、フレームレート 30 フレーム/秒のビデオを迅速に生成でき、迅速な検証に使用できます。ビデオのコンセプトを採用しており、7.9GB のビデオメモリのみで実行できます。

Zeroscope_v2 XL を使用して、解像度 1024x576 の高解像度ビデオを生成し、約 15.3 GB のビデオメモリを占有します。

Zeroscope を音楽生成ツール MusicGen と併用して、純粋にオリジナルのショートビデオをすばやく作成することもできます。

Zeroscope モデルのトレーニングでは、9923 個のビデオクリップ (クリップ) と 29769 個の注釈付きフレーム (各クリップには 24 フレームが含まれています) が使用されました。オフセットノイズには、ビデオフレーム内のオブジェクトのランダムなシフト、フレームタイミングのわずかな変化、または小さな歪みが含まれます。

トレーニング中にノイズを導入すると、モデルによるデータ分布の理解が深まり、より多様でリアルなビデオを生成し、テキストの説明の変化をより効果的に考慮できるようになります。

利用方法

安定拡散ウェブUIを使用

Huggingface内zs2_XL ディレクトリにあるウェイトファイルをダウンロードし、stable-diffusion-webui\models\ModelScope\t2v ディレクトリに置きます。

ビデオを生成する場合、推奨されるノイズリダクション強度の値は 0.66 ～ 0.85 です。

Colab を使用します

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能

## 注リンク: https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing

まず、ステップ 1 で [実行] ボタンをクリックし、インストールが完了するまで待ちます (約 3 分かかります);

図 AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能

ボタンの横に緑色のチェックマークが表示されたら、次の手順に進みます。

#画像

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能 #約のクリップをすばやく取得するには、インストールするモデルの近くにある実行ボタンをクリックします。 Colab で 3 秒ビデオの場合は、低解像度の ZeroScope モデル (576 または 448) を使用することをお勧めします。

写真

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能 Potat 1 や ZeroScope XL などの高解像度モデルを実行する場合、実行時間にはトレードオフがあります。より長いです。

チェックマークが再び表示されるまで待って、次の手順に進みます。

ステップ 2 でインストールしたモデルを選択し、それを使用します。高解像度のモデルの場合は、生成時間があまり長くかからない次の構成パラメーターをお勧めします。

画像

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能次に、ターゲットビデオのプロンプトワードを入力して効果を変更できます。また、次のように入力することもできます。否定的なプロンプトの単語 (否定的なプロンプト) を入力し、[実行] ボタンをクリックします。

しばらく待つと、生成されたビデオが出力ディレクトリに配置されます。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃写真＃＃＃＃＃＃

「文生動画」オープンソースコンペティション

現在、Vincentian ビデオの分野はまだ初期段階にあります。最高のツールでも数秒のビデオしか生成できず、通常は比較的多くのビデオが生成されます。大大きな視覚的欠陥。

しかし実際には、Vincentian モデルも当初は同様の問題に直面していましたが、わずか数か月後にはフォトリアリズムを実現しました。

ただし、ヴィンセントグラフモデルとは異なり、ビデオフィールドではトレーニングと生成中に画像よりも多くのリソースが必要になります。

Google は、高解像度で、より長く、論理的に一貫したビデオクリップを生成できる Phenaki モデルと Imagen Video モデルを開発しましたが、これら 2 つのモデルは一般公開されていません。 a-Videoモデルも発売されていません。

現在利用可能なツールはまだ Runway の商用モデル Gen-2 のみです。Zeroscope のリリースは、Vincent ビデオ分野における最初の高品質のオープンソースモデルの出現も示しています。

以上がAI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオ メモリで実行可能

「文生動画」オープン ソース コンペティション

AI の新たな出口?最初の高品質「Vinson Video」モデル Zeroscope がオープンソース戦争を引き起こす: 最小 8G ビデオメモリで実行可能

「文生動画」オープンソースコンペティション