これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。
ControlNet 作者 Lvmin Zhang が再び仕事に戻りました!今回は絵画の分野を目指します。
新しいプロジェクト PaintsUndo は、開始直後に 1.4,000 個のスターを獲得しました (今も猛烈な勢いで増えています)。
プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO
このプロジェクトを通じて、ユーザーは静止画像を入力すると、PaintsUndo はペイントプロセス全体のビデオを自動的に生成するのに役立ちます。ラインから ドラフトから完成品までたどるトレースがあります。
描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常に似ています:
完全なペイント プロセスを見てみましょう。 PaintsUndo は、まず単純な線を使用してキャラクターの本体の輪郭を描き、次に背景を描画し、色を適用し、最後に元の画像に似るように微調整します。
PaintsUndo は、単一の画像スタイルに限定されず、対応するペイント プロセス ビデオも生成します。
フードをかぶったコーギーが優しく遠くを見つめています:
ユーザーは単一の画像を入力して複数のビデオを出力することもできます:
しかし、PaintsUndoには次のような欠点もあります。複雑な構成があり、作者はこのプロジェクトはまだ改良中であると述べています。
PaintsUndo が非常に強力である理由は、画像を入力として受け取り、画像の描画シーケンスを出力する一連のモデルによってサポートされているためです。モデルは、スケッチ、インク入力、シェーディング、陰影付け、変形、左右反転、カラー カーブ調整、レイヤーの可視性の変更、さらには描画プロセス中の全体的なアイデアの変更を含むがこれらに限定されない、人間のさまざまな動作を再現します。 。
ローカル デプロイメント プロセスは非常に簡単で、数行のコードで完了できます:
git clone https://github.com/lllyasviel/Paints-UNDO.gitcd Paints-UNDOconda create -n paints_undo python=3.10conda activate paints_undopip install xformerspip install -r requirements.txtpython gradio_app.py
モデルの紹介
プロジェクト作成者は、推論テストに Nvidia 4090 および 3090TI の 24 GB VRAM を使用しました。著者らは、極端な最適化 (ウェイト オフロードやアテンション スライシングを含む) を適用した場合、理論上の最小 VRAM 要件は約 10 ~ 12.5 GB になると推定しています。 PaintsUndo は、設定に応じて約 5 ~ 10 分で画像を処理すると予想され、通常は 320x512、512x320、384x448、または 448x384 の解像度で 25 秒のビデオが生成されます。
現在、プロジェクトは 2 つのモデルをリリースしています: シングルフレーム モデル Paints_undo_single_frame とマルチフレーム モデル Paints_undo_multi_frame です。
シングルフレームモデルはSD1.5の修正されたアーキテクチャを使用し、画像と演算ステップを入力として受け取り、画像を出力します。アート作品の作成に通常 1,000 回の手動操作が必要であると仮定すると (たとえば、1 つのストロークが 1 つの操作です)、操作ステップ サイズは 0 ~ 999 の整数になります。数字の0は最終的に完成したアートワークであり、数字の999は真っ白なキャンバスに描かれた最初の一筆です。
マルチフレーム モデルは、VideoCrafter シリーズのモデルに基づいていますが、オリジナルの Crafter の lvdm は使用せず、すべてのトレーニング/推論コードは完全に最初から実装されています。プロジェクトの作成者はニューラル ネットワークのトポロジに多くの変更を加え、広範なトレーニングを行った結果、ニューラル ネットワークはオリジナルの Crafter とは大きく異なる動作をするようになりました。
マルチフレーム モデルの全体的なアーキテクチャは Crafter に似ており、3D-UNet、VAE、CLIP、CLIP-Vision、Image Projection の 5 つのコンポーネントが含まれます。
マルチフレーム モデルは 2 つの画像を入力として受け取り、2 つの入力画像間の 16 の中間フレームを出力します。マルチフレーム モデルは、単一フレーム モデルよりも一貫した結果が得られますが、速度が大幅に低下し、「創造性」が低下し、フレーム数が 16 フレームに制限されます。
PaintsUndo はデフォルトで単一フレーム モデルとマルチフレーム モデルを一緒に使用します。まず、単一フレーム モデルを使用して約 5 ~ 7 回推論して 5 ~ 7 個の「キー フレーム」を取得します。次に、マルチフレーム モデルを使用してこれらのキー フレームを「補間」し、最後に比較的長いビデオが生成されます。
参考リンク:https://lllyasviel.github.io/pages/paints_undo/
以上がControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセスの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。