Sora のオープンソースバージョンは人気です。4K Star が利用可能で、1 枚のカードで 4090 が実行され、A6000 は微調整可能です。-AI-php.cn

Zhipu AI は、社内で開発した大規模モデルをオープンソース化しました。

国内ビデオ生成の分野はますます人気が高まっています。先ほど、Zhipu AIは、「Qingying」と同じ起源を持つビデオ生成モデルであるCogVideoXをオープンソース化すると発表しました。わずか数時間で 4,000 スターを獲得しましょう。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

コードリポジトリ: https://github.com/THUDM/CogVideo
モデルダウンロード: https://huggingface.co/THUDM/CogVideoX-2b
技術レポート: https: //github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日、Zhipu AI はビデオ生成製品「Qingying」を正式にリリースしました。これは広く賞賛されています。みんな。。良いアイデア (数単語から数百単語) と少しの忍耐力 (30 秒) があれば、「Qingying」は解像度 1440x960 の高精度ビデオを生成できます。

今後、Qingying が Qingyan アプリをリリースし、すべてのユーザーが総合的な方法でそれを体験できることが正式に発表されました。試してみたい友人は、「Zhipu Qingyan」にアクセスして、「Qingying」のビデオ生成機能を体験できます。

「Qingying」の出現は、中国の誰もが利用できる最初のSoraとして歓迎されています。リリースから 6 日後、「Qingying」によって生成されたビデオの数は 100 万件を超えました。

PCアクセスリンク: https://chatglm.cn/
モバイルアクセスリンク: https://chatglm.cn/download?fr=web_home

Zhipu AI オープンソースモデルはそんなに人気があるのですか?ビデオ生成テクノロジーは徐々に成熟してきていますが、商用レベルのアプリケーションの要件を満たすことができるオープンソースのビデオ生成モデルはまだ存在しないことを知っておく必要があります。おなじみの Sora や Gen-3 などはすべてクローズドソースです。 CogVideoX のオープンソースは、Sora の背後にあるモデルの OpenAI オープンソースに似ており、これは大多数の研究者にとって非常に重要です。

CogVideoX オープンソースモデルには、さまざまなサイズの複数のモデルが含まれています。現在、Zhipu AI オープンソース CogVideoX-2B には、FP-16 精度での推論に必要なビデオメモリは 18 GB のみ、微調整には 40 GB のビデオメモリしか必要ありません。 1 枚の A4090 グラフィックスカードで推論を実行できるのに対し、1 枚の A6000 グラフィックスカードで微調整を完了できるということです。

CogVideoX-2B のプロンプトワード制限は 226 トークン、ビデオの長さは 6 秒、フレームレートは 8 フレーム/秒、ビデオ解像度は 720*480 です。 Zhipu AI はビデオ品質の向上のために広いスペースを確保しており、ワードの最適化、ビデオの長さ、フレームレート、解像度、シーンの微調整、およびビデオ関連のさまざまな機能の開発を促進するための開発者のオープンソースへの貢献を期待しています。。

より強力なパフォーマンスとより大きなパラメーターを備えたモデルが開発中ですので、ご期待ください。

Model

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

VAE

ビデオデータには空間的・時間的な情報が含まれているため、そのデータ量と計算量は画像データをはるかに超えています。この課題に対処するために、Zhipu は 3D 変分オートエンコーダ (3D VAE) に基づくビデオ圧縮方法を提案しました。 3D VAE は、3 次元の畳み込みを通じてビデオの空間的次元と時間的次元を同時に圧縮し、より高い圧縮率とより優れた再構成品質を実現します。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

モデル構造にはエンコーダー、デコーダー、潜在空間正則化装置が含まれており、圧縮は 4 段階のダウンサンプリングとアップサンプリングを通じて実現されます。時間的因果畳み込みにより、情報の因果関係が保証され、通信のオーバーヘッドが削減されます。 Zhipu は、コンテキスト並列処理テクノロジーを使用して、大規模なビデオ処理に適応します。

この実験で、Zhipu AI は、高解像度のエンコードは一般化するのが簡単であるが、フレーム数を増やすのはより困難であることを発見しました。したがって、Zhipu は 2 段階でモデルをトレーニングします。最初は低いフレームレートとミニバッチでトレーニングし、次にコンテキスト並列処理により高いフレームレートで微調整します。トレーニング損失関数は、3D 弁別器の L2 損失、LPIPS 知覚損失、および GAN 損失を組み合わせます。

Expert Transformer

Wisdom Spectrum AI は、VAE のエンコーダーを使用してビデオを潜在空間に圧縮し、その後、潜在空間をチャンクに分割して、長いシーケンスのエンベディング z_vision に拡張します。同時に、Zhipu AI は T5 を使用して、テキスト入力を z_text を埋め込んだテキストにエンコードし、シーケンス次元に沿って z_text と z_vision を結合します。スプライスされたエンベディングは、処理のためにエキスパート Transformer ブロックのスタックに供給されます。最後に、埋め込みをバックステッチして元の潜在空間形状を復元し、VAE を使用してデコードしてビデオを再構築します。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

データ

ビデオ生成モデルのトレーニングでは、現実世界のダイナミクスを学習するために高品質のビデオデータをスクリーニングする必要があります。人間による編集や撮影の問題により、ビデオが不正確になる可能性があります。 Wisdom AI は、過剰編集、途切れ途切れの動き、低品質、講義形式、テキスト中心のビデオ、画面ノイズの多いビデオなど、低品質のビデオを識別して除外するためのネガティブタグを開発しました。ビデオラマによってトレーニングされたフィルターを通じて、Zhipu AI は 20,000 のビデオデータポイントに注釈を付け、フィルター処理しました。同時に、オプティカルフローと美的スコアが計算され、生成されたビデオの品質を保証するためにしきい値が動的に調整されます。

ビデオデータには通常、テキストの説明が含まれていないため、テキストからビデオへのモデルのトレーニングのためにテキストの説明に変換する必要があります。既存のビデオ字幕データセットには短い字幕が含まれており、ビデオコンテンツを完全に説明できません。 Zhipu AI は、画像字幕からビデオ字幕を生成するパイプラインを提案し、エンドツーエンドのビデオ字幕モデルを微調整して、より密度の高い字幕を取得します。このアプローチでは、Panda70M モデルを使用して短いキャプションを生成し、CogView3 モデルを使用して高密度の画像キャプションを生成し、GPT-4 モデルを使用して要約して最終的な短いビデオを生成します。 Zhipu AI はまた、CogVLM2-Video と Llama 3 に基づいて CogVLM2-Caption モデルを微調整し、ビデオ字幕生成プロセスを高速化するために高密度の字幕データを使用してトレーニングしました。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

性能

为了评估文本到视频生成的质量，智谱 AI 使用了 VBench 中的多个指标，如人类动作、场景、动态程度等。智谱 AI 还使用了两个额外的视频评估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，这些工具专注于视频的动态特性。如下表所示。

智谱 AI 已经验证了 scaling law 在视频生成方面的有效性，未来会在不断 scale up 数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

最后，我们看看「清影」的效果。

提示语：「一艘精致的木制玩具船，桅杆和船帆雕刻精美，平稳地滑过一块模仿海浪的蓝色毛绒地毯。船体漆成浓郁的棕色，有小窗户。地毯柔软而有质感，提供了完美的背景，类似于广阔的海洋。船周围还有各种玩具和儿童用品，暗示着一个好玩的环境。这个场景捕捉到了童年的纯真和想象力，玩具船的旅程象征着在异想天开的室内环境中无尽的冒险。」

提示语：「镜头跟随一辆装着黑色车顶行李架的白色老式 SUV，它在陡峭的山坡上沿着松树环绕的土路加速行驶，轮胎扬起尘土，阳光照射在沿着土路飞驰的 SUV 身上，为场景投下温暖的光芒。土路缓缓弯曲向远方延伸，看不到其他汽车或车辆。道路两旁的树木都是红杉，点缀着一片片绿植。从后面看，汽车轻松地顺着弯道行驶，让人觉得它正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉，头顶是湛蓝的天空，上面飘着薄薄的云彩。」