Open-Sora は、オープンソース コミュニティで静かに更新され、最大 720p の解像度で最大 16 秒のビデオ生成をサポートし、テキストから画像、テキストからビデオ、画像からビデオのあらゆるアスペクト比を処理できるようになりました。 、ビデオからビデオ、および無限長のビデオ生成のニーズ。試してみましょう。
横画面のクリスマス雪景色を生成し、Bサイト
に投稿してから縦画面を作成し、ツイート
し、16秒の長いビデオも生成します。脚本にハマった場合の遊び方は?ガイダンス
GitHub: https://github.com/hpcaitech/Open-Sora
さらに素晴らしいのは、Open-Sora は、最新のモデル アーキテクチャ、最新のモデルの重み、時間/解像度/アスペクト比/フレーム レートのトレーニング プロセス、データ収集と前処理の完全なプロセス、すべてのトレーニングの詳細、デモ例
および詳細な入門チュートリアル など。 Open-Sora技術レポートの包括的な解釈
著者チームは、Open-Sora技術レポート[1]をGitHubで正式にリリースしました。著者の理解によると、このアップデートには主に次の主要な機能が含まれています:
長いビデオ生成をサポート
マルチステージトレーニング
Open-Soraのテクニカルレポートによると、Open-Soraはマルチステージトレーニング方法を採用しており、各ステージは前のステージの重量に基づいてトレーニングを継続します。この多段階トレーニングでは、単一段階のトレーニングと比較して、段階的にデータを導入することで高品質のビデオ生成という目標をより効率的に達成します。
初期段階では、ほとんどのビデオは 144p の解像度を使用し、トレーニング用に写真と 240p、480p のビデオが混合されます。トレーニングは約 1 週間続き、合計ステップ サイズは 81k です。第 2 段階では、ほとんどのビデオ データの解像度が 240p および 480p に増加し、トレーニング時間は 1 日で、ステップ サイズは 22k に達します。第 3 段階は 480p と 720p にさらに強化され、トレーニング期間は 1 日で、4k ステップのトレーニングが完了しました。多段階のトレーニング プロセス全体が約 9 日間で完了しました。Open-Sora1.0 と比較して、ビデオ生成の品質が多面的に向上しました。
統合された画像からビデオ/ビデオからビデオのフレームワーク
著者チームは、Transformer の特性に基づいて、DiT アーキテクチャを簡単に拡張して、画像から画像への変換とビデオからビデオへの変換をサポートできると述べました。ビデオ間のタスク。彼らは、画像とビデオの条件付き処理をサポートするマスキング戦略を提案しました。異なるマスクを設定することにより、グラフィック ビデオ、ループ ビデオ、ビデオ拡張、ビデオ自動回帰生成、ビデオ接続、ビデオ編集、フレーム挿入などのさまざまな生成タスクをサポートできます。
画像とビデオの条件付き処理のマスキング戦略をサポート
著者チームは、UL2[2] メソッドに触発されて、モデルのトレーニング段階でランダム マスキング戦略を導入したと述べています。具体的には、マスクされるフレームはトレーニング プロセス中にランダムに選択され、マスク解除されます。これには、最初のフレーム、最初の k フレーム、次の k フレーム、任意の k フレームなどのマスク解除が含まれますが、これらに限定されません。著者らはまた、Open-Sora 1.0 での実験に基づいて、50% の確率でマスキング戦略を適用すると、モデルはわずかなステップ数で画像調整を処理する方法をより適切に学習できることを明らかにしました。 Open-Sora の最新バージョンでは、マスキング戦略を使用してゼロから事前トレーニングする方法が採用されました。 さらに、著者チームは、推論段階のマスキング戦略構成に関する詳細なガイドも思慮深く提供しています。5 つの数値のタプル形式は、マスキング戦略を定義する際に優れた柔軟性と制御を提供します。 マスクポリシーの設定手順 マルチタイム/解像度/アスペクト比/フレームレートトレーニングをサポート OpenAI Sora の技術レポート [3] は、元のビデオを使用してトレーニングを行うことを指摘しました解像度、アスペクト比、および長さにより、サンプリングの柔軟性が向上し、フレーミングと構成が改善されます。これに関して、著者チームはバケット化戦略を提案しました。 具体的にはどうやって実装するの?著者が発行した技術レポートを詳しく読んだ結果、いわゆるバケットが(解像度、フレーム数、アスペクト比)の 3 つからなることがわかりました。チームは、最も一般的なビデオ アスペクト比タイプをカバーするために、さまざまな解像度のビデオのアスペクト比の範囲を事前定義しました。各トレーニング サイクル エポックの開始前に、データ セットを再シャッフルし、サンプルをその特性に基づいて対応するバケットに割り当てます。具体的には、各サンプルを、解像度とフレーム長がそのビデオ特徴以下のバケットに入れます。 Open-Soraバケット戦略 著者チームはさらに、コンピューティングリソースの要件を軽減するために、keep_probとbatch_sizeごとに2つの属性(解像度、フレーム数)を導入して削減したことを明らかにしました。コストを計算し、多段階のトレーニングを実施します。このようにして、さまざまなバケットのサンプル数を制御し、各バケットの適切なバッチ サイズを検索することで GPU 負荷のバランスをとることができます。著者は技術レポートでこれについて詳しく説明しています。興味のある友人は、GitHub で著者が公開した技術レポートを読んで詳細を入手できます: https://github.com/hpcaitech/Open-Sora データ収集と事前-処理プロセス 著者チームは、データの収集と処理に関する詳細なガイダンスも提供します。テクニカルレポートにおける著者の説明によると、Open-Sora 1.0の開発過程で、高性能モデルを育成するにはデータの量と質が非常に重要であることに気づき、データセットの拡張と最適化に取り組んだという。 。彼らは、特異値分解 (SVD) 原理に従い、シーンのセグメンテーション、字幕処理、多様性のスコアリングとフィルタリング、さらにデータセットの管理システムと仕様をカバーする自動データ処理プロセスを確立しました。同様に、彼らはデータ処理関連のスクリプトを無私にオープンソース コミュニティに共有します。興味のある開発者は、これらのリソースを技術レポートやコードと組み合わせて使用し、独自のデータセットを効率的に処理および最適化できるようになりました。 Open-Soraのデータ処理プロセス ビデオ生成効果の表示 Open-Soraの最も目を引くハイライトは、頭の中にあるシーンをキャプチャし、テキストの説明を通じて動くビデオに変換できます。あなたの心に浮かんだイメージや想像力を永久に記録し、他の人と共有できるようになりました。ここで、著者は出発点としていくつかの異なるプロンプトを試しました。 たとえば、作者は冬の森を訪れるビデオを生成しようとしました。雪が降って間もなく、松の木は白い雪で覆われ、白い雪の結晶がきれいな層に散らばっていました。 あるいは、静かな夜、あなたは無数のおとぎ話に描かれているような暗い森の中にいて、空いっぱいの明るい星の下で深い湖が輝いています。 上空から見る賑やかな島の夜景はさらに美しく、温かみのある黄色の光とリボンのような青い水が人々をゆったりとした休暇の時間へと誘います。 都会の交通量の多さ、深夜でも灯りの灯る高層ビルや路面店はまた違った趣があります。 Open-Sora は風景に加えて、さまざまな自然生物も復元できます。真っ赤な花でも、 でも、ゆっくりと頭を回すカメレオンでも、Open-Sora はよりリアルなビデオを生成できます。 また、作成者はさまざまなプロンプト テストを試み、さまざまなコンテンツ、さまざまな解像度、さまざまなアスペクト比、さまざまな長さを含む、参考のために生成された多数のビデオを提供しました。 著者はまた、Open-Sora がたった 1 つの簡単なコマンドでマルチ解像度のビデオ クリップを生成し、クリエイティブな制限を完全に打ち破ることができることを発見しました。 解像度: 16*240p 解像度: 32*240p 解像度: 64*360p 解像度: 480 *854p Open-Sora に静止画像を供給して短いビデオを生成することもできます Open-Sora は、2 つの静止画像を巧みに接続して、午後から夕暮れまでの光と影の変化を体験することもできます。 別の例として、元のビデオを簡単なコマンドで編集したい場合、元々は明るかった森が大雪に見舞われました。
Open-Sora を使用して高解像度の画像を生成することもできます -Soraモデルの重量はすでに完全に無料です。オープンソース コミュニティで公開されているので、ダウンロードして試してみるとよいでしょう。動画のつなぎ合わせ機能にも対応しているので、ストーリー性のあるショートショートストーリーを無料で作成して、あなたの創造性を現実にする機会があることを意味します。 ウェイトのダウンロードアドレス: https://github.com/hpcaitech/Open-Sora Sora のような Vincent ビデオ モデルの再現では良い結果が得られましたが、進歩はしかし、作者チームは、現在生成されているビデオは、生成プロセス中のノイズの問題、時間的一貫性の欠如、キャラクター生成の品質の低さ、美的スコアの低さなど、多くの点でまだ改善の必要があることも謙虚に指摘しています。これらの課題について、作者チームは、より高いビデオ生成基準を達成するために、次のバージョンの開発でそれらを優先的に解決すると述べています。興味のある方は引き続き注目してください。 Open-Sora コミュニティがもたらす次の驚きを楽しみにしています。 オープンソースアドレス: https://github.com/hpcaitech/Open-SoraOpen-Soraのパフォーマンスの総合評価
現在の制限と将来の計画
以上がOpen-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。