Open-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポート
Open-Sora は、オープンソース コミュニティで静かに更新され、最大 720p の解像度で最大 16 秒のビデオ生成をサポートし、テキストから画像、テキストからビデオ、画像からビデオのあらゆるアスペクト比を処理できるようになりました。 、ビデオからビデオ、および無限長のビデオ生成のニーズ。試してみましょう。
横画面のクリスマス雪景色を生成し、Bサイト
に投稿してから縦画面を作成し、ツイート
し、16秒の長いビデオも生成します。脚本にハマった場合の遊び方は?ガイダンス
GitHub: https://github.com/hpcaitech/Open-Sora
さらに素晴らしいのは、Open-Sora は、最新のモデル アーキテクチャ、最新のモデルの重み、時間/解像度/アスペクト比/フレーム レートのトレーニング プロセス、データ収集と前処理の完全なプロセス、すべてのトレーニングの詳細、デモ例
および詳細な入門チュートリアル など。 Open-Sora技術レポートの包括的な解釈
最新機能の概要
著者チームは、Open-Sora技術レポート[1]をGitHubで正式にリリースしました。著者の理解によると、このアップデートには主に次の主要な機能が含まれています:
長いビデオ生成をサポート
- 最大 720p のビデオ生成解像度;
- 任意のアスペクト比、さまざまな解像度および長さの画像をサポートします。 、テキストからビデオ、画像からビデオ、ビデオからビデオ、および無限長のビデオ生成のニーズ
- 複数時間/解像度/アスペクト比/フレーム レート トレーニングをサポートする、より安定したモデル アーキテクチャ設計を提案します。最新の自動データ処理プロセスはオープンソース化されています。
- 時空拡散モデル ST-DiT-2
- 著者チームは、トレーニングの安定性と全体的なパフォーマンスの向上を目的として、Open-Sora 1.0 の STDiT アーキテクチャに重要な改良を加えたと述べていますモデルの。現在のシーケンス予測タスクでは、チームは大規模言語モデル (LLM) のベスト プラクティスを採用し、時間的注意における正弦波位置エンコーディングをより効率的な回転位置エンコーディング (RoPE 埋め込み) に置き換えました。さらに、トレーニングの安定性を高めるために、SD3 モデル アーキテクチャを参照し、さらに QK 正規化技術を導入して半精度トレーニングの安定性を高めました。複数の解像度、異なるアスペクト比、およびフレーム レートのトレーニング要件をサポートするために、著者のチームが提案した ST-DiT-2 アーキテクチャは、位置エンコーディングを自動的にスケールし、異なるサイズの入力を処理できます。
マルチステージトレーニング
Open-Soraのテクニカルレポートによると、Open-Soraはマルチステージトレーニング方法を採用しており、各ステージは前のステージの重量に基づいてトレーニングを継続します。この多段階トレーニングでは、単一段階のトレーニングと比較して、段階的にデータを導入することで高品質のビデオ生成という目標をより効率的に達成します。
初期段階では、ほとんどのビデオは 144p の解像度を使用し、トレーニング用に写真と 240p、480p のビデオが混合されます。トレーニングは約 1 週間続き、合計ステップ サイズは 81k です。第 2 段階では、ほとんどのビデオ データの解像度が 240p および 480p に増加し、トレーニング時間は 1 日で、ステップ サイズは 22k に達します。第 3 段階は 480p と 720p にさらに強化され、トレーニング期間は 1 日で、4k ステップのトレーニングが完了しました。多段階のトレーニング プロセス全体が約 9 日間で完了しました。Open-Sora1.0 と比較して、ビデオ生成の品質が多面的に向上しました。
統合された画像からビデオ/ビデオからビデオのフレームワーク
著者チームは、Transformer の特性に基づいて、DiT アーキテクチャを簡単に拡張して、画像から画像への変換とビデオからビデオへの変換をサポートできると述べました。ビデオ間のタスク。彼らは、画像とビデオの条件付き処理をサポートするマスキング戦略を提案しました。異なるマスクを設定することにより、グラフィック ビデオ、ループ ビデオ、ビデオ拡張、ビデオ自動回帰生成、ビデオ接続、ビデオ編集、フレーム挿入などのさまざまな生成タスクをサポートできます。
画像とビデオの条件付き処理のマスキング戦略をサポート
著者チームは、UL2[2] メソッドに触発されて、モデルのトレーニング段階でランダム マスキング戦略を導入したと述べています。具体的には、マスクされるフレームはトレーニング プロセス中にランダムに選択され、マスク解除されます。これには、最初のフレーム、最初の k フレーム、次の k フレーム、任意の k フレームなどのマスク解除が含まれますが、これらに限定されません。著者らはまた、Open-Sora 1.0 での実験に基づいて、50% の確率でマスキング戦略を適用すると、モデルはわずかなステップ数で画像調整を処理する方法をより適切に学習できることを明らかにしました。 Open-Sora の最新バージョンでは、マスキング戦略を使用してゼロから事前トレーニングする方法が採用されました。 さらに、著者チームは、推論段階のマスキング戦略構成に関する詳細なガイドも思慮深く提供しています。5 つの数値のタプル形式は、マスキング戦略を定義する際に優れた柔軟性と制御を提供します。 マスクポリシーの設定手順 マルチタイム/解像度/アスペクト比/フレームレートトレーニングをサポート OpenAI Sora の技術レポート [3] は、元のビデオを使用してトレーニングを行うことを指摘しました解像度、アスペクト比、および長さにより、サンプリングの柔軟性が向上し、フレーミングと構成が改善されます。これに関して、著者チームはバケット化戦略を提案しました。 具体的にはどうやって実装するの?著者が発行した技術レポートを詳しく読んだ結果、いわゆるバケットが(解像度、フレーム数、アスペクト比)の 3 つからなることがわかりました。チームは、最も一般的なビデオ アスペクト比タイプをカバーするために、さまざまな解像度のビデオのアスペクト比の範囲を事前定義しました。各トレーニング サイクル エポックの開始前に、データ セットを再シャッフルし、サンプルをその特性に基づいて対応するバケットに割り当てます。具体的には、各サンプルを、解像度とフレーム長がそのビデオ特徴以下のバケットに入れます。 Open-Soraバケット戦略 著者チームはさらに、コンピューティングリソースの要件を軽減するために、keep_probとbatch_sizeごとに2つの属性(解像度、フレーム数)を導入して削減したことを明らかにしました。コストを計算し、多段階のトレーニングを実施します。このようにして、さまざまなバケットのサンプル数を制御し、各バケットの適切なバッチ サイズを検索することで GPU 負荷のバランスをとることができます。著者は技術レポートでこれについて詳しく説明しています。興味のある友人は、GitHub で著者が公開した技術レポートを読んで詳細を入手できます: https://github.com/hpcaitech/Open-Sora データ収集と事前-処理プロセス 著者チームは、データの収集と処理に関する詳細なガイダンスも提供します。テクニカルレポートにおける著者の説明によると、Open-Sora 1.0の開発過程で、高性能モデルを育成するにはデータの量と質が非常に重要であることに気づき、データセットの拡張と最適化に取り組んだという。 。彼らは、特異値分解 (SVD) 原理に従い、シーンのセグメンテーション、字幕処理、多様性のスコアリングとフィルタリング、さらにデータセットの管理システムと仕様をカバーする自動データ処理プロセスを確立しました。同様に、彼らはデータ処理関連のスクリプトを無私にオープンソース コミュニティに共有します。興味のある開発者は、これらのリソースを技術レポートやコードと組み合わせて使用し、独自のデータセットを効率的に処理および最適化できるようになりました。 Open-Soraのデータ処理プロセス ビデオ生成効果の表示 Open-Soraの最も目を引くハイライトは、頭の中にあるシーンをキャプチャし、テキストの説明を通じて動くビデオに変換できます。あなたの心に浮かんだイメージや想像力を永久に記録し、他の人と共有できるようになりました。ここで、著者は出発点としていくつかの異なるプロンプトを試しました。 たとえば、作者は冬の森を訪れるビデオを生成しようとしました。雪が降って間もなく、松の木は白い雪で覆われ、白い雪の結晶がきれいな層に散らばっていました。 あるいは、静かな夜、あなたは無数のおとぎ話に描かれているような暗い森の中にいて、空いっぱいの明るい星の下で深い湖が輝いています。 上空から見る賑やかな島の夜景はさらに美しく、温かみのある黄色の光とリボンのような青い水が人々をゆったりとした休暇の時間へと誘います。 都会の交通量の多さ、深夜でも灯りの灯る高層ビルや路面店はまた違った趣があります。 Open-Sora は風景に加えて、さまざまな自然生物も復元できます。真っ赤な花でも、 でも、ゆっくりと頭を回すカメレオンでも、Open-Sora はよりリアルなビデオを生成できます。 また、作成者はさまざまなプロンプト テストを試み、さまざまなコンテンツ、さまざまな解像度、さまざまなアスペクト比、さまざまな長さを含む、参考のために生成された多数のビデオを提供しました。 著者はまた、Open-Sora がたった 1 つの簡単なコマンドでマルチ解像度のビデオ クリップを生成し、クリエイティブな制限を完全に打ち破ることができることを発見しました。 解像度: 16*240p 解像度: 32*240p 解像度: 64*360p 解像度: 480 *854p Open-Sora に静止画像を供給して短いビデオを生成することもできます Open-Sora は、2 つの静止画像を巧みに接続して、午後から夕暮れまでの光と影の変化を体験することもできます。 別の例として、元のビデオを簡単なコマンドで編集したい場合、元々は明るかった森が大雪に見舞われました。 Open-Sora を使用して高解像度の画像を生成することもできます -Soraモデルの重量はすでに完全に無料です。オープンソース コミュニティで公開されているので、ダウンロードして試してみるとよいでしょう。動画のつなぎ合わせ機能にも対応しているので、ストーリー性のあるショートショートストーリーを無料で作成して、あなたの創造性を現実にする機会があることを意味します。 ウェイトのダウンロードアドレス: https://github.com/hpcaitech/Open-Sora Sora のような Vincent ビデオ モデルの再現では良い結果が得られましたが、進歩はしかし、作者チームは、現在生成されているビデオは、生成プロセス中のノイズの問題、時間的一貫性の欠如、キャラクター生成の品質の低さ、美的スコアの低さなど、多くの点でまだ改善の必要があることも謙虚に指摘しています。これらの課題について、作者チームは、より高いビデオ生成基準を達成するために、次のバージョンの開発でそれらを優先的に解決すると述べています。興味のある方は引き続き注目してください。 Open-Sora コミュニティがもたらす次の驚きを楽しみにしています。 オープンソースアドレス: https://github.com/hpcaitech/Open-SoraOpen-Soraのパフォーマンスの総合評価
現在の制限と将来の計画
以上がOpen-Sora の包括的なオープンソース アップグレード: 16 秒のビデオ生成と 720p 解像度をサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









H5プロジェクトを実行するには、次の手順が必要です。Webサーバー、node.js、開発ツールなどの必要なツールのインストール。開発環境の構築、プロジェクトフォルダーの作成、プロジェクトの初期化、コードの書き込み。開発サーバーを起動し、コマンドラインを使用してコマンドを実行します。ブラウザでプロジェクトをプレビューし、開発サーバーURLを入力します。プロジェクトの公開、コードの最適化、プロジェクトの展開、Webサーバーの構成のセットアップ。

GiteEpages静的Webサイトの展開が失敗しました:404エラーのトラブルシューティングと解像度Giteeを使用する

Beegoormフレームワークでは、モデルに関連付けられているデータベースを指定する方法は?多くのBEEGOプロジェクトでは、複数のデータベースを同時に操作する必要があります。 Beegoを使用する場合...

大企業または有名なオープンソースプロジェクトによって開発されたGOのどのライブラリが開発されていますか? GOでプログラミングするとき、開発者はしばしばいくつかの一般的なニーズに遭遇します...

redisstreamを使用してGo言語でメッセージキューを実装する問題は、GO言語とRedisを使用することです...

H5ページは、コードの脆弱性、ブラウザー互換性、パフォーマンスの最適化、セキュリティの更新、ユーザーエクスペリエンスの改善などの要因のため、継続的に維持する必要があります。効果的なメンテナンス方法には、完全なテストシステムの確立、バージョン制御ツールの使用、定期的にページのパフォーマンスの監視、ユーザーフィードバックの収集、メンテナンス計画の策定が含まれます。

SQL.Openを使用する場合、DSNがエラーを報告しないのはなぜですか? GO言語では、sql.open ...
