Luchen Open-Sora チームは、 720p 高解像度の Vincent ビデオ品質と生成時間 で画期的な進歩を達成し、 あらゆるスタイルでの高品質の短編映画のシームレスな制作をサポートしています 驚くべきことに、彼らはこれを導入することを選択しました。オープンソース コミュニティへの新たな衝撃、そしてすべてをオープンソース化し続けます。
オープンソースアドレス: https://github.com/hpcaitech/Open-Sora
モデルの重みを通じて、波と巻き貝の密着や、計り知れない森の秘密。
キャラクターのポートレートのレンダリングも非常にリアルです。
はサイバーパンク スタイルを正確に表現することもでき、短編映画を即座に未来とテクノロジーの強い感覚に満ちたものにしています。写真は圧縮されています。
は、面白くて鮮やかなアニメーション ショットを生成することもでき、非常に表現力豊かな視覚体験をもたらします。写真は圧縮されています。映画レベルのレンズ製作も簡単に対応できます。
たとえば、スムーズなズーム効果を実現し、プロ級の視覚効果をビデオに追加します。写真は圧縮されています。映画製作者がリアルな映画ショットを作成するのにも役立ちます。写真は圧縮されています。
Luchen の Open-Sora モデルは、その優れたパフォーマンスによりビデオ生成の分野で幅広い展望を明らかにしており、そのモデルの重みとトレーニング コードは完全にオープンソースになっており、興味のある友人は GitHub アドレス https://github にアクセスしてください。 .com/hpcaitech/Open-Sora
Vincentian ビデオ業界のオープンソース戦士
アメリカのテクノロジー業界のユニコーンである LambdaLabs は、以前にオープンされた Open-Sora モデルの重みに基づいて数値を作成しました。ソースは Luchen チームの LEGO Universe で、レゴ ファンは究極のクリエイティブな体験を見つけることができます。
Luchen チームは、Vincent Video の技術的進歩のためのオープンソースの加速をよく認識しています。モデルの重みをオープンソース化し続けるだけでなく、すべてのプレイヤーが技術的なルートを Github で公開します。 Vincent Video の大型モデルのマスター 彼らはもはや単なる傍観者ではありません。このレポートが発表されるとすぐに、私たちは、Vincent ビデオ テクノロジーの最新トレンドを把握するために、すぐに詳細な調査と分析を実施しました。 (レポートアドレス: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md)
技術的深度デコーディング
Luchen OpenSora チームがリリースしたこの技術レポートでは、このモデル トレーニングの中核と重要なポイントを詳しく分析しました。前のバージョンに基づいて、ビデオ圧縮ネットワーク、より優れた拡散モデル アルゴリズム、より制御性が導入され、1.1B 拡散生成モデルをトレーニングするためにより多くのデータが使用されました。
「コンピューティング能力が王様」のこの時代において、私たちはビデオ モデル トレーニングの 2 つの大きな問題点、つまりコンピューティング リソースの膨大な消費と高水準のモデル出力品質をよく知っています。 Luchen Open-Sora チームは、最小限で効果的なソリューションにより、コストと品質のバランスを見つけることに成功しました。
OpenSora チームは、空間と時間の 2 次元で圧縮する革新的なビデオ圧縮ネットワーク (VAE) を提案しました。具体的には、最初に空間次元で 8x8x 圧縮を実行し、続いて時間次元でさらに 4x 圧縮を実行しました。この革新的な圧縮戦略により、フレーム抽出によるビデオの滑らかさが犠牲になるという欠点を回避するだけでなく、トレーニング コストも大幅に削減し、コストと品質の二重の最適化を実現します。
ビデオ圧縮ネットワーク構造
画質と画質を大幅に向上させるStable Diffusion 3 DDPM に代わる整流フロー技術を使用したビデオ生成。 SD3 の整流フロー トレーニング コードはまだ公開されていませんが、Luchen Open-Sora チームは、SD3 の研究結果に基づいて、次のような完全なトレーニング ソリューションを提供しています。
シンプルで使いやすい整流フロートレーニング
トレーニングを高速化するためのロジットノルムタイムステップサンプリング
解像度とビデオの長さに基づくタイムステップサンプリング
これらのテクノロジーを統合することにより、モデルのトレーニングを高速化できるだけでなく、また、推論フェーズの待ち時間を大幅に短縮し、スムーズなユーザー エクスペリエンスを保証します。さらに、このトレーニング ソリューションは、推論プロセス中に複数のビデオ アスペクト比の出力もサポートしており、さまざまなシナリオにおけるビデオ素材のニーズを満たし、ビデオ コンテンツ作成者により豊富なクリエイティブ ツールを提供します。
また、レポートでは、データ クリーニングとモデル チューニングに関する実践的なヒントや、モデルの堅牢性と汎化機能を確保するためのより完全なモデル評価システムの構築など、モデル トレーニングに関する核となる詳細がさらに明らかにされました。また、ワンクリックで展開できる Gradio アプリケーションも提供しており、出力モーション スコア、美的スコア、レンズ移動方法などのパラメータの調整をサポートしており、ワンクリックで GPT-4o を介して命令を自動的に変更することもでき、中国語入力もサポートしています。手を汚さずにはいられない場合は、https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md をクリックしてください
閉ループを打破し、オープンソースを強化しましょう
OpenAI Sora より リリース以来、Sora のオープン性に対する業界の期待は急速に高まっていますが、現実には依然として待たされるゲームです。 Luchen Open-Sora のオープンソースは、Vincent Video の革新と開発に強力な活力を注入しました。 「人に釣りを教えることは、釣りを教えることよりも悪いことです。」 彼らの github アドレスにアクセスすると、モデルの重みとトレーニング コードの完全なセットをしきい値なしで無料で入手でき、これによりユーザーは受動的なコンテンツ消費者からコンテンツ消費者に変わることができます。アクティブなコンテンツクリエイター。この変革により、エンタープライズ ユーザーは、没入型ゲーム、クリエイティブな広告の作成、映画やテレビの大ヒット作の制作など、Vincent Video アプリケーションを独自に開発するための新しいスキルを獲得し、Vincent Video テクノロジのアプリケーション シナリオが飛躍的に拡大しました。
この火花が Vincent ビデオ分野全体の革新への情熱に火をつけ、点から面まで草原の火を起こすことを願っています。
最後に Luchen OpenSora オープンソース リンクを添付します: https://github.com/hpcaitech/Open-Sora
https://wandb.ai/lambdalabs/lego/レポート /Text2Bricks-Fine-tuning-Open-Sora-in-1-000-GPU-Hours--Vmlldzo4MDE3MTky
https://hpc-ai.com/blog/open-sora-from-hpc- ai -tech-team-continus-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use
以上が一眼 16 秒の 720p 高解像度ビデオがワンクリックで生成され、Sora のオープンソース バージョンには新たな驚きがありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。