最近、Vincent ビデオ、Tu ビデオなど、ビデオ生成モデル トラックがブームです。しかし、数多くのモデルが市場に出回っているにもかかわらず、社内検定の資格がないため、ほとんどの人はまだ体験することができず、「モデル」を眺めてため息をつくことしかできません。少し前に、Luchen Technology の Open-Sora モデルについて報告しました。これは世界初のオープンソースの Sora に似たモデルであり、複数の種類のビデオで優れたパフォーマンスを発揮するだけでなく、低コストで誰でも利用できます。効果ありますか?使い方?このサイトの口コミを見てみましょう。
最近、Open-Sora の新しいオープンソース バージョン 1.2 では、最長 16 秒の 720p 高解像度ビデオを生成できます。公式ビデオ エフェクトは次のとおりです:
生成されたエフェクトは本当に驚くべきものです。背景にいる非常に多くの読者が体験を始めたいと思っていることを意味します。 内部テストの資格を得るために長いキューを必要とする多くのクローズド ソース ソフトウェアと比較して、この完全にオープンソースの Open-Sora は明らかにアクセスしやすいです。ただし、Open-Sora の公式 Github にはテクノロジーとコードが満載です。このエクスペリエンスを自分でデプロイしたい場合、モデルのハードウェア要件は言うまでもなく、構成時のユーザーのコーディング スキルにとっても大きな課題となります。環境。 それでは、初心者の AI ユーザーでも簡単に Open-Sora を使用できるようにする方法はあるのでしょうか? まず結論: はい、起動後はワンクリックで展開でき、ビデオの長さ、フレーム、レンズ、その他のパラメーターもコードなしで制御できます。 興奮していますか?次に、Open-Sora デプロイメントを実装する方法を見てみましょう。記事の最後には、乳母レベルの詳細なチュートリアルと使用方法のアドレスがあり、技術的な背景がなくても操作できます。Gradio をベースにした可視化ソリューション
Open-Sora の最新の技術詳細について、Gradio 自体は、機械学習モデルを迅速にデプロイするために設計された Python パッケージです。これにより、開発者はモデルの入力と出力を定義することで Web インターフェイスを自動的に生成できるため、モデルのオンライン表示と対話プロセスが簡素化されます。 Open-Sora の GitHub ホームページを注意深く読んだところ、このアプリケーションは Open-Sora モデルと Gradio を有機的に組み合わせており、エレガントで簡潔な対話ソリューションを提供していることがわかりました。 操作を簡単にするためにグラフィカルインターフェイスを使用しています。ユーザーは、インターフェイスで、生成されたビデオの継続時間、アスペクト比、解像度などの基本パラメータを自由に変更でき、また、生成されたビデオの動きの振幅、美的スコア、およびより高度なレンズ移動方法を個別に調整することもできます。プロンプトを最適化するための GPT-4 の呼び出しもサポートしているため、中国語と英語の両方のテキスト入力をサポートできます。 Open-Sora モデルを使用する場合、アプリケーションをデプロイした後、ユーザーはプロンプトを入力してクリックしてパラメーターを置き換えるだけで、ビデオを生成するためにさまざまなパラメーターの組み合わせを試すことができます。生成されたビデオは Gradio インターフェイスにも直接表示され、複雑なパスを必要とせずに Web ページに直接ダウンロードできます。画像ソース: https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png
Open-Sora チームがスクリプトを持っていることに気付きましたモデルを Gradio に適合させるためのコードは Github で提供されており、デプロイ用のコマンド ライン コードも提供されています。ただし、デプロイされたコードを正常に実行するには、依然として複雑な環境構成を行う必要があります。 Open-Sora の機能を十分に体験したい場合、特に長時間の高解像度 (720P 16 秒など) ビデオを生成するには、優れたパフォーマンスと大容量のビデオ メモリを備えたグラフィック カードが必要です (公式のものは H800)。 。 Gradio のソリューションには、これら 2 つの問題を解決する方法が記載されていないようです。 これら 2 つの問題は一見非常に難しいように思えるかもしれませんが、Luchen Cloud によって完全に解決され、テクノロジーを必要とせずに本当に簡単に導入できます。どうやって始めるのか?このサイトには非常に簡単なチュートリアルがあります。非常にシンプルなワンクリック導入チュートリアル
Open-Sora を Luchen Cloud に導入するのはどのくらい簡単ですか?まず、Luchenyun は複数の種類のグラフィックス カードを提供しており、その中で A800 や H800 などのハイエンドのグラフィックス カードも簡単にレンタルできます。テストの結果、この 80 GB ビデオ メモリ カードは、1 枚のカードで Open-Sora プロジェクトの推論要件を満たすことができます。
第二に、Luchen Cloud は Open-Sora プロジェクト用の専用イメージを装備しました。このイメージは、荷物を持って移動できる、洗練された部屋のようなものです。操作環境全体をワンクリックで開始できるため、複雑な環境設定リンクは必要ありません。
最後に、Luchenyun は非常に有利な価格と非常に個別化されたサービスも提供しています。 A800 カードの価格は 1 時間あたり 10 元未満で、イメージの初期化にかかる時間は請求されません。クラウド ホストはいつでもシャットダウンされ、請求は停止されます。つまり、1時間あたり10元未満で、Open-Soraがもたらす驚きの体験を十分に楽しむことができます。また、記事の最後には100元クーポンを取得する方法も記載していますので、急いでアカウント登録をしてクーポンを取得し、チュートリアルに従ってください。
Luchenyun Webサイト: https://cloud.luchentech.com/
まず、Webサイトに入り、Luchenyunにアカウントを登録します。メイン ページに入るとすぐに、コンピューティング パワー市場でレンタル可能なマシンが直接表示されます。クーポンを取得するか 10 元をチャージすると、Luchenyun のユーザー ガイドに従ってクラウド ホストの構築を開始できます。
最初のステップは鏡を選ぶことです。公開イメージを開いて最初にクリックするのは OpenSora (1.2) ですが、これは非常に便利です。
2 番目のステップは、請求方法を選択することです。課金方法には潮汐課金と従量課金の2つがあります。試してみたところ、潮汐計測によりコストが節約され、A800 はアイドル期間中はさらに安くなることがわかりました。
Open-Sora 推論の場合、A800 で十分です。1 カード構成を選択し、SSH 接続、ストレージの永続化、およびマウントされた公開データ (モデルの重みを含む) を許可しました。これらの機能は無料でさらに便利で超良心的です。
選択後、「作成」をクリックします。クラウドホストの起動時間は非常に短く、数十秒以内にマシンが起動します。この期間には料金は発生しないため、比較的大きな画像に時間がかかる場合でも、料金を心配する必要はありません。
3 番目のステップでは、クラウド ホスト ページから JupyerLab をクリックして Web ページに入ります。入るとすぐにターミナルが開かれました。
「ls」と入力してクラウド ホストのファイルを表示すると、Open-Sora フォルダーが初期パスにあることがわかります。
Open-Sora専用イメージを使用しているため、追加の環境をインストールする必要はありません。最も時間のかかるステップが完璧に解決されました。
現時点では、Gradio を実行するコマンドを直接入力して、Gradio をすばやく起動し、本当にワンクリックのデプロイを実現できます。
Bashpython gradio/app.py
その速度は非常に速く、Gradio が実行を開始するまでにわずか 10 秒以上かかります。
ただし、この gradio はデフォルトでサーバーの http://0.0.0.0:7860 で実行されることがわかりました。ローカル ブラウザで使用したい場合は、まずマシン内の Luchen Cloud に ssh 公開キーを追加する必要があります。 。この手順も非常に簡単で、以下のファイルを入力し、ローカル マシンの秘密キーを貼り付けるだけです。
次に、ローカル補完ポート マッピング手順を記述する必要もあります。これを使用する場合は、このスクリーンショットの手順に従って、独自のクラウド ホストの特定のアドレスとポートに置き換える必要があります。
その後、対応するWebページを開くと、すぐに視覚的な操作インターフェイスが表示されます。
最初に英語のプロンプトをランダムに入力し、クリックして生成を開始しました (デフォルトの 480p が使用され、より高速になります)。
a river flowing through a rich landscape of trees and mountains (一条河流流经茂密的树木和山脉)
很快生成就完成了,耗时约 40 秒。生成结果整体还不错,有河有山有树木,和指令符合。但是我们期待的是雄鹰从高处俯瞰的效果。
没关系,调整了指令再来一次:
a bird's eye view of a river flowing through a rich landscape of trees and mountains (鸟瞰河流流经树木和山脉的丰富景观)
这次生成的内容果然带上了鸟瞰效果。不错,这个模型还是很听话的。
如前文所说,gradio 界面上还有很多其他选项,比如调整分辨率、画幅长宽比、视频时长,甚至还能控制视频的动态效果幅度等,可玩性非常强,我们测试时使用的是 480P 分辨率,而最高可支持 720P,大家可以逐个尝试,看看不同选项搭配的效果。
想要进阶?微调也能轻松上手
此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!
让我们用潞晨云的公开数据中提供的视频数据来验证一下。
由于环境全都是配置好的,我们只需复制粘贴训练指令。
torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv
这边输出了一连串模型训练的信息。
训练已经正常启动了,居然只要单卡就能训!
( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。
以下是我们训练的时候 GPU 资源占用情况:
简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。
在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。
不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:
95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元
この数値はまだ評価するには少し敷居が高いですが、独自の Vincent ビデオ モデルを作成するのに非常に費用対効果が高くなります。特に企業の場合は、基本的に準備作業は必要なく、ステップバイステップのチュートリアルに従うことで、10万元未満、さらにはそれ以下で微調整を完了できます。プロの分野で Open-Sora のさらに強化されたバージョンが登場することを本当に楽しみにしています。
最後に、先ほど述べた100元クーポン特典イベントを追加しましょう〜レビューのコストは10元未満ですが、それでもお金を節約する必要があります!
Luchen Cloud の公式情報から、ユーザーがソーシャル メディアや専門フォーラム (Zhihu、Xiaohongshu、Weibo、CSDN など) で (#Luchenyun または @Luchen Technology を使用して) 経験を共有していることがわかります。 )、一度効果的に共有することで 100 元のクーポン (1 週間有効) を獲得できます。これは、評価中に生成された 500 ~ 600 のビデオに相当します~
最後に、関連リソースのリンクをまとめました。誰もがすぐに始められるように、以下を参照してください。すぐに試してみたい友達は、クリックして元のテキストを読み、ワンクリックで送信して、AI ビデオの旅を始めましょう。
関連リソースリンク:
Lu Chenyun プラットフォーム: https://cloud.luchentech.com/
Open-Sora コードベース: https://github.com/hpcaitech / Open-Sora/tree/main?tab=readme-ov-file#inference
Bilibili チュートリアル: https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd36ff0e535a768e35d98d2
以上が早く来て! Luchen Open-Sora は羊毛を集めることができ、10 元で簡単にビデオ生成を始めることができます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。