別等OpenAI了,全球首個類Sora搶先開源!所有訓練細節/模型權重全公開,成本僅1萬美元
就在不久前,OpenAI Sora憑藉其驚人的視訊生成效果迅速走紅,凸顯出與其他文生視訊模型的差異,並成為全球矚目的焦點。
繼2週前推出成本直降46%的Sora訓練推理復現流程後,Colossal-AI團隊全面開源全球首個類別Sora架構視訊生成模型“ Open-Sora 1.0”——涵蓋了整個訓練流程,包括資料處理、所有訓練細節和模型權重,攜手全球AI熱愛者共同推進視頻創作的新紀元。
Open-Sora開源位址:https://github.com/hpcaitech/Open-Sora
#先睹為快,我們先看一段由Colossal-AI團隊發布的「Open-Sora 1.0」模型生成的都市繁華掠影影片。
Open-Sora 1.0生成的都市繁華掠影
##這只是Sora復現技術冰山的一角,關於以上文生影片的模型架構、訓練好的模型權重、復現的所有訓練細節、資料預處理過程、demo展示和詳細的上手教學,Colossal-AI團隊已經全面免費開源在GitHub。
新智元第一時間聯繫了該團隊,獲悉他們將持續更新Open-Sora相關解決方案和最新動態。有興趣的朋友可保持關注Open-Sora的開源社群。
接下來,我們將深入解讀Sora復現方案的多個關鍵維度,包括模型架構設計、訓練復現方案、資料預處理、模型生成效果展示、高效訓練最佳化策略。
模型架構設計
#模型採用了目前火熱的Diffusion Transformer(DiT)[1]架構。
作者團隊以同樣使用DiT架構的高品質開源文生圖模型PixArt-α [2]為基座,在此基礎上引入時間注意力層,將其擴展到了視訊數據上。
具體來說,整個架構包括一個預先訓練好的VAE,一個文字編碼器,和一個利用空間-時間注意力機制的STDiT(Spatial Temporal Diffusion Transformer)模型。
其中,STDiT 每層的結構如下圖所示。它採用串列的方式在二維的空間注意力模組上疊加一維的時間注意力模組,用於建模時序關係。
在時間注意力模組之後,交叉注意力模組用來對齊文字的語意。與全注意力機制相比,這樣的結構大大降低了訓練和推理開銷。
與同樣使用空間-時間注意力機制的Latte [3]模型相比,STDiT可以更好的利用已經預先訓練好的圖像DiT的權重,從而在視頻數據上繼續訓練。
STDiT結構示意圖
整個模型的訓練和推理流程如下。據了解,在訓練階段首先採用預先訓練的Variational Autoencoder(VAE)的編碼器將視訊資料進行壓縮,然後在壓縮之後的潛在空間中與文字嵌入(text embedding)一起訓練STDiT擴散模型。
在推理階段,從VAE的潛在空間中隨機取樣出一個高斯噪聲,與提示詞嵌入(prompt embedding)一起輸入到STDiT中,得到去噪之後的特徵,最後輸入到VAE的解碼器,解碼得到影片。
模型的訓練流程
#訓練復現方案
#我們向團隊了解到,Open-Sora的複現方案參考了Stable Video Diffusion(SVD)[3]工作,共包括三個階段,分別是:
1. 大規模影像預訓練;
2. 大規模影片預訓練;
##3. 高品質視訊資料微調。
每個階段都會基於前一個階段的權重繼續訓練。相較於從零開始單階段訓練,多階段訓練透過逐步擴展數據,更有效率地達成高品質視訊生成的目標。
訓練方案三階段
第一階段:大規模影像預訓練
第一階段透過大規模影像預訓練,借助成熟的文生圖模型,有效降低視訊預訓練成本。 ######
作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练一个高质量的文生图模型,该模型将作为下一阶段视频预训练的初始化权重。
同时,由于目前没有高质量的时空VAE,他们采用了Stable Diffusion [5]模型预训练好的图像VAE。该策略不仅保障了初始模型的优越性能,还显著降低了视频预训练的整体成本。
第二阶段:大规模视频预训练
第二阶段执行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列关联。
我们了解到,这个阶段需要使用大量视频数据训练,保证视频题材的多样性,从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。
其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。
Colossal-AI团队使用了PixArt-alpha[2]的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5 [6]模型作为文本编码器。同时他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。
第三阶段:高质量视频数据微调
第三阶段对高质量视频数据进行微调,显著提升视频生成的质量。
作者团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。
作者团队表示,在Open-Sora的复现流程中,他们使用了64块H800进行训练。
第二阶段的训练量一共是2808 GPU hours,约合7000美元。第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。
数据预处理
为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型LLaVA [7]生成精细的提示词。
作者团队提到他们提供的批量视频标题生成代码可以用两卡3秒标注一个视频,并且质量接近于GPT-4V。最终得到的视频/文本对可直接用于训练。
借助他们在GitHub上提供的开源代码,我们可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。
基于数据预处理脚本自动生成的视频/文本对
模型生成效果展示
下面我们来看一下Open-Sora实际视频生成效果。比如让Open-Sora生成一段在悬崖海岸边,海水拍打着岩石的航拍画面。
再让Open-Sora去捕捉山川瀑布从悬崖上澎湃而下,最终汇入湖泊的宏伟鸟瞰画面。
除了上天还能入海,简单输入prompt,让Open-Sora生成了一段水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋。
Open-Sora还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。
如果你还有更多视频生成的有趣想法,可以访问Open-Sora开源社区获取模型权重进行免费的体验。
链接:https://github.com/hpcaitech/Open-Sora
值得注意的是,作者团队在Github上提到目前版本仅使用了400K的训练数据,模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中,生成的乌龟多了一只脚。Open-Sora 1.0也并不擅长生成人像和复杂画面。
作者团队在Github上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。
高效訓練加持
除了大幅降低Sora復現的技術門檻,提升影片生成在時長、解析度、內容等多個維度的質量,作者團隊也提供了Colossal-AI加速系統進行Sora復現的高效訓練加持。
透過算符優化和混合平行等高效訓練策略,在處理64幀、512x512解析度視訊的訓練中,實現了1.55倍的加速效果。
同時,得益於Colossal-AI的異質記憶體管理系統,在單一伺服器上(8 x H800)可以無阻礙地進行1分鐘的1080p高清視訊訓練任務。
此外,在作者團隊的報告中,我們也發現STDiT模型架構在訓練時也展現出卓越的高效性。
和採用全注意力機制的DiT相比,隨著幀數的增加,STDiT實現了高達5倍的加速效果,這在處理長視頻序列等現實任務中尤為關鍵。
一覽Open-Sora模型影片產生效果
歡迎持續關注Open-Sora開源專案:https://github.com/hpcaitech/Open-Sora
作者團隊提及,他們將繼續維護和優化Open-Sora項目,預計將使用更多的視頻訓練數據,以產生更高質量、更長時長的視頻內容,並支持多分辨率特性,切實推進AI技術在電影、遊戲、廣告等領域的落地。
以上是別等OpenAI了,全球首個類Sora搶先開源!所有訓練細節/模型權重全公開,成本僅1萬美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi
