Stable Video Diffusion來了,程式碼權重已上線
AI 畫圖的著名公司 Stability AI,終於入局 AI 生成影片了。
這週二,基於穩定擴散的視訊生成模型Stable Video Diffusion 推出了,AI 社群立即展開了討論
很多人都表示「我們終於等到了」。
專案連結:https://github.com/Stability-AI/generative-models
現在,你可以利用現有的靜態影像來產生幾秒鐘的影片
基於Stability AI 原有的Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開源或商業行列中為數不多的視訊生成模型之一。
但目前還不是所有人都可以使用,Stable Video Diffusion 已經開放了用戶候補名單註冊(https://stability.ai/contact)。
根據介紹,穩定視訊傳播可以輕鬆適應各種下游任務,包括透過對多視圖資料集進行微調,從單一影像進行多視圖合成。穩定人工智慧表示,正在計劃建立和擴展這一基礎的各種模型,類似於圍繞穩定擴散建立的生態系統
透過穩定的影片傳播,可以以每秒3到30幀的可自訂幀速率產生14和25幀的影片
在外部評估中, Stability AI 證實這些模型超越了用戶偏好研究中領先的閉源模型:
Stability AI 強調,Stable Video Diffusion 現階段不適用於現實世界或直接的商業應用,後續將根據使用者對安全性和品質的見解和回饋來完善此模型。
論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models- to-large-datasets
穩定的視訊傳輸是穩定AI開源模型家族中的一員。現在看來,他們的產品已涵蓋圖像、語言、音訊、三維和程式碼等多個模態,這充分證明了他們對提升人工智慧的承諾
Stable Video Diffusion的技術層面
穩定視訊擴散模型作為一種高解析度視訊的潛在擴散模型,已經達到了文字到視訊或圖像到視訊的SOTA 水平。最近,透過在小型高品質視訊資料集上插入時間層並進行微調,將2D影像合成訓練的潛在擴散模型轉變為生成視訊模型。然而,文獻中的訓練方法千差萬別,該領域尚未就視頻資料整理的統一策略達成一致
在Stable Video Diffusion 的論文中,Stability AI 確定並評估了成功訓練視頻潛在擴散模型的三個不同階段:文字轉影像預訓練、視訊預訓練和高品質視訊微調。他們還證明了精心準備的預訓練資料集對於產生高品質影片的重要性,並介紹了訓練出強大基礎模型的系統化策劃流程,其中包括了字幕和過濾策略。
Stability AI 在論文中也探討了在高品質資料上對基礎模型進行微調的影響,並訓練出一個可與閉源視訊生成相媲美的文本到視頻模型。該模型為下游任務提供了強大的運動表徵,例如影像到視訊的生成以及對攝影機運動特定的 LoRA 模組的適應性。除此之外,該模型還能夠提供強大的多視圖3D 先驗,這可以作為多視圖擴散模型的基礎,模型以前饋方式生成對象的多個視圖,只需要較小的算力需求,性能也優於基於圖像的方法。
具體而言,訓練模型成功需要經歷以下三個階段:
階段一:影像預訓練。 本文將影像預訓練視為訓練 pipeline 的第一階段,並將初始模型建立在 Stable Diffusion 2.1 的基礎上,這樣一來為視訊模型配備了強大的視覺表示。為了分析影像預訓練的效果,本文也訓練並比較了兩個相同的影片模型。圖 3a 結果表明,影像預訓練模型在品質和提示追蹤方面都更受青睞。
階段 2:影片預訓練資料集。 本文依靠人類偏好作為訊號來創建合適的預訓練資料集。本文所建立的資料集為 LVD(Large Video Dataset ),由 580M 對註解的影片片段組成。
進一步調查發現,產生的資料集中包含一些可能會降低最終視訊模型效能的範例。因此,在本文中我們使用了密集光流來給資料集進行標註
#此外,本文也應用光學字元辨識來清除包含大量文字的剪輯。最後,本文使用 CLIP 嵌入來註釋每個剪輯的第一幀、中間幀和最後一幀。下表提供了 LVD 資料集的一些統計資料:
階段 3:高品質微調。 為了分析影片預訓練對最後階段的影響,本文對三個模型進行了微調,這些模型僅在初始化方面有所不同。圖 4e 為結果。
看起來這是個好的開始。什麼時候,我們能用 AI 直接生成一部電影呢?
以上是Stable Video Diffusion來了,程式碼權重已上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

要使用 phpMyAdmin 創建數據表,以下步驟必不可少:連接到數據庫並單擊“新建”標籤。為表命名並選擇存儲引擎(推薦 InnoDB)。通過單擊“添加列”按鈕添加列詳細信息,包括列名、數據類型、是否允許空值以及其他屬性。選擇一個或多個列作為主鍵。單擊“保存”按鈕創建表和列。

創建Oracle數據庫並非易事,需理解底層機制。 1. 需了解數據庫和Oracle DBMS的概念;2. 掌握SID、CDB(容器數據庫)、PDB(可插拔數據庫)等核心概念;3. 使用SQL*Plus創建CDB,再創建PDB,需指定大小、數據文件數、路徑等參數;4. 高級應用需調整字符集、內存等參數,並進行性能調優;5. 需注意磁盤空間、權限和參數設置,並持續監控和優化數據庫性能。 熟練掌握需不斷實踐,才能真正理解Oracle數據庫的創建和管理。

創建Oracle數據庫,常用方法是使用dbca圖形化工具,步驟如下:1. 使用dbca工具,設置dbName指定數據庫名;2. 設置sysPassword和systemPassword為強密碼;3. 設置characterSet和nationalCharacterSet為AL32UTF8;4. 設置memorySize和tablespaceSize根據實際需求調整;5. 指定logFile路徑。 高級方法為使用SQL命令手動創建,但更複雜易錯。 需要注意密碼強度、字符集選擇、表空間大小及內存

Oracle SQL語句的核心是SELECT、INSERT、UPDATE和DELETE,以及各種子句的靈活運用。理解語句背後的執行機制至關重要,如索引優化。高級用法包括子查詢、連接查詢、分析函數和PL/SQL。常見錯誤包括語法錯誤、性能問題和數據一致性問題。性能優化最佳實踐涉及使用適當的索引、避免使用SELECT *、優化WHERE子句和使用綁定變量。掌握Oracle SQL需要實踐,包括代碼編寫、調試、思考和理解底層機制。

MySQL 中字段操作指南:添加、修改和刪除字段。添加字段:ALTER TABLE table_name ADD column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY] [AUTO_INCREMENT]修改字段:ALTER TABLE table_name MODIFY column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY]

嵌套查詢是一種在一個查詢中包含另一個查詢的方式,主要用於檢索滿足複雜條件、關聯多張表以及計算匯總值或統計信息的數據。實例示例包括:查找高於平均工資的僱員、查找特定類別的訂單以及計算每種產品的總訂購量。編寫嵌套查詢時,需要遵循:編寫子查詢、將其結果寫入外層查詢(使用別名或 AS 子句引用)、優化查詢性能(使用索引)。

Oracle 數據庫的完整性約束可確保數據準確性,包括:NOT NULL:禁止空值;UNIQUE:保證唯一性,允許單個 NULL 值;PRIMARY KEY:主鍵約束,加強 UNIQUE,禁止 NULL 值;FOREIGN KEY:維護表間關係,外鍵引用主表主鍵;CHECK:根據條件限制列值。

Oracle 是全球最大的數據庫管理系統(DBMS)軟件公司,其主要產品包括以下功能:關係數據庫管理系統(Oracle 數據庫)開發工具(Oracle APEX、Oracle Visual Builder)中間件(Oracle WebLogic Server、Oracle SOA Suite)雲服務(Oracle Cloud Infrastructure)分析和商業智能(Oracle Analytics Cloud、Oracle Essbase)區塊鏈(Oracle Blockchain Pla
