結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻
擴散模型的引入推動了文本生成視頻技術的發展,然而,這些方法往往計算成本高昂,且難以實現流暢的物體運動視頻
為了應對這些問題,來自中國科學院深圳先進技術研究院、中國科學院大學和VIVO人工智慧實驗室的研究人員聯合提出了一種名為GPT4Motion的新框架,該框架無需訓練即可生成文字視訊。 GPT4Motion 結合了GPT等大型語言模型的規劃能力、Blender軟體提供的物理模擬能力以及擴散模型的文生成圖能力,旨在大幅提升影片合成的品質
- 專案連結:https://gpt4motion.github.io/
- 論文連結:https:/ /arxiv.org/pdf/2311.12631.pdf
- #程式碼連結:https://github.com/jiaxilv/GPT4Motion
#GPT4Motion 使用GPT-4 基於使用者輸入的文字prompt 產生Blender 腳本。它利用 Blender 的實體引擎來創建基本的場景元件,並將其封裝為連續的跨幀運動。然後,將這些組件輸入到擴散模型中,生成與文本prompt 相匹配的視頻
#實驗結果表明,GPT4Motion 能夠高效地生成高質量的視頻,同時保持了運動的一致性和實體的一致性。需要注意的是,GPT4Motion 使用了實體引擎,使得產生的影片更加真實。這為文字生成影片提供了新的視角
讓我們先看看GPT4Motion的生成效果,例如輸入文字提示:「一件白色T卹在微風中飄動」、“一件白色T卹在風中飄動」、「一件白色T卹在大風中飄動」。由於風的強度不同,GPT4Motion產生的影片中白色T恤的飄動幅度也不同:
在液體流動形態方面,GPT4Motion 產生的影片也能夠很好地表現出來:
籃球從空中旋轉落下:
方法介紹
該研究的目標是根據使用者對一些基本物理運動場景的prompt,產生一個符合物理特性的影片。物理特性通常與物體的材料有關。研究者的重點在於模擬日常生活中常見的三種物體材料:1)剛性物體,在受力時能保持形狀不改變;2)布料,其特徵是柔軟且易飄動;3)液體,表現出連續和可變形的運動。
此外,研究人員也特別關注這些材料的幾種典型運動模式,包括碰撞(物體之間的直接撞擊)、風效應(氣流引起的運動)和流動(連續且朝著一個方向移動)。模擬這些物理場景通常需要經典力學、流體力學和其他物理知識。目前專注於文字生成影片的擴散模型很難透過訓練來獲得這些複雜的物理知識,因此無法製作出符合物理特性的影片
GPT4Motion的優勢在於:確保產生的影片不僅與使用者輸入的提示一致,而且在物理上也是正確的。 GPT-4的語意理解和程式碼產生能力可以將使用者的提示轉換為Blender的Python腳本,該腳本可以驅動Blender的內建實體引擎來模擬對應的實體場景。此外,研究也使用了ControlNet,將Blender模擬的動態結果作為輸入,指導擴散模型逐幀產生影片
##利用GPT-4 啟動Blender 進行模擬操作
研究者觀察到,雖然 GPT-4 對 Blender 的 Python API 有一定的了解,但它根據使用者 prompt 產生 Blender 的 Python 腳本的能力仍然有所欠缺。一方面,要求 GPT-4 直接在 Blender 中創建哪怕是一個簡單的 3D 模型(如籃球)似乎都是一項艱鉅的任務。另一方面,由於 Blender 的 Python API 資源較少且 API 版本更新較快,GPT-4 很容易誤用某些功能或因版本差異而出錯。為了解決這些問題,研究提出了以下方案:
- 使用外部3D 模型
- 封裝Blender 函數
- 將使用者prompt 轉換為物理特性
圖3 顯示了該研究為GPT-4 設計的通用prompt 範本。它包括封裝的 Blender 函數、外部工具和使用者指令。研究者在模板中定義了虛擬世界的尺寸標準,並提供了有關攝影機位置和視角的資訊。這些資訊有助於 GPT-4 更能理解三維空間的佈局。之後基於使用者輸入的 prompt 產生對應的指令,引導 GPT-4 產生對應的 Blender Python 腳本。最後,透過該腳本,Blender 渲染出物體的邊緣和深度,並以影像序列的形式輸出。
#重寫後的內容:製作遵循物理規律的影片
這項研究旨在根據使用者提供的提示和Blender所提供的相應物理運動條件,產生與文字內容一致且視覺效果逼真的影片。為此,研究採用了擴散模型XL(SDXL)來完成生成任務,並對其進行了改進
- 物理運動約束
- 時間一致性限制
實驗結果
#控制物理特性
圖4展示了GPT4Motion在三種提示下產生的籃球運動視頻,涉及籃球的下落和碰撞。在圖4的左側,籃球在旋轉時保持了高度逼真的紋理,並準確地複製了與地面碰撞後的彈跳行為。圖4的中間顯示,此方法可以精確控制籃球的數量,並有效地產生多個籃球落地時發生的碰撞和彈跳。令人驚訝的是,如圖4右側所示,當使用者要求將籃球拋向攝影機時,GPT-4會根據生成腳本中籃球的下落時間計算出必要的初始速度,從而實現逼真的視覺效果。這表明,GPT4Motion可以與GPT-4所掌握的物理知識相結合,從而控制生成的視頻內容
在風中飄動的布料。圖 5 和圖 6 驗證了 GPT4Motion 在產生在風力影響下運動的布匹的能力。利用現有的實體引擎進行模擬,GPT4Motion 可產生不同風力下布的波動和波浪。在圖 5 展示了一面飄動旗幟的生成結果。在不同風力下,旗幟呈現複雜的波紋和波浪圖案。圖 6 顯示了不規則布料物體 —— T 卹,在不同風力下的運動情況。受織物彈性和重量等物理特性的影響,T 卹發生了抖動和扭曲,並出現了明顯的褶皺變化。
#圖 7 展示了將不同黏度的水倒入馬克杯的三段影片。當水的黏度較低時,流動的水與杯子中的水發生碰撞並融合,形成複雜的湍流現象。隨著黏度的增加,水流變得緩慢,並且液體開始相互黏連在一起
#與基準方法對比
在圖1中,GPT4Motion與其他基準方法進行了直覺對比。很明顯,基線方法的結果與使用者的提示不符。 DirecT2V和Text2Video-Zero在紋理逼真度和動作一致性方面有缺陷,而AnimateDiff和ModelScope雖然提高了影片的流暢度,但在紋理一致性和動作逼真度方面仍有提升空間。與這些方法相比,GPT4Motion可以在籃球下落和與地板碰撞後的彈跳過程中產生平滑的紋理變化,看起來更加逼真
如圖8(第一行)所示,AnimateDiff 和Text2Video-Zero 產生的影片在旗幟上出現了偽影/ 扭曲,而ModelScope 和DirecT2V 則無法平滑地產生旗幟在風中飄動的漸變。但是,如圖 5 中間所示,GPT4Motion 產生的影片可以顯示出旗幟在重力和風力作用下皺紋和波紋的連續變化。
所有基準的結果都與使用者提示不符,如圖8中的第二行所示。儘管AnimateDiff和ModelScope的影片反映了水流的變化,但它們無法捕捉到水倒入杯子的物理效果。另一方面,由Text2VideoZero和DirecT2V產生的影片則創造了一個不斷抖動的杯子。與此相比,如圖7(左)所示,GPT4Motion產生的影片準確地描述了水流與馬克杯碰撞時的激盪,效果更加逼真
有興趣的讀者可以閱讀原始論文,以了解更多的研究內容
以上是結合物理引擎,GPT-4+擴散模型產生逼真、連貫、合理視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺
