社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

王林

發布： 2024-01-29 09:09:26

轉載

1304 人瀏覽過

建立會做影片的世界模型，也能透過Transformer來實現了！

來自清華和極佳科技的研究人員聯手，推出了全新的影片生成通用世界模型－WorldDreamer。

它可以完成多種影片生成任務，包括自然場景和自動駕駛場景，如文生影片、圖生影片、影片編輯、動作序列生影片等。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

根據團隊介紹，透過預測Token的方式來建立通用場景世界模型，WorldDreamer是業界首個。

它把影片產生轉換為一個序列預測任務，可以對物理世界的變化和運動規律進行充分地學習。

視覺化實驗已經證明，WorldDreamer已經深刻地理解了通用世界的動態變化規律。

那麼，它都能完成哪些影片任務，效果如何呢？

支援多種視訊任務

映像產生視訊（Image to Video）

#WorldDreamer可以基於單一影像預測未來的幀。

只需首張圖片輸入，WorldDreamer將剩餘的視訊影格視為被遮罩的視覺Token，並對這部分Token進行預測。

如下圖所示，WorldDreamer具有產生高品質電影級影片的能力。

其生成的影片呈現出無縫的逐幀運動，類似於真實電影中流暢的攝影機運動。

而且，這些影片嚴格遵循原始影像的約束，確保幀構圖的顯著一致性。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

文字產生影片（Text to Video）

#WorldDreamer也可以基於文字進行影片產生。

僅僅給定語言文字輸入，此時WorldDreamer認為所有的視訊框架都是被遮罩的視覺Token，並對這部分Token進行預測。

下圖展示了WorldDreamer在各種風格範式下從文字生成影片的能力。

產生的影片與輸入語言無縫契合，其中使用者輸入的語言可以塑造影片內容、風格和相機運動。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

影片修改（Video Inpainting）

#WorldDreamer進一步可以實作影片的inpainting任務。

具體來說，給定一段視頻，用戶可以指定mask區域，然後根據語言的輸入可以更改被mask區域的視頻內容。

如下圖所示，WorldDreamer可以將水母更換為熊，也可以將蜥蜴換成猴子，更換後的影片高度符合使用者的語言描述。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

影片風格化（Video Stylization）

除此之外，WorldDreamer可以實現影片的風格化。

如下圖所示，輸入一個影片段，其中某些像素被隨機掩碼，WorldDreamer可以改變影片的風格，例如根據輸入語言建立秋季主題效果。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

基於動作合成影片（Action to Video）

#WorldDreamer也可以實現在自動駕駛場景下的駕駛動作到影片的生成。

如下圖所示，給定相同的初始幀以及不同的駕駛策略（如左轉、右轉），WorldDreamer可以產生高度符合首幀約束以及駕駛策略的影片。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

那麼，WorldDreamer又是怎麼實現這些功能的呢？

用Transformer建構世界模型

研究人員認為，目前最先進的影片產生方法主要分為兩類－基於Transformer的方法和基於擴散模型的方法。

利用Transformer進行Token預測可以高效學習到視訊訊號的動態訊息，並且可以重複使用大語言模型社群的經驗，因此，基於Transformer的方案是學習通用世界模型的有效途徑。

而基于扩散模型的方法难以在单一模型内整合多种模态，且难以拓展到更大参数，因此很难学习到通用世界的变化和运动规律。

而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领域，缺乏全面捕捉通用世界变化和运动规律的能力。

所以，研究团队提出了WorldDreamer来加强对通用世界的变化和运动规律的学习理解，从而显著增强视频生成的能力。

借鉴大型语言模型的成功经验，WorldDreamer采用Transformer架构，将世界模型建模框架转换为一个无监督的视觉Token预测问题。

具体的模型结构如下图所示：

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

WorldDreamer首先使用视觉Tokenizer将视觉信号（图像和视频）编码为离散的Token。

这些Token在经过掩蔽处理后，输入给研究团队提出的Sptial Temporal Patchwuse Transformer（STPT）模块。

同时，文本和动作信号被分别编码为对应的特征向量，以作为多模态特征一并输入给STPT。

STPT在内部对视觉、语言、动作等特征进行充分的交互学习，并可以预测被掩码部分的视觉Token。

最终，这些预测出的视觉Token可以用来完成各种各样的视频生成和视频编辑任务。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

值得注意的是，在训练WorldDreamer时，研究团队还构建了Visual-Text-Action（视觉-文本-动作）数据的三元组，训练时的损失函数仅涉及预测被掩蔽的视觉Token，没有额外的监督信号。

而在团队提出的这个数据三元组中，只有视觉信息是必须的，也就是说，即使在没有文本或动作数据的情况下，依然可以进行WorldDreamer的训练。

这种模式不仅降低了数据收集的难度，还使得WorldDreamer可以支持在没有已知或只有单一条件的情况下完成视频生成任务。

研究团队使用大量数据对WorldDreamer进行训练，其中包括20亿经过清洗的图像数据、1000万段通用场景的视频、50万段高质量语言标注的视频、以及近千段自动驾驶场景视频。

团队对10亿级别的可学习参数进行了百万次迭代训练，收敛后的WorldDreamer逐渐理解了物理世界的变化和运动规律，并拥有了各种的视频生成和视频编辑能力。

论文地址：https://arxiv.org/abs/2401.09985
项目主页：https://world-dreamer.github.io/

以上是Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

影片 ai

上一篇：OpenAI聯合創始人Karpathy發布文章：以自動駕駛為例解釋AGI！已刪除的原文，請立即收藏下一篇：多個異構大模型的融合帶來驚人效果

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

公眾號網頁更新緩存難題：如何避免版本更新後舊緩存影響用戶體驗？

2025-03-04 13:24:15
叉子

2025-02-28 14:39:11
培訓大語言模型：從TRPO到GRPO

2025-02-26 04:41:08
託管開源LLM的經濟學

2025-02-26 03:15:10
當機器提前思考時：戰略AI的興起

2025-02-26 03:06:12
了解chatgpt的演變：第3部分 - Codex和Consendgpt的見解

2025-02-26 02:58:10
LLM中具有稀疏自動編碼器的特徵電路的配方

2025-02-26 01:46:08
封閉式學習背後的數學

2025-02-26 00:03:10
從簡歷到求職信，使用AI和LLM，帶有Python和簡化

2025-02-25 23:59:12
我們需要的一切嗎？

2025-02-25 19:49:12

最新問題

模板在哪裡呢?

來自於 1970-01-01 08:00:00

0

0

0

如何使用Google Vertext AI Vision API建立一個簡單的網站，將使用者提交的圖片轉換為文字。

來自於 1970-01-01 08:00:00

0

0

0

如何在 Windows/Linux 上使用環境變數..？

來自於 1970-01-01 08:00:00

0

0

0

Reactjs中的UI沒有被更新

來自於 1970-01-01 08:00:00

0

0

0

java - springboot新手學習

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

jquery 基礎影片教學

100061

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板