近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式学习,用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识,从而能够基于智能体的行为预测潜在的未来结果。 通过利用这些世界模型,采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划,从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。尽管生成模型和世界模型有着基本的联系,但用于视频生成的生成模型和用于智能体学习的世界模型的发展之间仍然存在显著的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。在基于模型的强化学习领域,世界模型主要使用循环网络架构。这种设计允许在每一步中基于动作传递观察或潜在状态,从而促进交互行为学习。然而,这些模型大多专注于游戏或模拟环境,数据简单,并且对大规模复杂的 in-the-wild 数据进行建模的能力有限。相比之下,互联网规模的视频生成模型可以合成逼真的长视频,这些视频可以通过文本描述或未来动作序列进行控制。虽然这样的模型允许高层次的、长期的规划,但它们的轨迹级交互性并没有为智能体提供足够的粒度来有效地学习精确的行为作为基本技能。来自清华大学、华为诺亚方舟实验室、天津大学的研究者提出了 iVideoGPT(Interactive VideoGPT),这是一个可扩展的自回归 Transformer 框架,它将多模态信号(视觉观察、动作和奖励)集成到一系列 token 中,通过预测下一个 Token 使智能体能够进行交互体验。iVideoGPT 采用新颖的压缩 tokenization 技术,可有效离散高维视觉观察。利用其可扩展架构,研究者能够在数百万人类和机器人操作轨迹上对 iVideoGPT 进行预训练,从而建立一个多功能基础,可用作各种下游任务的交互式世界模型。该研究促进了交互式通用世界模型的发展。
- 论文地址:https://arxiv.org/pdf/2405.15223
- 论文标题:iVideoGPT: Interactive VideoGPTs are Scalable World Models
在这一部分,研究团队介绍了一种可扩展的世界模型架构 ——iVideoGPT,其具有极高的灵活性,能够整合多模态信息,包括视觉观察、动作、奖励以及其他潜在的输入。iVideoGPT 的核心包括一个压缩 tokenizer,用于离散化视频帧,以及一个自回归 transformer,用于预测后续 token。通过在多样化的视频数据上进行预训练,该模型可以获得广泛的世界知识,然后有效地迁移到下游任务中。压缩 tokenization。Transformer 在处理离散 token 序列方面表现特别出色。VQGAN 是一种常用的视觉 tokenizer,用于将原始像素转换为离散 token。研究者提出用一种由双编码器和解码器 {(E_c, D_c),(E_p, D_p)} 组成的新型条件 VQGAN 对视频进行 token 化。如图 3a 所示,初始上下文帧包含丰富的上下文信息,通过 N 个 token 独立地进行 token 化和重构:
相比之下,由于上下文帧和未来帧之间存在时间冗余,只有必要的变化信息如移动对象的位置和姿态,才需要被编码。上述过程是通过使用条件编码器和解码器实现的:
研究人员通过在多尺度特征图之间使用交叉注意力来实现条件机制。总的来说,tokenizer 是通过以下目标进行训练的:
该研究提出的 tokenization 主要有两个好处:
- 首先,它显著减少了 token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率 n 要小得多;
- 其次,通过条件编码,预测后续 token 的 transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。
Transformer 的可交互预测。Token 化后,视频被展平成一系列 token:
长度为。特殊的 slot token [S] 被插入以划定帧边界,并促进额外低维模态(如动作)的融合。如图 3b 所示,一个类似 GPT 的自回归 transformer 被用于通过逐帧生成 next-token 来进行交互式视频预测。在这项工作中,该团队使用了 GPT-2 的模型大小,但采用了 LLaMA 架构,以便利用 LLM 架构的最新创新,如旋转位置嵌入。大语言模型可以通过 next-word 预测以自监督的方式从互联网文本中获得广泛的知识。同样,世界模型的无动作(action-free)视频预训练范式将视频预测作为预训练目标,为 LLM 缺乏的物理世界知识提供互联网规模的监督。研究人员在这一通用目标上预训练 iVideoGPT,应用交叉熵损失来预测后续视频 token:
預訓練資料。雖然網路上有大量影片可用,但由於計算限制,研究人員特別為機器人操作領域預先訓練了 iVideoGPT。他們利用 Open X-Embodiment(OXE)資料集和 Something-Something v2(SSv2)資料集的 35 個資料集的混合,共計 150 萬條軌跡。 #動作條件與獎勵預測。該團隊的架構被設計為靈活地整合額外模態以學習互動式世界模型,如圖 3b 所示。動作透過線性投影並添加到 slot token 嵌入中進行整合。對於獎勵預測,他們沒有學習獨立的獎勵預測器,而是在每個觀察的最後一個 token 的隱藏狀態上添加了一個線性頭(linear head)。 這種多任務學習方法可以增強模型對任務相關資訊的關注,從而提高控制任務的預測準確性。他們在方程式(3)的交叉熵損失之外,還使用了均方誤差損失進行獎勵預測。 Tokenizer 適應。研究團隊選擇更新完整模型,包括 tokenizer,以適應下游任務,並發現這項策略比參數高效的微調方法更有效。 很少有文獻探討將 VQGAN tokenizer 用於特定領域的資料。在這項工作中,由於tokenization 將動態資訊與上下文條件解耦,並假設雖然此模型可能在下游任務中遇到未見過的對象,如不同類型的機器人,但transformer 從多樣化場景中學到的基本物理知識- 如運動和互動是共享的。 這一假設得到了實驗的支持,他們將iVideoGPT 從混合預訓練資料遷移到未見過的BAIR 資料集,其中預訓練的transformer 可以零樣本泛化預測自然運動,僅需對未見過的機器人抓手的tokenizer 進行微調(見圖7)。這項特性對於將類似 GPT 的 transformer 擴展到大型尺寸尤其重要,能夠在保持 transformer 完整的同時實現跨領域的輕量級對齊。 #如表1 所示,與SOTA 方法相比,iVideoGPT展現出了具有競爭力的效能,同時在其架構中實現了互動性和可擴展性。雖然初步實驗是在 64×64 的低解析度下進行的,但 iVideoGPT 可以輕鬆擴展到 RoboNet 的 256×256。 圖 4 顯示了 iVideoGPT 與基準模型相比的成功率。 iVideoGPT 在兩個 RoboDesk 任務中大幅優於所有基線,並實現了與最強模型 SVG' 相當的平均性能。 圖 6 顯示基於模型的演算法不僅比無模型演算法提高了樣本效率,而且達到或超過了 DreamerV3 的效能。 接下來研究分析了大規模預訓練 iVideoGPT 在未見過的 BAIR 資料集上的零樣本視訊預測能力。有趣的是,研究者在圖 7 的第二行觀察到,iVideoGPT 在沒有微調的情況下,預測了一個機器人抓手的自然運動 —— 儘管與預訓練資料集不同。這表明,儘管由於預訓練資料的多樣性不足,模型在完全未見過的機器人上的零樣本泛化能力有限,但它有效地將場景上下文與運動動態分開。相比之下,使用經過適應的tokenizer,未經過微調的Transformer 成功地遷移了預訓練知識,並在第三行預測了新型機器人的運動,提供了與第四行中完全微調的Transformer 相似的感知質量,定量結果見圖8a。 以上是清華、華為等提出iVideoGPT:專攻互動式世界模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!