清华、华为等提出iVideoGPT：专攻交互式世界模型-人工智能-PHP中文网

首页

科技周边

人工智能

清华、华为等提出iVideoGPT：专攻交互式世界模型

王林

Jun 09, 2024 pm 05:06 PM

产业

iVideoGPT，满足世界模型高交互性需求。

近年来，生成模型取得了显着进展，其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是，在多样化的互联网规模数据上以无监督方式学习，用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识，从而能够基于智能体的行为预测潜在的未来结果。

通过利用这些世界模型，采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划，从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。

尽管生成模型和世界模型有着基本的联系，但用于视频生成的生成模型和用于智能体学习的世界模型的发展之间仍然存在显着的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。

在基于模型的强化学习领域，世界模型主要使用循环网络架构。这种设计允许在每一步中基于动作传递观察或潜在状态，从而促进交互行为学习。然而，这些模型大多专注于游戏或模拟环境，数据简单，并且对大规模复杂的 in-the-wild 数据进行建模的能力有限。

相比之下，互联网规模的视频生成模型可以合成逼真的长视频，这些视频可以通过文本描述或未来动作序列进行控制。虽然这样的模型允许高层次的、长期的规划，但它们的轨迹级交互性并没有为智能体提供足够的粒度来有效地学习精确的行为作为基本技能。

来自清华大学、华为诺亚方舟实验室、天津大学的研究者提出了iVideoGPT（Interactive VideoGPT），这是一个可扩展的自回归Transformer 框架，它将多模态信号（视觉观察、动作和奖励）集成到一系列token 中，通过预测下一个Token 使智能体能够进行交互体验。

iVideoGPT 采用新颖的压缩 tokenization 技术，可有效离散高维视觉观察。利用其可扩展架构，研究者能够在数百万人类和机器人操作轨迹上对 iVideoGPT 进行预训练，从而建立一个多功能基础，可用作各种下游任务的交互式世界模型。该研究促进了交互式通用世界模型的发展。

论文地址：https://arxiv.org/pdf/2405.15223
论文标题： iVideoGPT: Interactive VideoGPTs are Scalable World Models

方法

在这一部分，研究团队介绍了一种可扩展的世界模型架构——iVideoGPT，其具有极高的灵活性，能够整合多模态信息，包括视觉观察、动作、奖励以及其他潜在的输入。

iVideoGPT 的核心包括一个压缩 tokenizer，用于离散化视频帧，以及一个自回归 transformer，用于预测后续 token。通过在多样化的视频数据上进行预训练，该模型可以获得广泛的世界知识，然后有效地迁移到下游任务中。

架构

压缩 tokenization。 Transformer 在处理离散 token 序列方面表现特别出色。 VQGAN 是一种常用的视觉 tokenizer，用于将原始像素转换为离散 token。研究者提出用一种由双编码器和解码器 {(E_c, D_c),(E_p, D_p)} 组成的新型条件 VQGAN 对视频进行 token 化。

如图3a 所示，初始上下文帧清华、华为等提出iVideoGPT：专攻交互式世界模型

包含丰富的上下文信息，通过N 个token 独立地进行token 化和重构：

清华、华为等提出iVideoGPT：专攻交互式世界模型

相比之下，由于上下文帧和未来帧之间存在时间冗余，只有必要的变化信息如移动对象的位置和姿态，才需要被编码。上述过程是通过使用条件编码器和解码器实现的：

清华、华为等提出iVideoGPT：专攻交互式世界模型

研究人员通过在多尺度特征图之间使用交叉注意力来实现条件机制。总的来说，tokenizer 是通过以下目标进行训练的：

清华、华为等提出iVideoGPT：专攻交互式世界模型

该研究提出的tokenization 主要有两个好处：

首先，它显着减少了token 化后视频的序列长度，该长度随帧数的增加而线性增长，但增长率n 要小得多；
其次，通过条件编码，预测后续token 的transformer 可以更容易地保持上下文的时间一致性，并专注于建模必要的动态信息。

Transformer 的可交互预测。 Token 化后，视频被展平成一系列 token：

清华、华为等提出iVideoGPT：专攻交互式世界模型

长度为

。特殊的 slot token [S] 被插入以划定帧边界，并促进额外低维模态（如动作）的融合。如图 3b 所示，一个类似 GPT 的自回归 transformer 被用于通过逐帧生成 next-token 来进行交互式视频预测。在这项工作中，该团队使用了 GPT-2 的模型大小，但采用了 LLaMA 架构，以便利用 LLM 架构的最新创新，如旋转位置嵌入。

预训练

大语言模型可以通过next-word 预测以自监督的方式从互联网文本中获得广泛的知识。同样，世界模型的无动作（action-free）视频预训练范式将视频预测作为预训练目标，为 LLM 缺乏的物理世界知识提供互联网规模的监督。

研究人员在这一通用目标上预训练 iVideoGPT，应用交叉熵损失来预测后续视频 token：

清华、华为等提出iVideoGPT：专攻交互式世界模型

预训练数据。虽然互联网上有大量视频可用，但由于计算限制，研究人员特别为机器人操作领域预训练了 iVideoGPT。他们利用来自 Open X-Embodiment（OXE）数据集和 Something-Something v2（SSv2）数据集的 35 个数据集的混合，共计 150 万条轨迹。

微调

动作条件与奖励预测。该团队的架构被设计为灵活地整合额外模态以学习交互式世界模型，如图 3b 所示。动作通过线性投影并添加到 slot token 嵌入中进行整合。对于奖励预测，他们没有学习独立的奖励预测器，而是在每个观察的最后一个 token 的隐藏状态上添加了一个线性头（linear head）。

这种多任务学习方法可以增强模型对任务相关信息的关注，从而提高控制任务的预测准确性。他们在方程式（3）的交叉熵损失之外，还使用了均方误差损失进行奖励预测。

Tokenizer 适应。研究团队选择更新完整模型，包括 tokenizer，以适应下游任务，并发现这一策略比参数高效的微调方法更有效。

很少有文献探讨将 VQGAN tokenizer 用于特定领域的数据。在这项工作中，由于 tokenization 将动态信息与上下文条件解耦，并假设虽然此模型可能在下游任务中遇到未见过的对象，如不同类型的机器人，但 transformer 从多样化场景中学到的基本物理知识 —— 如运动和交互是共享的。

这一假设得到了实验的支持，他们将 iVideoGPT 从混合预训练数据迁移到未见过的 BAIR 数据集，其中预训练的 transformer 可以零样本泛化预测自然运动，仅需对未见过的机器人抓手的 tokenizer 进行微调（见图 7）。这一特性对于将类似 GPT 的 transformer 扩展到大型尺寸尤为重要，能够在保持 transformer 完整的同时实现跨领域的轻量级对齐。

实验

如表 1 所示，与 SOTA 方法相比，iVideoGPT 展现出了具有竞争力的性能，同时在其架构中实现了交互性和可扩展性。虽然初步实验是在 64×64 的低分辨率下进行的，但 iVideoGPT 可以轻松扩展到 RoboNet 的 256×256。

有关定性结果，请参阅图 9。

图 4 显示了 iVideoGPT 与基准模型相比的成功率。iVideoGPT 在两个 RoboDesk 任务中大幅优于所有基线，并实现了与最强模型 SVG' 相当的平均性能。

图 6 显示基于模型的算法不仅比无模型算法提高了样本效率，而且达到或超过了 DreamerV3 的性能。

接下来该研究分析了大规模预训练 iVideoGPT 在未见过的 BAIR 数据集上的零样本视频预测能力。有趣的是，研究者在图 7 的第二行观察到，iVideoGPT 在没有微调的情况下，预测了一个机器人抓手的自然运动 —— 尽管与预训练数据集不同。这表明，尽管由于预训练数据的多样性不足，模型在完全未见过的机器人上的零样本泛化能力有限，但它有效地将场景上下文与运动动态分离开来。相比之下，使用经过适应的 tokenizer，未经过微调的 Transformer 成功地迁移了预训练知识，并在第三行预测了新型机器人的运动，提供了与第四行中完全微调的 Transformer 相似的感知质量，定量结果见图 8a。

了解更多结果，请参考原论文。

以上是清华、华为等提出iVideoGPT：专攻交互式世界模型的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

清华、华为等提出iVideoGPT：专攻交互式世界模型

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题