3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑-人工智能-PHP中文网

3D-VLA基础模型

实验结果

多模态目标生成

首页

科技周边

人工智能

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 25, 2024 pm 04:10 PM

ai 3d

在最近的研究中，视觉-语言-动作（VLA，vision-language-action）模型的输入基本都是2D数据，没有集成更通用的3D物理世界。
此外，现有的模型通过学习「感知到动作的直接映射」来进行动作预测，忽略了世界的动态性，以及动作和动态之间的关系。
相比之下，人类在思考时会引入世界模型，可以描绘除对未来情景的想象，从而对下一步的行动进行规划。
为此，来自马萨诸塞州大学阿默斯特分校、MIT等机构的研究人员提出了3D-VLA模型，通过引入一类全新的具身基础模型（embodied foundation models），可以根据生成的世界模型无缝连接3D感知、推理和行动。
3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

项目主页：https://vis-www.cs.umass.edu/3dvla/

论文地址：https://arxiv.org/abs/2403.09631

具体而言，3D-VLA构建在基于3D的大型语言模型（LLM）之上，并引入一组交互token来参与具身环境中。

淦创团队培训了一系列具身扩散模型，将生成能力注入模型，并将其对齐到LLM中，以便预测目标图像和点云。

为了训练3D-VLA模型，我们从现有的机器人数据集中提取了大量的3D相关信息，构建了一个庞大的3D具身指令数据集。

研究结果显示，3D-VLA在处理具身环境中的推理、多模态生成和规划任务时表现出色，这突显了其在实际场景中的潜在应用价值。

三维具身指令调整数据集（3D Embodied Instruction Tuning Dataset）

由于互联网上数十亿规模的数据集，VLM在多项任务中展现出卓越的性能，而百万级视频动作数据集也为机器人控制的具体VLM奠定了基础。

然而，目前的数据集大多数无法为机器人操作提供足够的深度或3D标注以及精确控制。这就需要数据集中包含3D空间推理和交互的内容。缺乏3D信息会让机器人难以理解和执行需要进行3D空间推理的指令，例如“将最远处的杯子放在中间的抽屉里”。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

为了弥补这一差距，研究人员构建了一个大规模的3D指令调优数据集，该数据集提供了足够的「3D相关信息」以及「相应的文本指令」以训练模型。

研究人员设计了一个pipeline从现有的具身数据集中提取3D语言动作对，获得点云、深度图、3D边界框、机器人的7D动作和文本描述的标注。

3D-VLA基础模型

3D-VLA是一个用于在具身环境（embodied environment）中进行三维推理、目标生成和决策的世界模型。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

首先在3D-LLM之上构建主干网络，并通过添加一系列交互token来进一步增强模型与3D世界交互的能力；再通过预训练扩散模型并使用投影来对齐LLM和扩散模型，将目标生成能力注入3D-VLA

骨干网络

在第一阶段，研究人员按照3D-LLM的方法开发3D-VLA基础模型：由于收集到的数据集没有达到从头开始训练多模态LLM所需的十亿级规模，因此需要利用多视图特征生成3D场景特征，使得视觉特征能够无缝集成到预训练VLM中，不需要自适应。

同时，3D-LLM的训练数据集主要包括对象（objects）和室内场景，与具体设置不直接一致，所以研究人员选择使用BLIP2-PlanT5XL作为预训练模型。

在训练过程中，解冻token的输入和输出嵌入，以及Q-Former的权重。

交互tokens

为了增强模型对3D场景的理解与环境中的交互，研究人员引入了一组全新的交互tokens

首先，输入中加入了object tokens，包含解析句子中的对象名词（如 a chocolate bar [loc tokens] on the table），这样模型就能更好地捕捉到被操作或提及的对象。

其次，为了更好地用语言表达空间信息，研究人员设计了一组位置token ，用 AABB 形式的六个标记来表示三维边界框。

第三，为了更好地进行动态编码，框架中引入了来包含静态场景的嵌入：通过对场景token进行组合，3D-VLA 可以理解动态场景，并管理交错三维场景和文本的输入。

通过扩展代表机器人动作的专用标记集，进一步增强了该架构。机器人的动作有 7 个自由度，用、和等离散token来表示手臂的预定绝对位置、旋转和抓手张开度，每个action由 token进行分隔。

注入目标生成能力

人类能够对场景的最终状态进行预先可视化（pre-visualize），以提升动作预测或决策的准确性，也是构建世界模型的关键方面；在初步实验中，研究人员还发现提供真实的最终状态可以增强模型的推理和规划能力。

但训练MLLM来生成图像、深度和点云并不简单：

首先，视频扩散模型并不是为具身场景量身定制的，比如Runway在生成「打开抽屉」的未来帧时，场景中会发生视图变化、对象变形、怪异的纹理替换以及布局失真等问题。

并且，如何将各种模态的扩散模型整合到一个单一的基础模型中仍然是一个难题。

所以研究人员提出的新框架，首先根据图像、深度和点云等不同形式对具体的扩散模型进行预训练，然后在对齐阶段将扩散模型的解码器对齐到3D-VLA的嵌入空间。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

实验结果

3D-VLA是一个多功能的、基于3D的生成式世界模型，可以在3D世界中执行推理和定位、想象多模态目标内容，并为机器人操作生成动作，研究人员主要从三个方面对3D-VLA进行了评估：3D推理和定位、多模态目标生成和具身行动规划。

3D推理和定位

3D-VLA在语言推理任务上优于所有2D VLM方法，研究人员将其归因于3D信息的杠杆作用，3D信息为推理提供了更准确的空间信息。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

此外，由于数据集中包含一组3D定位标注，3D-VLA学习定位相关对象，有助于模型更专注于关键对象进行推理。

研究人员发现3D-LLM在这些机器人推理任务中表现不佳，证明了在机器人相关的3D数据集上收集和训练的必要性。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

并且3D-VLA在定位性能方面表现出明显优于2D基线方法，这一发现也为标注过程的有效性提供了令人信服的证据，有助于模型获得强大的3D定位能力。

多模态目标生成

与现有的零样本迁移到机器人领域的生成方法相比，3D-VLA在大多数指标方面实现了更好的性能，证实了使用「专门为机器人应用设计的数据集」来训练世界模型的重要性。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

即使在与Instruct-P2P*的直接比较中，3D-VLA也始终性能更优，结果表明，将大型语言模型集成到3D-VLA中可以更全面、更深刻地理解机器人操作指令，从而提高目标图像生成性能。

此外，当从输入提示符中排除预测的边界框时，可以观察到性能略有下降，证实了使用中间预测边界框的有效性，可以帮助模型理解整个场景，允许模型将更多的注意力分配到给定指令中提到的特定对象，最终增强其想象最终目标图像的能力。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

点云生成的结果对比中，具有中间预测边界框的3D-VLA性能最好，证实了在理解指令和场景的背景下结合大型语言模型和精确对象定位的重要性。

具身行动规划

3D-VLA在RLBench动作预测中的大多数任务中超过了基线模型的性能，显示了其具有规划能力。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

值得注意的是，基线模型需要用到历史观察、对象状态和当前状态信息，而3D-VLA模型只通过开环控制执行。

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

此外，模型的泛化能力在捡杯（pick-up-cup）任务中得到了证明，3D-VLA在CALVIN中也取得了较好的结果，研究人员将这种优势归因于定位感兴趣的对象和想象目标状态的能力，为推断动作提供了丰富的信息。

以上是3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7546

CakePHP 教程

1381

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法，包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables（如果尚未安装）：sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则：sudoiptables-L配置

Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下：1.安装OpenSSL工具包首先，确保你的系统上已经安装了OpenSSL工具包。如果没有安装，可以使用以下命令进行安装：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来，使用OpenSSL生成一个2048位的RSA私钥和一个证书请求（CSR）：openss

centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown，语法为 shutdown [选项] 时间 [信息]。选项包括：-h 立即停止系统；-P 关机后关电源；-r 重新启动；-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

索尼证实PS5 Pro使用特制GPU 与AMD合作研发AI可能性 Apr 13, 2025 pm 11:45 PM

SonyInteractiveEntertainment（SIE，索尼互动娱乐）首席架构师MarkCerny公开更多次世代主机PlayStation5Pro(PS5Pro)硬体细节，包括性能升级的AMDRDNA2.x架构GPU，以及与AMD合作代号「Amethyst」的机器学习/人工智慧计划。 PS5Pro性能提升的重点仍集中在更强大的GPU、先进的光线追踪与AI驱动的PSSR超解析度功能等3大支柱上。 GPU采用客制化的AMDRDNA2架构，索尼将其命名为RDNA2.x，它拥有部分RDNA3架构才

CentOS上GitLab的备份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系统下GitLab的备份与恢复策略为了保障数据安全和可恢复性，CentOS上的GitLab提供了多种备份方法。本文将详细介绍几种常见的备份方法、配置参数以及恢复流程，帮助您建立完善的GitLab备份与恢复策略。一、手动备份利用gitlab-rakegitlab:backup:create命令即可执行手动备份。此命令会备份GitLab仓库、数据库、用户、用户组、密钥和权限等关键信息。默认备份文件存储于/var/opt/gitlab/backups目录，您可通过修改/etc/gitlab

CentOS上Zookeeper性能调优有哪些方法 Apr 14, 2025 pm 03:18 PM

在CentOS上对Zookeeper进行性能调优，可以从多个方面入手，包括硬件配置、操作系统优化、配置参数调整以及监控与维护等。以下是一些具体的调优方法：硬件配置建议使用SSD硬盘：由于Zookeeper的数据写入磁盘，强烈建议使用SSD以提高I/O性能。足够的内存：为Zookeeper分配足够的内存资源，避免频繁的磁盘读写。多核CPU：使用多核CPU，确保Zookeeper可以并行处理请

Debian邮件服务器虚拟主机配置方法 Apr 13, 2025 am 11:36 AM

在Debian系统上配置邮件服务器的虚拟主机通常涉及安装和配置邮件服务器软件（如Postfix、Exim等），而不是ApacheHTTPServer，因为Apache主要用于Web服务器功能。以下是配置邮件服务器虚拟主机的基本步骤：安装Postfix邮件服务器更新系统软件包：sudoaptupdatesudoaptupgrade安装Postfix：sudoapt

终于改了！微软Windows搜索功能将迎来全新更新 Apr 13, 2025 pm 11:42 PM

微软针对Windows搜索功能的改进，目前已在欧盟地区部分WindowsInsider频道展开测试。此前，整合后的Windows搜索功能饱受用户诟病，体验欠佳。此次更新将搜索功能拆分为本地搜索和基于Bing的网络搜索两部分，以提升用户体验。新版搜索界面默认进行本地文件搜索，如需进行网络搜索，需点击“MicrosoftBingWebSearch”标签进行切换。切换后，搜索栏将显示“MicrosoftBingWebSearch:”，用户可在此输入关键词。此举有效避免了本地搜索结果与Bing搜索结果混

See all articles

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

3D-VLA基础模型

实验结果

多模态目标生成

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题