李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot-人工智能-PHP中文网

首页

科技周边

人工智能

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 07, 2024 pm 05:06 PM

产业

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文第一作者为斯坦福大学研究生蔡闻骁，此前，他以绩点第一名的成绩在东南大学取得学士学位。他的研究兴趣为多模态大模型、具身智能。此工作为其在上海交通大学访问和北京智源人工智能研究院实习期间完成，导师为本文通讯作者赵波教授。

此前，李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念，作为回应，来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot，并提出了训练数据 SpatialQA 和测试榜单 SpatialBench，尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models
论文链接: https://arxiv.org/abs/2406.13642
项目主页: https://github.com/BAAI-DCAI/SpatialBot

在具身智能的 pick and place 任务中，需要判断机械爪是否碰到了目标物体。如果碰到，则可以合上爪子抓取。然而，在这个 Berkerly UR5 Demonstration Dataset 场景中，即使是 GPT-4o 或人类，都无法从单张 RGB 图像中判断机械爪是否碰到了目标物体，比如借助深度信息，将深度图直接给 GPT-4o 看的话，也无法判断，因为它不能理解深度图。

SpatialBot 通过对 RGB-Depth 的理解，可以准确获得机械爪和目标物体的深度值，从而产生对空间概念的理解。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

具身场景的 SpatialBot Demo：

1. 以人 (相机) 的视角，抓取右侧的茶杯

2. 抓取最中间的茶杯

作为走向具身智能的必要路径，如何让大模型理解空间？

点云比较贵，双目相机在使用中需要经常校准。相比之下，深度相机价格可以接受、使用范围广。在通用场景中，即使没有这样的硬件设备，大规模无监督训练过的深度估计模型已经可以提供较为准确的深度信息。因此，作者提出，使用 RGBD 作为空间大模型的输入。

目前的技术路线存在什么问题？

现有模型无法直接理解深度图输入。比如，图像编码器 CLIP/SigLIP 在 RGB 图像上训练，没有见过深度图。
现有大模型数据集，大多仅用 RGB 就可以分析、回答。因此，如果仅仅简单的将现有数据改为 RGBD 输入，模型不会主动到深度图中索引知识。需要专门设计任务和 QA，引导模型理解深度图、使用深度信息。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^{三个层次的 SpatialQA，逐步引导模型理解深度图、使用深度信息}

如何引导模型理解和使用深度信息，理解空间？

作者提出具有三个层次的 SpatialQA 数据集。

在 low level 引导模型理解深度图，引导从深度图直接获取信息；
在 middle level 让模型将 depth 与 RGB 对齐；
在 high level 设计多个深度相关任务，标注了 50k 的数据，让模型在理解深度图的基础上，使用深度信息完成任务。任务包括：空间位置关系，物体大小，物体接触与否，机器人场景理解等。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^示例对话

SpatialBot 包含什么？

1. 借鉴 agent 中的思想，SpatialBot 在需要时，可以通过 API 获取准确的深度信息。在深度信息获取、远近关系比较的任务上，可以达到 99%+ 的准确率。

2. 针对空间理解任务，作者公布了 SpatialBench 榜单。通过精心设计和标注 QA，测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。

模型如何理解深度图？

1. 输入模型的深度图：为了兼顾室内室外任务，需要统一的深度图编码方式。室内的抓取、导航任务可能需要毫米级的精确度，室外的场景不需要这么精准，却可能需要 100 米以上的深度值范围。传统视觉任务中会用 Ordinal Encoding 来编码，但是 ordinal 的值无法进行加减运算。为了尽可能保留所有深度信息，SpatialBot 直接使用以毫米为单位的 metric depth，范围为 1mm～131m，使用 uint24 或三通道的 uint8 来保留这些值。

2. 为了精准的获取深度信息，借鉴 agents 中的思想，SpatialBot 在认为有必要的时候，会以点的形式调用 DepthAPI，获取准确的深度值。若想获取物体的深度，SpatialBot 会先思考物体的 bounding box 是什么，然后用 bounding box 的中心点调用 API。

3. SpatialBot 使用物体的中心点、深度平均、最大和最小四个值来描述深度。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^{SpatialBot 和 DepthAPI 架构}

SpatialBot 在通用场景和具身场景效果如何？

1. SpatialBot 基于 3B 到 8B 的多个 base LLM。通过在 SpatialQA 中学习空间知识，SpatialBot 在常用 MLLM 数据集 (MME、MMBench 等) 上同样展示了显著的效果提升。

2. 在 Open X-Embodiment、作者收集的机器人抓取数据等具身任务上，SpatialBot 同样展示了惊人效果。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^{SpatialBot 通用场景对比实验}

数据如何标注？

精心设计了关于空间理解的问题，比如深度、远近关系、上下左右前后位置关系、大小关系，并且包含了具身中的重要问题，比如两个物体是否接触。

在测试集 SpatialBench 中，首先人工思考问题、选项和答案。为了扩大测试集大小，也使用 GPT 以同样的流程标注。

训练集 SpatialQA 包含三方面：

直接理解深度图，让模型看深度图，分析深度的分布，猜测其中可能包含的物体；
空间关系理解和推理；
机器人场景理解：描述 Open X-Embodiment 和本文收集的机器人数据中的场景、包含的物体、可能的任务，并人工标注物体、机器人的 bounding box。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^{空间关系理解}

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^{Open X-Embodiment 机器人场景理解}

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

^{深度图理解。在使用 GPT 标注这部分数据时，GPT 会先看到深度图，描述深度图、推理其中可能包含的场景和物体，然后看到 RGB 图，筛选出正确的描述和推理。}

以上是李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1671

CakePHP 教程

1428

Laravel 教程

1331

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题