标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!
1. 论文信息
今年的ICCV2023 best student paper颁给了康奈尔大学的qianqian wang,目前是加州大学伯克利分校的博士后研究员!
2. 领域背景
在视频运动估计领域,作者指出传统方法主要分为两种:稀疏特征跟踪和密集光流。虽然这两种方法都在各自的应用中被证明有效,但它们都无法完整地捕捉到视频中的运动。成对的光流无法捕获长时间窗口内的运动轨迹,而稀疏跟踪则无法模拟所有像素的运动
为了弥补这一差距,许多研究都试图在视频中同时估计密集和长距离的像素轨迹。这些研究的方法多种多样,从简单地将两帧光流场链接起来,到直接预测在多帧中的每个像素轨迹。但这些方法在估计运动时往往只考虑有限的上下文,并忽略了时间或空间上较远的信息。这种短视可能导致长轨迹中的错误累积,以及运动估计中的时空不一致。尽管某些方法考虑了长时间的上下文,但它们仍然在2D领域进行操作,这可能在遮挡事件中导致跟踪丢失。
总的来说,视频中的密集和长距离轨迹估计仍然是该领域一个尚未解决的问题。这个问题涉及到三个主要挑战:1)如何在长序列中保持轨迹的准确性,2)如何在遮挡情况下跟踪点的位置,3)如何保持时空的一致性
在这篇文章中,作者提出了一种新颖的视频运动估计方法,该方法利用视频中的所有信息来共同估计每个像素的完整运动轨迹。这种方法被称为"OmniMotion",它采用了一种准3D的表示形式。在这种表示形式中,一个标准的3D体被映射到每一帧的局部volume。这种映射作为动态多视图几何的一种灵活扩展,可以同时模拟相机和场景的运动。这种表示形式不仅确保了循环的一致性,还能在遮挡时跟踪所有的像素。作者为每个视频优化了这种表示形式,从而为整个视频的运动提供了解决方案。经过优化后,这种表示形式可以在视频的任何连续坐标上查询,以获得跨越整个视频的运动轨迹
本文提出的这种方法可以:1) 为整个视频中的所有点生成全局一致的完整运动轨迹,2) 跟踪经过遮挡的点,以及3) 处理具有各种相机和场景动作组合的实际视频。在TAP视频跟踪基准测试中,该方法表现出色,远远超越了之前的方法。
3. 方法
论文提出了一种基于测试时优化的方法,用于从视频序列中估计密集和长距离的运动。首先来对论文提出的方法来一个总览:
- 输入:作者的方法以一组帧和成对的噪声运动估计(例如光流场)作为输入。
- 方法操作:利用这些输入,方法寻求为整个视频找到一个完整且全局一致的运动表示。
- 结果特点:优化后,这种表示可以用视频中任何帧的任何像素进行查询,从而生成一个跨整个视频的平滑、准确的运动轨迹。这个方法还能识别何时有点被遮挡,并且可以跟踪经过遮挡的点。
- 核心内容:
- OmniMotion表示:在后续部分,作者首先描述了他们的基本表示,称为OmniMotion。
- 优化过程:接着,作者描述了如何从视频中恢复此表示的优化过程。
这种方法能够提供一个全面且连贯的视频运动表示,并且能够有效地解决遮挡等挑战性问题。现在我们来详细了解一下
3.1 Canonical 3D volume
视频内容由一个名为G的典型volume表示,该volume充当观察到的场景的三维地图。与NeRF中的做法类似,他们定义了一个基于坐标的网络nerf,它为G中的每个典型3D坐标uvw映射到一个密度σ和颜色c。G中存储的密度告诉我们典型空间中的表面位置。当与3D双射结合使用时,这使我们能够跟踪多帧的表面并理解遮挡关系。G中存储的颜色则允许我们在优化期间计算光度损失。
3.2 3D bijections
本文介绍了一个连续的双射映射,记为,它将3D点从局部坐标系转换到一个规范的3D坐标系。这个规范坐标作为一个场景点或3D轨迹在时间上的一致引用或“索引”。使用双射映射的主要优势是它们在不同帧之间的3D点提供的周期一致性,因为它们都源于同一个规范点。
从一个局部帧到另一个的3D点的映射方程为:
为了捕捉复杂的真实世界运动,这些双射被参数化为可逆神经网络(INNs)。选择Real-NVP作为模型是受到其简单性和其解析可逆性的属性的影响。Real-NVP通过使用称为仿射耦合层的基本变换来实现双射映射。这些层将输入分割,使一部分保持不变,而另一部分则进行仿射变换。
为了进一步增强这种架构,我们可以通过对每一帧的潜码latent_i进行条件化来实现。因此,所有的可逆映射mapping i都是由一个单一的可逆网络mappingnet确定,但它们具有不同的潜码latent code
3.3 Computing frame-to-frame motion
重新计算帧间运动
在这部分,描述如何为帧i中的任何查询像素querypixel计算2D运动。直观地说,首先通过在射线上采样点将查询像素“提升”到3D,然后使用双射mapping i和mapping j将这些3D点“映射”到目标帧j,接着通过alpha合成从不同的样本“渲染”这些映射的3D点,最后“投影”回2D以获得一个假定的对应关系。
4. 实验对比
这份实验数据表格展示了在三个数据集——Kinetics、DAVIS和RGB-Stacking上,多种运动估计方法的表现。为了评估各个方法的性能,使用了四个度量标准:AJ、avg、OA和TC。除了作者提出的两种方法(我们的(TAP-Net)和我们的(RAFT)),还有其他7种方法。值得注意的是,作者的两种方法在大部分度量和数据集上都表现出色。具体来说,我们的(RAFT)方法在所有三个数据集的AJ、avg和OA上取得了最佳成绩,而在TC上则次佳。我们的(TAP-Net)方法在某些度量上也达到了类似的优异表现。与此同时,其他方法在这些度量上的表现则参差不齐。需要提及的是,作者的方法和“Deformable Sprites”方法通过在每个视频上的测试时间优化来估计全局运动,而其他所有方法都采用前向方式在局部进行运动估计。总结来说,作者的方法在位置精度、遮挡精度和时间连续性上都超越了其他所有测试的方法,展现出了显著的优势
这是一个针对DAVIS数据集的消融实验结果表格。消融实验是为了验证每个组件对整个系统性能的贡献大小。这个表格中列出了四种方法,其中三种是去除了某个关键组件的版本,而最后的"Full"版本包含了所有组件。
- No invertible:此版本去除了“可逆性”组件。与完整方法相比,它的所有指标都大幅下降,尤其是在 AJ 和 上,这表明可逆性在整个系统中起着至关重要的作用。
- No photometric:此版本去除了“光度”组件。尽管其性能比"Full"版本低,但与“无可逆性”的版本相比,其表现得更好。这说明,尽管光度组件对于性能提升起到了一定的作用,但其重要性可能低于可逆性组件。
- Uniform sampling:此版本使用了统一的采样策略。它的性能也比完整版本稍低,但仍然优于“无可逆性”和“无光度”版本。
- Full:这是包含所有组件的完整版本,它在所有指标上都取得了最佳表现。这表明每个组件都对性能提升有所贡献,尤其是在集成了所有组件后,系统能够达到最佳的性能。
总的来说,这个消融实验的结果显示,虽然每个组件都对性能有一定的提升,但可逆性可能是最重要的组件,因为没有它的话,性能损失会非常严重
5. 讨论
这份工作中对DAVIS数据集进行的消融实验为我们提供了宝贵的洞察,揭示了每个组件对整个系统性能的关键作用。从实验结果中,我们可以明确看到可逆性组件在整体框架中起到了至关重要的作用。当缺少这一关键组件时,系统的性能大幅下降。这进一步强调了在动态视频分析中考虑可逆性的重要性。同时,尽管光度组件的缺失也会导致性能下降,但它对性能的影响似乎不如可逆性那么大。此外,统一的采样策略虽然对性能有一定的影响,但与前两者相比,其影响相对较小。最后,完整的方法整合了所有这些组件,为我们展示了在所有考虑因素下可以达到的最佳性能。总体来说,这份工作为我们提供了一个深入了解视频分析中各个组件如何相互作用,以及它们对整体性能的具体贡献的宝贵机会,从而强调了在设计和优化视频处理算法时采用综合方法的重要性
但是,像许多运动估计方法一样,我们的方法在处理快速和高度非刚性运动以及细小结构时面临困难。在这些情境下,成对的对应方法可能无法为我们的方法提供足够的可靠对应关系来计算精确的全局运动。另外,由于基础优化问题的高度非凸性质,我们观察到,对于某些困难的视频,我们的优化过程可能对初始化非常敏感。这可能会导致次优的局部最小值,例如,错误的表面排序或在规范空间中的重复对象,有时这些问题很难通过优化来纠正。
最后,我们的方法在其当前形式下可能在计算上是昂贵的。首先,流量收集过程涉及全面计算所有的成对流,这与序列长度呈二次比例增长。但我们相信,通过探索更高效的匹配方法,例如词汇树或基于关键帧的匹配,并从结构运动和SLAM文献中获取灵感,可以提高这一过程的可扩展性。其次,与其他使用神经隐式表示的方法一样,我们的方法涉及一个相对较长的优化过程。此领域的近期研究可能有助于加速这一过程,并进一步扩展到更长的序列
6. 结论
本文提出了一种新的测试时优化方法,用于估计整个视频的完整和全局一致的运动。引入了一个新的视频运动表示,称为OmniMotion,它包括一个准3D标准volume和每帧的local-canonical双射。OmniMotion可以处理具有不同摄像机设置和场景动态的普通视频,并通过遮挡产生准确且平滑的长距离运动。在质量和数量上,都比以前的最先进方法取得了显著的改进。
需要重写的内容是:原文链接:https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg
以上是标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显着提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。 StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显着降低了使用AI

一先导与重点文章主要介绍自动驾驶技术中几种常用的坐标系统,以及他们之间如何完成关联和转换,最终构建出统一的环境模型。这里重点理解自车到相机刚体转换(外参),相机到图像转换(内参),图像到像素有单位转换。3d向2d转换会有相应的畸变,平移等。重点:自车坐标系相机机体坐标系需要被重写的是:平面坐标系像素坐标系难点:要考虑图像畸变,去畸变和加畸变都是在像平面上去补偿二简介视觉系统一共有四个坐标系:像素平面坐标系(u,v)、图像坐标系(x,y)、相机坐标系()和世界坐标系()。每种坐标系之间均存在联系,

轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(CNN&GNN&Transformer)技能等,入门难度很大!很多粉丝期望能够尽快上手轨迹预测,少踩坑,今天就为大家盘点下轨迹预测常见的一些问题和入门学习方法!入门相关知识1.预习的论文有没有切入顺序?A:先看survey,p

原标题:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving论文链接:https://arxiv.org/pdf/2402.02519.pdf代码链接:https://github.com/HKUST-Aerial-Robotics/SIMPL作者单位:香港科技大学大疆论文思路:本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线(SIMPL)。与传统的以代理为中心(agent-cent

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR
