目錄
1. 論文資訊
#2. 領域背景
3. 方法
3.1 Canonical 3D volume
3.2 3D bijections
3.3 Computing frame-to-frame motion
4. 實驗對比
5. 討論
6.結論
首頁 科技週邊 人工智慧 標題重寫:ICCV 2023優秀學生論文跟踪,Github已經獲得1.6K star,彷彿魔法般的全面信息!

標題重寫:ICCV 2023優秀學生論文跟踪,Github已經獲得1.6K star,彷彿魔法般的全面信息!

Oct 11, 2023 am 11:29 AM
自動駕駛 論文

1. 論文資訊

今年的ICCV2023 best student paper頒給了康乃爾大學的qianqian wang,目前是加州大學柏克萊分校的博士後研究員!标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

#2. 領域背景

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

在影片運動估計領域,作者指出傳統方法主要分為兩種:稀疏特徵追蹤和密集光流。雖然這兩種方法都在各自的應用中被證明有效,但它們都無法完整地捕捉到影片中的運動。成對的光流無法捕捉長時間視窗內的運動軌跡,而稀疏追蹤則無法模擬所有像素的運動

為了彌補這一差距,許多研究都試圖在影片中同時估計密集和長距離的像素軌跡。這些研究的方法多種多樣,從簡單地將兩幀光流場連結起來,到直接預測在多個畫面中的每個像素軌跡。但這些方法在估計運動時往往只考慮有限的上下文,並忽略了時間或空間上較遠的資訊。這種短視可能導致長軌跡中的錯誤累積,以及運動估計中的時空不一致。儘管某些方法考慮了長時間的上下文,但它們仍然在2D領域進行操作,這可能在遮蔽事件中導致追蹤遺失。

總的來說,影片中的密集和長距離軌跡估計仍然是該領域一個尚未解決的問題。這個問題涉及到三個主要挑戰:1)如何在長序列中保持軌蹟的準確性,2)如何在遮擋情況下跟踪點的位置,3)如何保持時空的一致性

在這在文章中,作者提出了一種新穎的視訊運動估計方法,該方法利用影片中的所有資訊來共同估計每個像素的完整運動軌跡。這種方法被稱為"OmniMotion",它採用了一種準3D的表示形式。在這種表示形式中,一個標準的3D體被映射到每一幀的局部volume。這種映射作為動態多視圖幾何的一種靈活擴展,可以同時模擬相機和場景的運動。這種表示形式不僅確保了循環的一致性,還能在遮擋時追蹤所有的像素。作者為每個影片優化了這種表示形式,從而為整個影片的運動提供了解決方案。經過最佳化後,這種表示形式可以在影片的任何連續座標上查詢,以獲得跨越整個影片的運動軌跡

本文提出的這種方法可以:1) 為整個影片中的所有點生成全域一致的完整運動軌跡,2) 追蹤經過遮蔽的點,以及3) 處理具有各種相機和場景動作組合的實際影片。在TAP視訊追蹤基準測試中,該方法表現出色,遠遠超越了先前的方法。

3. 方法

論文提出了一種基於測試時最佳化的方法,用於從影片序列中估計密集和長距離的運動。首先來對論文提出的方法來一個總覽:

  • 輸入:作者的方法以一組幀和成對的噪聲運動估計(例如光流場)作為輸入。
  • 方法操作:利用這些輸入,方法尋求為整個影片找到一個完整且全域一致的運動表示。
  • 結果特點:優化後,這種表示可以用影片中任何影格的任何像素進行查詢,從而產生一個跨整個影片的平滑、準確的運動軌跡。這個方法還能辨識何時有點被遮擋,並且可以追蹤經過遮擋的點。
  • 核心內容
  1. OmniMotion表示:在後續部分,作者首先描述了他們的基本表示,稱為OmniMotion。
  2. 優化過程:接著,作者描述如何從影片中恢復此表示的最佳化過程。

這種方法能夠提供一個全面且連貫的視訊運動表示,並且能夠有效地解決遮蔽等挑戰性問題。現在我們來詳細了解一下

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

3.1 Canonical 3D volume

影片內容由一個名為G的典型volume表示,該volume充當觀察到的場景的三維地圖。與NeRF中的做法類似,他們定義了一個基於座標的網路nerf,它為G中的每個典型3D座標uvw映射到一個密度σ和顏色cG中儲存的密度告訴我們典型空間中的表面位置。當與3D雙射結合使用時,這使我們能夠追蹤多幀的表面並理解遮蔽關係。 G中儲存的顏色則允許我們在最佳化期間計算光度損失。

3.2 3D bijections

本文介紹了一個連續的雙射映射,記為,它將3D點從局部座標系轉換到一個規範的3D座標系。這個規範座標作為一個場景點或3D軌跡在時間上的一致引用或「索引」。使用雙射映射的主要優勢是它們在不同幀之間的3D點提供的週期一致性,因為它們都源自於同一個規範點。

從一個局部影格到另一個的3D點的映射方程式為:

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

#為了捕捉複雜的真實世界運動,這些雙射被參數化為可逆神經網路(INNs)。選擇Real-NVP作為模型是受到其簡單性和其解析可逆性的屬性的影響。 Real-NVP透過使用稱為仿射耦合層的基本變換來實現雙射映射。這些層將輸入分割,使一部分保持不變,而另一部分則進行仿射變換。

為了進一步增強這個架構,我們可以透過對每一幀的潛碼latent_i進行條件化來實現。因此,所有的可逆映射mapping i都是由一個單一的可逆網絡mappingnet決定,但它們具有不同的潛碼latent code

3.3 Computing frame-to-frame motion

#重新計算幀間運動

在這部分,描述如何為幀i中的任何查詢像素querypixel計算2D運動。直觀地說,首先通過在射線上採樣點將查詢像素“提升”到3D,然後使用雙射mapping i和mapping j將這些3D點“映射”到目標幀j,接著通過alpha合成從不同的樣本“渲染」這些映射的3D點,最後「投影」回2D以獲得一個假定的對應關係。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

4. 實驗對比

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

這份實驗資料表展示了在三個資料集-Kinetics、DAVIS和RGB-Stacking上,多種運動估計方法的表現。為了評估各個方法的效能,使用了四個度量標準:AJ、avg、OA和TC。除了作者提出的兩種方法(我們的(TAP-Net)和我們的(RAFT)),還有其他7種方法。值得注意的是,作者的兩種方法在大部分度量和資料集上都表現出色。具體來說,我們的(RAFT)方法在所有三個資料集的AJ、avg和OA上取得了最佳成績,而在TC上則次佳。我們的(TAP-Net)方法在某些測量上也達到了類似的優異表現。同時,其他方法在這些測量上的表現則參差不齊。需要提及的是,作者的方法和「Deformable Sprites」方法透過在每個影片上的測試時間最佳化來估計全局運動,而其他所有方法都採用前向方式在局部進行運動估計。總結來說,作者的方法在位置精度、遮擋精度和時間連續性上都超越了其他所有測試的方法,展現出了顯著的優勢

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

這是一個針對DAVIS資料集的消融實驗結果表。消融實驗是為了驗證每個組件對整個系統表現的貢獻大小。這個表格中列出了四種方法,其中三種是移除了某個關鍵元件的版本,而最後的"Full"版本包含了所有元件。

  1. No invertible:此版本移除了「可逆性」元件。與完整方法相比,它的所有指標都大幅下降,尤其是在 AJ 和  上,這表明可逆性在整個系統中起著至關重要的作用。
  2. No photometric:此版本移除了「光度」元件。儘管其性能比"Full"版本低,但與「無可逆性」的版本相比,其表現得更好。這說明,儘管光度組件對於性能提升起到了一定的作用,但其重要性可能低於可逆性組件。
  3. Uniform sampling:此版本使用了統一的取樣策略。它的性能也比完整版本稍低,但仍然優於“無可逆性”和“無光度”版本。
  4. Full:這是包含所有元件的完整版本,它在所有指標上都取得了最佳表現。這表明每個組件都對效能提升有所貢獻,尤其是在整合了所有組件後,系統能夠達到最佳的效能。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

總的來說,這個消融實驗的結果顯示,雖然每個組件都對表現有一定的提升,但可逆性可能是最重要的元件,因為沒有它的話,效能損失會非常嚴重

5. 討論

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

這份工作中對DAVIS資料集進行的消融實驗為我們提供了寶貴的洞察,揭示了每個組件對整個系統性能的關鍵作用。從實驗結果中,我們可以明確地看到可逆性組件在整體框架中扮演了至關重要的角色。當缺少這項關鍵組件時,系統的效能大幅下降。這進一步強調了在動態視訊分析中考慮可逆性的重要性。同時,儘管光度組件的缺失也會導致性能下降,但它對性能的影響似乎不如可逆性那麼大。此外,統一的採樣策略雖然對性能有一定的影響,但與前兩者相比,其影響相對較小。最後,完整的方法整合了所有這些組件,為我們展示了在所有考慮因素下所能達到的最佳性能。總體來說,這份工作為我們提供了一個深入了解視頻分析中各個組件如何相互作用,以及它們對整體性能的具體貢獻的寶貴機會,從而強調了在設計和優化視頻處理算法時採用綜合方法的重要性

但是,像許多運動估計方法一樣,我們的方法在處理快速和高度非剛性運動以及細小結構時面臨困難。在這些情境下,成對的對應方法可能無法為我們的方法提供足夠的可靠對應關係來計算精確的全局運動。另外,由於基礎優化問題的高度非凸性質,我們觀察到,對於某些困難的視頻,我們的優化過程可能對初始化非常敏感。這可能會導致次優的局部最小值,例如,錯誤的表面排序或在規範空間中的重複對象,有時這些問題很難透過最佳化來修正。

最後,我們的方法在其當前形式下可能在計算上是昂貴的。首先,流量收集過程涉及全面計算所有的成對流,這與序列長度呈二次比例增長。但我們相信,透過探索更有效率的匹配方法,例如詞彙樹或基於關鍵影格的匹配,並從結構運動和SLAM文獻中獲取靈感,可以提高這一過程的可擴展性。其次,與其他使用神經隱式表示的方法一樣,我們的方法涉及一個相對較長的最佳化過程。此領域的近期研究可能有助於加速這一過程,並進一步擴展到更長的序列

6.結論

本文提出了一個新的測試時最佳化方法,用於估計整個影片的完整和全局一致的運動。引入了一個新的視頻運動表示,稱為OmniMotion,它包括一個準3D標準volume和每幀的local-canonical雙射。 OmniMotion可以處理具有不同攝影機設定和場景動態的普通視頻,並透過遮擋產生準確且平滑的長距離運動。在品質和數量上,都比以前的最先進方法取得了顯著的改善。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

需要重寫的內容是:原文連結:https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg

以上是標題重寫:ICCV 2023優秀學生論文跟踪,Github已經獲得1.6K star,彷彿魔法般的全面信息!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

為何在自動駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? 為何在自動駕駛方面Gaussian Splatting如此受歡迎,開始放棄NeRF? Jan 17, 2024 pm 02:57 PM

寫在前面&筆者的個人理解三維Gaussiansplatting(3DGS)是近年來在顯式輻射場和電腦圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,後者主要使用隱式的基於座標的模型將空間座標映射到像素值。 3DGS憑藉其明確的場景表示和可微分的渲染演算法,不僅保證了即時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3DGS定位為下一代3D重建和表示的潛在遊戲規則改變者。為此我們首次系統性地概述了3DGS領域的最新發展與關

自動駕駛場景中的長尾問題怎麼解決? 自動駕駛場景中的長尾問題怎麼解決? Jun 02, 2024 pm 02:44 PM

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

選擇相機還是光達?實現穩健的三維目標檢測的最新綜述 選擇相機還是光達?實現穩健的三維目標檢測的最新綜述 Jan 26, 2024 am 11:18 AM

0.寫在前面&&個人理解自動駕駛系統依賴先進的感知、決策和控制技術,透過使用各種感測器(如相機、光達、雷達等)來感知周圍環境,並利用演算法和模型進行即時分析和決策。這使得車輛能夠識別道路標誌、檢測和追蹤其他車輛、預測行人行為等,從而安全地操作和適應複雜的交通環境。這項技術目前引起了廣泛的關注,並認為是未來交通領域的重要發展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發生的事情。這需要自動駕駛系統中的三維物體偵測演算法可以準確地感知和描述周圍環境中的物體,包括它們的位置、

Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Mar 06, 2024 pm 05:34 PM

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

你是否真正掌握了座標系轉換?自動駕駛離不開的多感測器問題 你是否真正掌握了座標系轉換?自動駕駛離不開的多感測器問題 Oct 12, 2023 am 11:21 AM

一先導與重點文章主要介紹自動駕駛技術中幾種常用的座標系統,以及他們之間如何完成關聯與轉換,最終建構出統一的環境模型。這裡重點理解自車到相機剛體轉換(外參),相機到影像轉換(內參),影像到像素有單位轉換。 3d向2d轉換會有對應的畸變,平移等。重點:自車座標系相機機體座標系需要被重寫的是:平面座標系像素座標系難點:要考慮影像畸變,去畸變和加畸變都是在像平面上去補償二簡介視覺系統一共有四個座標系:像素平面座標系(u,v)、影像座標系(x,y)、相機座標系()與世界座標系()。每種座標系之間均有聯繫,

自動駕駛與軌跡預測看這篇就夠了! 自動駕駛與軌跡預測看這篇就夠了! Feb 28, 2024 pm 07:20 PM

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

聊聊端到端與下一代自動駕駛系統,以及端到端自動駕駛的一些迷思? 聊聊端到端與下一代自動駕駛系統,以及端到端自動駕駛的一些迷思? Apr 15, 2024 pm 04:13 PM

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

SIMPL:用於自動駕駛的簡單高效的多智能體運動預測基準 SIMPL:用於自動駕駛的簡單高效的多智能體運動預測基準 Feb 20, 2024 am 11:48 AM

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

See all articles