擴散一切? 3DifFusionDet:擴散模型殺進LV融合3D目標偵測!
筆者的個人理解
近年來,擴散模型在生成任務上非常成功,自然而然地擴展到目標偵測任務上,它將目標偵測建模為從雜訊框(noisy boxes)到目標框(object boxes)的去噪擴散過程。在訓練階段,目標框從真值框(ground-truth boxes)擴散到隨機分佈,模型學習如何逆轉這種向真值標註框添加雜訊過程。在推理階段,模型以漸進的方式將一組隨機產生的目標框細化為輸出結果。與傳統目標偵測方法相比,傳統目標偵測依賴一組固定的可學習查詢,3DifFusionDet不需要可學習的查詢就能進行目標偵測。
3DifFusionDet的主要思路
3DifFusionDet 框架將 3D 目標偵測表示為從有雜訊的 3D 框到目標框的去噪擴散過程。在這個框架中,真值框以隨機分佈擴散進行訓練,模型學習反向雜訊過程。在推理過程中,模型逐漸細化了一組隨機產生的框框。在特徵對齊策略下,漸進式細化方法可以對光達-Camera 融合做出重要貢獻。迭代細化過程還可以透過將此框架應用於需要不同等級的精度和速度的各種檢測環境,從而顯示出極大的適應性。 KITTI 是一個真實交通目標識別的基準,在KITTI 上進行了大量的實驗表明,與早期的檢測器相比,在KITTI 能夠取得良好的性能
3DifFusionDet主要貢獻如下:
- 將3D目標偵測表示為生成式去噪過程,並提出了3DifFusionDet,這是第一個將diffusion模型應用於3D目標偵測的研究。
- 研究了產生去噪過程框架下的最佳Camera-LiDAR 融合對齊策略,並提出了 2 個分支融合對齊策略以利用兩種模態提供的互補資訊。
- 在 KITTI 基準測試上進行了大量的實驗。與現有精心設計的方法相比,3DifFusionDet 取得了有競爭力的結果,展示了diffusion模型在 3D目標偵測任務中的前景。
使用 LiDAR-Camera融合進行 3D 目標偵測
對於 3D 目標偵測,Camera和 LiDAR 是兩種互補的感測器類型。 LiDAR 感測器專注於 3D 定位,並提供有關 3D 結構的豐富信息,而Camera則提供顏色信息,從中可以導出豐富的語義特徵。為了透過融合來自攝影機和 LiDAR 的數據來準確檢測 3D 目標,人們做出了許多努力。最先進的方法主要基於 LiDAR 基於 3D 目標偵測器,並努力將影像資訊納入 LiDAR 偵測流程的各個階段,因為基於 LiDAR 的偵測方法的效能明顯優於基於Camera的方法。由於基於雷射雷達和基於Camera的偵測系統的複雜性,將兩種模式結合起來必然會增加計算成本和推理時間延遲。因此,有效融合多種模式資訊的問題仍然存在。
擴散模型
擴散模型是一種生成模型,它透過引入雜訊來逐漸解構觀察到的數據,並透過反轉該過程來恢復原始數據。擴散模型和去噪分數匹配透過去噪擴散機率模型連接起來(Ho、Jain 和 Abbeel 2020a),該模型最近引發了人們對電腦視覺應用的興趣。已被多個領域應用,例如圖生成、語言理解、穩健學習和時態資料建模等。
擴散模型在影像生成和合成方面取得了巨大成功。有些先驅作品採用擴散模型進行影像分割任務。與這些領域相比,它們在目標檢測方面的潛力尚未得到充分開發。先前使用擴散模型進行物件偵測的方法僅限於 2D 邊界框。與2D 檢測相比,3D 檢測提供了更豐富的目標空間信息,可實現準確的深度感知和體積理解,這對於自動駕駛等應用至關重要,在自動駕駛等應用中,識別周圍車輛的精確距離和方向是自動駕駛等應用的重要面向。
3DifFusionDet的網路設計
圖 1 顯示了 3DifFusionDet 的整體架構。其接受多模式輸入,包括 RGB 影像和點雲。將整個模型分為特徵提取和特徵解碼部分,與 DiffusionDet相同,在每個迭代步驟中直接 應用於原始 3D 特徵會很困難。特徵提取部分僅運行一次,以從原始輸入 X 中提取深層特徵表示,而特徵解碼組件將此深層特徵作為條件並訓練以逐步從噪聲框 #中繪製框預測。
為了充分利用兩種模態提供的互補訊息,將每種模態的編碼器和解碼器分開。此外,使用擴散模型分別產生雜訊框和,分別訓練影像解碼器和點雲解碼器以細化 2D 和 3D 特徵。至於這兩個特徵分支的連接,簡單地連接它們會導致資訊剪切,從而導致性能下降。為此,引入了多頭交叉注意機制來深度對齊這些特徵。這些對齊的特徵被輸入到檢測頭以預測最終的真值,而不會產生雜訊。
對於點雲編碼器,使用基於體素的方法進行萃取,並採用基於稀疏的方法進行處理。基於體素的方法將 LiDAR 點轉換為體素。與其他系列的點特徵提取方法(例如基於點的方法)相比,這些方法將點雲離散為等間距的 3D 網格,在盡可能保留原始 3D 形狀資訊的同時減少記憶體需求。基於稀疏性的處理方法進一步幫助網路提高運算效率。這些好處平衡了擴散模型相對較高的計算要求。
與 2D 特徵相比,3D 特徵包含額外的維度,使得學習更具挑戰性。考慮到這一點,除了從原始模態提取特徵之外,還添加了一條融合路徑,將提取的圖像特徵添加為點編碼器的另一個輸入,促進資訊交換並利用來自更多樣化來源的學習。採用PointFusion 策略,其中來自 LiDAR 感測器的點被投影到影像平面上。然後,影像特徵和對應點的串聯由 VoxelNet 架構共同處理。
特徵解碼器。提取的影像特徵和提取的點特徵用作相應影像和點解碼器的輸入。每個解碼器還結合了來自獨特創建的噪音框 或 的輸入,除了相應的提取特徵之外,還可以學習分別細化 2D 和 3D 特徵。
受到Sparse RCNN的啟發,圖像解碼器接收來自2D提議框集合的輸入,並從圖像編碼器創建的特徵圖中裁剪RoI特徵。點解碼器則接收來自3D提議框集合的輸入,並從影像編碼器建立的特徵圖中裁剪RoI特徵。對於點解碼器而言,輸入是一組3D提議框,用於從點編碼器產生的特徵圖中裁剪3D RoI特徵
交叉注意力模組。在對兩個特徵分支進行解碼之後,需要一種將它們組合起來的方法。一種直接的方法是透過連接這兩個功能分支來簡單地連接它們。這種方式顯得過於粗糙,可能會導致模型遭受資訊剪切,導致效能下降。因此,引入了多頭交叉注意機制來深度對齊和細化這些特徵,如圖 1 所示。具體來說,點解碼器的輸出被視為 k 和 v 的來源,而影像解碼器的輸出被投影到 q 上。
實驗結果
在 KITTI 3D 目標偵測基準上進行實驗。遵循用於測量檢測性能的標準 KITTI 評估協議 (IoU = 0.7),表 1 顯示了 3DifFusionDet 方法與 KITTI 驗證集上最先進的方法相比的平均精度 (mAP) 分數。報告了 的性能,遵循 [diffusionDet, difficileist] 並粗體顯示每個任務的兩個性能最佳的模型。
根據表1的結果,本研究的方法相對於基線表現出了顯著的表現提升。當D=4時,此方法能夠在較短的推理時間內超越大多數基線模型。進一步增加D至8時,雖然推理時間較長,但在所有模型中達到了最佳表現。這種靈活性揭示了該方法具有廣泛的潛在應用
消融實驗 首先,展示了保持影像RoI 對齊分支和編碼器特徵融合的必要性。要使用擴散模型從Camera和雷射雷達設計 3D 目標偵測器,最直接的方法應該是直接應用產生的雜訊 3D 框作為融合 3D 特徵的輸入。然而,這種方式可能會受到資訊剪切的影響,導致性能下降,如表2所示。利用它,除了將點雲RoIAlign放在編碼的3D特徵下之外,我們還創建了第二個分支,使圖像RoIAlign 在編碼的 2D 特徵下。顯著提高的性能表明可以更好地利用兩種模式提供的補充資訊。
然後,我們將分析不同融合策略的影響:給定學習的2D和3D表示特徵,我們要如何更有效地組合它們。與2D特徵相比,3D特徵多了一個額外的維度,這使得學習過程更具挑戰性。我們透過將來自LiDAR感測器的點投影到影像特徵上,並將其與要聯合處理的對應點串聯起來,從而添加了從影像特徵到點特徵的資訊流路徑。這就是VoxelNet架構。從表3可以看出,這種融合策略對偵測精度有很大的好處
需要融合的另一部分是解碼後兩個特徵分支的連接。在這裡,應用了多頭交叉注意機制來深度對齊和細化這些特徵。除此之外,還研究了更直接的方法,例如使用串聯運算、求和運算、直接乘積運算以及使用多層感知器(MLP)。結果如表4所示。其中,交叉注意力機製表現出最佳的表現,訓練和推理速度幾乎相同。
研究準確性和推理速度的權衡。透過比較 3D 檢測精度和每秒幀數 (FPS),展示了選擇不同提案框以及 D 的影響。提案框的數量從 100、300 中選擇,而 D 從 1, 4, 8 中選擇. 運行時間是在批量大小為 1 的單個 NVIDIA RTX A6000 GPU 上進行評估的。結果發現,將提案框的數量從 100 增加到 300 可顯著提高準確性增益,而延遲成本可以忽略不計 (1.3 FPS 與 1.2 FPS)。另一方面,更好的檢測精度會導致更長的推理時間。當 D 從 1 改為 8 時,3D 偵測精度從急劇(Easy:87.1 mAP 到 90.5 mAP)增加到相對緩慢(Easy:90.5 AP 到 91.3 mAP),而 FPS 不斷下降。
Case研究和未來的工作基於其獨特的屬性,本文討論了 3DifFusionDet 的潛在用途。一般來說,準確、穩健和即時的推論是目標偵測任務的三個要求。在自動駕駛汽車的感知領域,考慮到高速行駛的汽車由於慣性需要花費額外的時間和距離來減速或改變方向,因此感知模型對即時性要求特別敏感。更重要的是,為了確保舒適的乘坐體驗,汽車應該在安全的前提下,以最小的加速度絕對值盡可能平穩地行駛。與其他同類自動駕駛汽車產品相比,其主要優勢之一就是擁有更流暢的乘坐體驗。為此,無論是加速、減速或轉彎,自動駕駛汽車都應該開始快速反應。汽車反應越快,為後續操作和調整贏得的空間就越大。這比首先獲得最精確的檢測到的目標的分類或位置更重要:當汽車開始響應時,仍然有時間和距離來調整其行為方式,可以利用這些時間和距離以更精確的方式做出進一步的推斷, 其結果隨後微調汽車的駕駛操作。
重寫後的內容如下:根據表4的結果顯示,當推理步長較小時,我們的3DifFusionDet模型可以快速進行推理,並獲得相對較高的準確度。這種初步的感知結果足夠精確,足以讓自動駕駛汽車做出新的反應。隨著推理步驟的增加,我們能夠產生更準確的目標偵測結果,並進一步微調我們的回應。這種漸進式的偵測方式非常適合我們的任務。此外,由於我們的模型可以在推理過程中調整提案框的數量,因此我們可以利用從小步驟中獲得的先驗資訊來優化即時提案框的數量。根據表4的結果顯示,不同先驗提案框下的表現也有所不同。因此,開發這種自適應探測器是一個具有前景的工作
除了自動駕駛汽車之外,本文的模型本質上匹配任何在連續反應空間中需要短推斷時間的現實場景,特別是在檢測器根據檢測結果移動的場景中。受益於擴散模型的性質,3DifFusionDet 可以快速找到幾乎準確的真實空間感興趣區域,觸發機器開始進行新的操作和自我優化。接下來的更高精度的感知機進一步微調機器的操作。為了將模型部署到這些移動探測器中,一個懸而未決的問題是結合較大步驟的早期推斷和較小步驟的最新推斷之間的推斷資訊的策略,這是另一個懸而未決的問題。
總結
#本文介紹了一種名為3DifFusionDet的新型3D目標偵測器,該偵測器具有強大的LiDAR和相機融合功能。將3D目標偵測表述為生成式去噪過程,這是第一個將擴散模型應用於3D目標偵測的工作。在產生去噪過程框架的背景下,本研究探討了最有效的相機光達融合對準策略,並提出了融合對準策略以充分利用兩種模式提供的補充資訊。與成熟的偵測器相比,3DifFusionDet表現良好,展示了擴散模型在目標偵測任務中的廣泛應用前景。其強大的學習結果和靈活的推理模式使其具有廣闊的潛在用途
#原文連結:https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA
以上是擴散一切? 3DifFusionDet:擴散模型殺進LV融合3D目標偵測!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
