DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!
這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確地偵測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的複雜性。
論文指出,現有的方法如HeightFormer和FB-BEV嘗試結合這兩種VT策略,但這些方法通常採用兩階段策略,由於雙VT的特徵轉換不同,受到初始特徵性能的限制,從而阻礙了雙VT之間的無縫融合。此外,這些方法在實現自動駕駛的即時部署方面仍面臨挑戰。
針對這些問題,論文提出了一種統一的特徵轉換方法,適用於2D到3D和3D到2D的視覺轉換,透過三種機率測量來評估3D和2D特徵之間的對應關係:BEV機率、投影機率和影像機率。此新方法旨在減輕BEV網格中空白區域對特徵建構的影響,區分多個對應關係,並在特徵轉換過程中排除背景特徵。
透過應用這種統一的特徵轉換,論文探討了使用卷積神經網路(CNN)進行3D到2D視覺轉換的新方法,並引入了稱為HeightTrans的方法。除了展示了其卓越的性能外,還展示了透過預計算加速的潛力,使其適用於即時自動駕駛應用。同時,透過整合此特徵轉換,增強了傳統的LSS流程,展現了其對目前偵測器的普適性。
結合HeightTrans和Prob-LSS,論文介紹了DualBEV,這是一種創新的方法,它在一階段內就考慮並融合了來自BEV和透視視圖的對應關係,消除了對初始特徵的依賴。此外,提出了一個強大的BEV特徵融合模組,稱為雙特徵融合(DFF)模組,透過利用通道注意力模組和空間注意力模組,進一步幫助精細化BEV機率預測。 DualBEV遵循「廣泛輸入,嚴格輸出」的原則,透過利用精確的雙視圖機率對應關係來理解和表示場景的機率分佈。
論文的主要貢獻如下:
- 揭示了3D到2D和2D到3D视觉转换之间的内在相似性,并提出了一种统一的特征转换方法,能够从BEV和透视视图两个方面准确建立对应关系,显著缩小了双策略之间的差距。
- 提出了一种新的基于CNN的3D到2D视觉转换方法HeightTrans,通过概率采样和查找表的预计算,有效且高效地建立精确的3D-2D对应关系。
- 引入了DFF用于双视图特征融合,这种融合策略在一阶段内捕获近远区域的信息,从而生成全面的BEV特征。
- 他们的高效框架DualBEV在nuScenes测试集上实现了55.2%的mAP和63.4%的NDS,即使没有使用Transformer,也突显了捕获精确双视图对应关系对视图转换的重要性。
通过这些创新,论文提出了一种新的策略,以克服现有方法的限制,在自动驾驶等实时应用场景中实现更高效、更准确的物体检测。
详解DualBEV
这篇论文提出的方法旨在通过统一的特征转换框架,DualBEV,解决自动驾驶中的BEV(鸟瞰图)对象检测问题。以下是方法部分的主要内容,概括了其不同子部分和关键创新。
DualBEV概述
DualBEV的处理流程从多个相机获取的图像特征 开始,接着使用SceneNet生成实例mask 和深度图 . 接下来,通过HeightTrans模块和Prob-LSS流水线提取和转换特征,最后这些特征被融合并用于预测BEV空间的概率分布 ,以得到最终的BEV特征 ,用于后续任务。
HeightTrans
HeightTrans是基于3D到2D视觉转换的原理,通过选择3D位置并投影到图像空间,以及评估这些3D-2D对应关系。这个方法首先在预定义的BEV图中采样一组3D点,然后仔细考虑和过滤这些对应关系以生成BEV特征。HeightTrans通过采用多分辨率采样策略和概率采样方法来增强对小物体的关注,并解决背景像素带来的误导问题。此外,通过引入BEV概率 来解决空白BEV网格的问题。HeightTrans模块是论文提出的关键技术之一,专注于通过3D到2D视觉转换(VT)来处理和转换特征。它基于从预定义的鸟瞰图(BEV)地图中选择3D位置,并将这些位置投影到图像空间,从而评估3D和2D之间的对应关系。以下是HeightTrans工作原理的详细介绍:
BEV Height
HeightTrans方法在处理高度时采用了一种多分辨率采样策略,覆盖整个高度范围(从-5米到3米),在兴趣区域(ROI,定义为-2米到2米内)的分辨率为0.5米,在此范围外的分辨率为1.0米。这种策略有助于增加对小物体的关注,这些小物体可能会在更粗糙的分辨率采样中被遗漏。
Prob-Sampling
HeightTrans在概率采样方面采用了以下步骤:
- 定義3D取樣點:預先定義一組3D取樣點 ,每個點由其在3D空間中的位置 定義。
- 投影到2D空間:利用相機的外參矩陣 與內參矩陣 ,3D點投影到2D影像空間中的點 ,其中 表示點的深度。
- 特徵取樣:使用雙線性網格取樣器 在投影位置 處取樣影像特徵 :
- 利用實例mask:為了避免投影位置落在背景像素上,利用SceneNet產生的實例mask 來代表影像機率 #,並將其應用於影像特徵,以減少誤導性資訊的影響:
- 處理多重對應關係:使用三線性網格取樣器 在深度圖 中評估多個3D點映射到同一2D位置的情況,即投影機率 :
- 引入BEV機率:為了解決BEV網格中空白格不提供有用資訊的問題,引入BEV機率 來表示BEV網格的佔用機率,其中 是BEV空間中的位置:
#加速
透過預先計算3D點在BEV空間中的索引,並在推理期間固定影像特徵索引和深度圖索引,HeightTrans能夠加速視覺轉換過程。最終的HeightTrans特徵透過對每個BEV網格中預先定義
Prob-LSS
Prob-LSS擴展了傳統的LSS(Lift, Splat, Shoot)管道,透過預測每個像素的深度機率來促進其投影到BEV空間。此方法進一步整合了BEV機率,透過以下公式建構LSS特徵:
這樣做可以更好地處理深度估計中的不確定性,從而減少BEV空間中的冗餘資訊。
雙特徵融合(Dual Feature Fusion, DFF)
#DFF模組旨在融合HeightTrans和Prob-LSS的特徵,並有效預測BEV機率。透過結合通道注意力模組和空間注意力增強的ProbNet,DFF能夠優化特徵選擇和BEV機率預測,以增強對近處和遠處物件的表徵。這種融合策略考慮了來自兩個流的特徵的互補性,同時也透過計算局部和全局注意力來增強BEV機率的準確性。
總之,這篇論文提出的DualBEV框架透過結合HeightTrans和Prob-LSS,以及創新的雙特徵融合模組,實現了對3D和2D特徵之間對應關係的高效評估和轉換。這不僅橋接了2D到3D和3D到2D轉換策略之間的差距,而且還透過預計算和機率測量加速了特徵轉換過程,使其適合即時自動駕駛應用。
此方法的關鍵在於對不同視角下的特徵進行精確對應和高效融合,從而在BEV物件檢測中實現了出色的性能。
實驗
DualBEV方法的變體(帶有星號的DualBEV* )在單一幀輸入條件下表現最佳,達到了35.2%的mAP和42.5%的NDS,這表明它在準確性和綜合性能上都超過了其他方法。特別是在mAOE上,DualBEV*實現了0.542的分數,這是單幀方法中最好的。然而,它在mATE和mASE上的表現並沒有明顯優於其他方法。
当输入帧数增加到两帧时,DualBEV的表现进一步提升,mAP达到38.0%,NDS达到50.4%,这是所有列出方法中最高的NDS,表明DualBEV在处理更复杂的输入时能够更全面地理解场景。在多帧方法中,它在mATE、mASE、和mAAE上也展现了较强的性能,特别是在mAOE上有明显的改善,显示出其在估计物体方向上的优势。
从这些结果可以分析得出,DualBEV及其变体在多个重要的性能指标上均有出色表现,尤其是在多帧设置下,表明其对BEV对象检测任务具有较好的准确性和鲁棒性。此外,这些结果还强调了使用多帧数据的重要性,可以提高模型的整体性能和估计准确性。
下面是对各个消融实验结果的分析:
- 添加ProbNet、HeightTrans、CAF(Channel Attention Fusion)、SAE(Spatial Attention Enhanced)等组件逐步提升了Baseline的性能。
- HeightTrans的加入显著提高了mAP和NDS,这表明在视觉转换中引入高度信息是有效的。
- CAF进一步提升了mAP,但略微增加了延迟。
- SAE的引入提升了NDS到最高的42.5%,同时对mAP也有提升,说明空间注意力机制有效地增强了模型性能。
- 不同的概率措施(投影概率 ,图像概率 ,BEV概率 )逐步加入对比试验。
- 当全部三种概率同时使用时,模型达到了最高的mAP和NDS,这表明这些概率的结合对于模型性能至关重要。
- Prob-Sampling在相似的延迟下(0.32ms),比其他的VT操作具有更高的NDS(39.0%),这强调了概率采样在性能上的优越性。
- 多分辨率(MR)采样策略相对于均匀采样策略,在使用相同数量的采样点时能达到相似或更好的性能。
- 通过将投影概率、图像概率和BEV概率加入到LSS流程,Prob-LSS的表现超过了其他的LSS变体,提高了mAP和NDS,显示了结合这些概率的有效性。
- 与多阶段的精细化(Refine)策略相比,单阶段的添加(Add)策略和DFF模块都能取得更高的NDS,而DFF在mAP上也有轻微的提升,这表明DFF作为一种单阶段的融合策略,在效率和性能上都是有益的。
消融实验表明了HeightTrans、概率措施、Prob-Sampling和DFF等组件及策略对提高模型性能至关重要。此外,多分辨率采样策略在高度信息上的使用也证明了其有效性。这些发现支持了作者在方法部分提出的每一项技术都对模型性能有正面贡献的论点。
讨论
这篇论文通过一系列消融实验展示了其方法的性能。从实验结果可以看出,论文提出的DualBEV框架和它的各个组成部分均对提高鸟瞰图(BEV)对象检测的准确性具有积极影响。
论文的方法通过将ProbNet、HeightTrans、CAF(Channel Attention Fusion)、和SAE(Spatial Attention Enhanced)模块逐步引入到基线模型中,显示出在mAP和NDS两个指标上均有显著提升,这证明了每个组件在整个架构中都发挥了重要作用。尤其是引入SAE后,NDS得分提高到了最高点42.5%,同时延迟只有轻微增加,这表明了该方法在精度和延迟之间取得了良好的平衡。
概率消融实验结果进一步证实了投影概率、图像概率和BEV概率在提高检测性能方面的重要性。当这些概率被逐一引入时,系统的mAP和NDS得分稳步提升,这表明了将这些概率措施集成到BEV对象检测任务中的重要性。
在视觉转换(VT)操作的比较中,论文提出的Prob-Sampling方法与其他操作如SCAda和Bilinear-Sampling相比,显示出较低的延迟和更高的NDS得分,这强调了其在效率和性能上的优势。此外,对于不同的高度采样策略,采用多分辨率(MR)策略而不是统一采样能够进一步提高NDS得分,这表明了考虑场景中不同高度的信息对于提升检测性能的重要性。
此外,对于不同的特征融合策略,论文展示了DFF方法在简化模型的同时,依然能够维持高NDS得分的能力,这意味着在一阶段处理流程中融合双流特征是有效的。
然而,尽管论文提出的方法在多个方面表现出色,每项改进也都会导致系统复杂度和计算成本的增加。例如,每引入一个新的组件(如ProbNet、HeightTrans等),系统的延迟都会有所增加,尽管延迟的增加是微小的,但在实时或低延迟要求的应用中,这可能成为考虑因素。此外,虽然概率措施有助于性能提升,但也需要额外的计算资源来估计这些概率,可能导致更高的资源消耗。
论文提出的DualBEV方法在提高BEV对象检测的精度和综合性能方面取得了显著的成果,特别是在将深度学习的最新进展与视觉转换技术相结合的方面。但这些进步是以轻微增加计算延迟和资源消耗为代价的,实际应用时需要根据具体情况权衡这些因素。
结论
该方法在BEV对象检测任务中表现出色,显著提高了准确性和综合性能。通过引入概率采样、高度转换、注意力机制和空间关注增强网络,DualBEV成功地提升了多个关键性能指标,特别是在鸟瞰图(BEV)的精度和场景理解方面。实验结果表明,论文的方法在处理复杂场景和不同视角数据时尤为有效,这对于自动驾驶和其他实时监控应用至关重要。
以上是DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

FP8和更低的浮點數量化精度,不再是H100的「專利」了!老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支援的條件下,硬生在A100上跑起FP6。測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且比後者擁有更高的精度。在此基礎之上,還有端到端的大模型支持,目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。一名
