用於光達點雲自監督預訓練SOTA!
論文想法:
masked autoencoding已經成為文字、圖像和最近的點雲的Transformer模型的一個成功的預訓練範例。原始的汽車資料集適合進行自監督的預訓練,因為與3D目標偵測(OD)等任務的標註相比,它們的收集成本通常較低。然而,針對點雲的masked autoencoders的開發僅僅集中在合成和室內數據上。因此,現有的方法已經將它們的表示和模型定制為小而稠密的點雲,具有均勻的點密度。在這項工作中,本文研究了在汽車設定中對點雲進行的masked autoencoding,這些點雲是稀疏的,並且在同一場景中,點雲的密度在不同的物體之間可以有很大的變化。為此,本文提出了Voxel-MAE,這是一種為體素表示而設計的簡單的masked autoencoding預訓練方案。本文對基於Transformer三維目標偵測器的主幹進行了預訓練,以重建masked體素並區分空體素和非空體素。本文的方法提高了具有挑戰性的nuScenes資料集上1.75 mAP和1.05 NDS的3D OD效能。此外,本文表明,透過使用Voxel-MAE進行預訓練,本文只需要40%的註釋資料就可以超過隨機初始化的等效資料。
主要貢獻:
本文提出了Voxel-MAE(一種在體素化的點雲上部署MAE-style的自監督預訓練的方法) ,並在大型汽車點雲資料集nuScenes上對其進行了評估。本文的方法是第一個使用汽車點雲Transformer主幹的自我監督預訓練方案。
本文針對體素表示定製本文的方法,並使用一組獨特的重建任務來捕捉體素化點雲的特徵。
本文證明了本文的方法資料高效,並且減少了對註解資料的需求。透過預訓練,當只使用40%的註釋的資料時,本文的表現優於全監督的資料。
此外,本文發現Voxel-MAE在mAP中將基於Transformer檢測器的性能提高了1.75個百分點,在NDS中將其性能提高了1.05個百分點,與現有的自監督方法相比,其性能提高了2倍。
網路設計:
這項工作的目的是將MAE-style的預訓練擴展到體素化的點雲。核心思想仍然是使用編碼器從對輸入的部分觀察中創建豐富的潛在表示,然後使用解碼器重構原始輸入,如圖2所示。經過預訓練後,編碼器被用作3D目標偵測器的主幹。但是,由於影像和點雲之間的基本差異,需要對Voxel-MAE的有效訓練進行一些修改。
圖2:本文的Voxel-MAE方法。首先,用固定的體素大小對點雲進行體素化。圖中的體素大小已被誇大,以實現可視化的目的。在訓練前,很大一部分(70%)的非空體素被隨機mask掉了。然後,編碼器只應用於可見體素,使用嵌入[46]的動態體素特徵嵌入這些體素。 masked非空體素和隨機選擇的空體素使用相同的可學習mask tokens嵌入。然後,解碼器對mask tokens序列和編碼的可見體素序列進行處理,以重建masked點雲並區分空體素和非空體素。在預訓練之後,丟棄解碼器,並將編碼器應用於unmasked點雲。
圖1:MAE(左)將影像分割為固定大小的不重疊的patches。現有的masked點建模方法(中)透過使用最遠點採樣和k近鄰來建立固定數量的點雲patches。本文的方法(右)使用非重疊體素和動態數量的點。
實驗結果:
引用:
#Hess G、Jaxing J、Svensson E 等人。用於雷射雷達點雲自監督預訓練的掩碼自動編碼器[C]//IEEE/CVF 電腦視覺應用冬季會議論文集。 2023:350-359.
以上是用於光達點雲自監督預訓練SOTA!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

一先導與重點文章主要介紹自動駕駛技術中幾種常用的座標系統,以及他們之間如何完成關聯與轉換,最終建構出統一的環境模型。這裡重點理解自車到相機剛體轉換(外參),相機到影像轉換(內參),影像到像素有單位轉換。 3d向2d轉換會有對應的畸變,平移等。重點:自車座標系相機機體座標系需要被重寫的是:平面座標系像素座標系難點:要考慮影像畸變,去畸變和加畸變都是在像平面上去補償二簡介視覺系統一共有四個座標系:像素平面座標系(u,v)、影像座標系(x,y)、相機座標系()與世界座標系()。每種座標系之間均有聯繫,

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型,對於打工人來說簡直不要太方便。上海AILab,香港中文大學等研究機構提出的InternLM-XComposer2-4KHD(簡寫為IXC2-4KHD)模型讓這一切成為了現實。相較於其他多模態大模型不超過1500x1500的分辨率限制,該工作將多模態大模型的最大輸入影像提升到超過4K(3840x1600)分辨率,並支援任意長寬比和336像素~4K動態解析度變化。發布三天,模型就登頂HuggingFace視覺問答模型熱度排行榜第一。輕鬆拿捏

突然發現了一篇19年的論文GSLAM:AGeneralSLAMFrameworkandBenchmark開源程式碼:https://github.com/zdzhaoyong/GSLAM直接上全文,感受這項工作的品質吧~1摘要SLAM技術最近取得了許多成功,並吸引了高科技公司的關注。然而,如何同一現有或新興演算法的介面,一級有效地進行關於速度、穩健性和可移植性的基準測試仍然是問題。本文,提出了一個名為GSLAM的新型SLAM平台,它不僅提供評估功能,還為研究人員提供了快速開發自己的SLAM系統的有用

作者的一些個人思考在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高品質的多視圖訓練資料和相應的模擬場景建立愈發重要。針對當下任務的痛點,「高品質」可以解耦成三個面向:不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準的朝向角,以及車道線資料中不同曲率的彎道或較難收集的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。 3D真值-影像的高度一致:當下的BEV資料取得往往受到感測器安裝/標定,高精地圖以及重建演算法本身的誤差影響。這導致了我

原標題:TowardsRealisticSceneGenerationwithLiDARDiffusionModels論文連結:https://hancyran.github.io/assets/paper/lidar_diffusion.pdf程式碼連結:https://lidar-diffusion.github.io作者單位:CMU豐田研究院南思路加州大學論文:擴散模型(DMs)在逼真的圖像合成方面表現出色,但將其適配到雷射雷達場景生成中存在著重大挑戰。這主要是因為在點空間運作的DMs很難
