TimePillars：讓純LiDAR 3D偵測路線延伸至何方？直接覆蓋200m！-人工智慧-PHP中文網

寫在前面

詳解TimePillars

Input preprocessing

Model architecture

Feature Ego-Motion Compensation

實驗

讨论

结论

首頁

科技週邊

人工智慧

TimePillars：讓純LiDAR 3D偵測路線延伸至何方？直接覆蓋200m！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 24, 2024 am 11:57 AM

安全自動駕駛

基於LiDAR點雲點3D Object Detection一哥是一個很經典的問題，學術界和工業界都提出了各種各樣的模型來提高精度、速度和穩健性。但因為室外的複雜環境，所以室外點雲的Object Detection的效能都還不算太好。而光達點雲本質上比較稀疏，如何針對性得解決這個問題呢？論文給了自己的答案：依照時序資訊的聚合來完成資訊的擷取。

寫在前面

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

這篇論文主要探討了自動駕駛面臨的一個重要挑戰：如何精確地建立周圍環境的三維表示。這對於確保自動駕駛汽車的可靠性和安全性至關重要。特別是，自動駕駛車輛需要能夠識別周圍的物體，如車輛和行人，並準確地確定它們的位置、大小和方向。通常情況下，人們會使用深度神經網路處理光達（LiDAR）資料來完成這個任務。

目前的研究主要集中在單一幀方法上，即使用一個感測器一次掃描的資料。這種方法在經典基準測試中表現出色，可以偵測到距離達到75公尺的物體。然而，光達點雲的稀疏性在遠距離範圍內尤其明顯。因此，研究者認為僅依靠單一掃描進行長距離檢測是不夠的，例如，達到200公尺的距離。因此，未來的研究需要著重解決這個挑戰。

為了解決這個問題，一種方法是使用點雲聚合，即將一系列雷射雷達掃描資料連續起來，從而獲得更密集的輸入。然而，這種方式在運算上代價高昂，且無法充分利用在網路內部進行聚合所帶來的優勢。為了降低計算成本並更好地利用信息，可以考慮使用遞歸方法。遞歸方法可以在時間上累積訊息，並透過迭代地將當前輸入與先前的聚合結果進行融合，從而得到更準確的輸出。這種方法不僅能夠提高計算效率，還能夠有效地利用歷史信息，提高預測的準確性。遞歸方法在點雲聚合問題中具有廣泛的應用，並且已經取得了令人滿意的結果。

文章也提到，為了增加偵測範圍，一些先進的操作可以被採用，例如稀疏卷積、注意力模組和3D卷積。然而，這些操作通常忽略了目標硬體的兼容性問題。在部署和訓練神經網路時，使用的硬體往往在支援的操作和延遲方面有顯著差異。舉個例子，Nvidia Orin DLA等目標硬體通常不支援稀疏卷積或註意力等操作。此外，由於即時延遲要求，使用3D卷積等層往往是不可行的。這就強調了使用簡單操作，例如2D卷積的必要性。

論文中提出了一個新型的時序遞歸模型，TimePillars，該模型尊重常見目標硬體上支援的操作集，依賴於2D卷積，基於點柱（Pillar）輸入表示和一個卷積遞歸單元。透過單一卷積和輔助學習的幫助，對遞歸單元的隱藏狀態應用了自車Motion Compensation。透過消融研究表明，使用輔助任務來確保這種操作的正確性是適當的。論文還研究了遞歸模組在管道中的最佳位置，並清楚地表明，將其放置在網路的骨幹和檢測頭之間可以獲得最佳性能。在新發布的Zenseact開放資料集（ZOD）上，論文展示了TimePillars方法的有效性。與單幀和多幀點柱基線相比，TimePillars取得了顯著的評估性能提升，特別是在重要的自行車手和行人類別中，在遠距離（長達200米）的檢測上表現尤為突出。最後，TimePillars的延遲顯著低於多幀點柱，使其適合即時系統。

這篇論文提出了一個名為TimePillars的新時序遞歸模型，用於解決3D雷射雷達物體偵測任務，並且考慮了常見目標硬體支援的操作集。透過實驗證明，TimePillars在長距離檢測上相比單幀和多幀點柱基線取得了顯著更好的性能。此外，該論文還首次在Zenseact開放資料集上對3D雷射雷達物體偵測模型進行了基準測試。然而，該論文的局限性在於它僅關注光達數據，沒有考慮其他感測器輸入，並且其方法基於單一的最新基線。儘管如此，作者認為他們的框架是通用的，即未來對基線的改進將轉化為整體性能的提升。

詳解TimePillars

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

Input preprocessing

在這篇論文的「輸入預處理」部分，作者使用了一種稱為「柱化」（Pillarisation）的技術來處理輸入的點雲端數據。與常規的體素化不同，此方法將點雲分割成垂直的柱狀結構，只在水平方向（x和y軸）上進行分割，而在垂直方向（z軸）上保持固定的高度。這種處理方式的好處是可以保持網路輸入尺寸的一致性，並且可以使用2D卷積進行高效處理。透過這種方式，可以有效地處理點雲數據，為後續的任務提供更準確和可靠的輸入。

然而，Pillarisation處理的一個問題是產生了許多空的柱子，導致資料非常稀疏。為解決這個問題，論文中提出了使用動態體素化技術。這種技術避免了為每個柱子設定預定義點數的需求，從而不需要對每個柱子進行截斷或填充操作。相反，整個點雲資料被整體處理，以匹配到所需的總點數，這裡設定為20萬個點。這種預處理方法的好處是，它最大程度地減少了資訊的損失，並且使得產生的數據表示更加穩定和一致。

Model architecture

然後對於Model architecture，作者詳細介紹了一個由柱特徵編碼器（Pillar Feature Encoder）、2D卷積神經網路（CNN）骨幹和檢測頭組成的神經網路架構。

Pillar Feature Encoder：這個部分將預處理後的輸入張量映射成鳥瞰視圖（BEV）偽影像。使用動態體素化後，簡化的PointNet進行了相應的調整。輸入經過1D卷積，批量歸一化和ReLU激活函數處理，得到一個形狀為的張量，其中代表通道數。在最終的散射最大化（scatter max）層之前，對通道應用最大池化，形成形狀為的潛在空間。由於初始張量被編碼為，在前面的層之後變成，因此去掉了最大池化操作。
Backbone：採用原始柱狀論文中提出的2D CNN骨幹架構，由於其深度效率較為優越。使用三個下取樣區塊（Conv2D-BN-ReLU）縮小潛在空間，並使用三個上取樣區塊和轉置卷積將其恢復，輸出形狀為。
Memory Unit：將系統的記憶建模為遞歸神經網路（RNN），具體採用卷積GRU（convGRU），也就是Gated Recurrent Unit的捲積版本。卷積GRU的優點在於避免了梯度消失問題，並且在維持空間資料特性的同時提高了效率。與其他選擇，如LSTM相比，GRU由於門的數量較少，因此具有較少的可訓練參數，可視為一種記憶正規化技術（降低隱藏狀態的複雜性）。透過合併類似性質的操作，減少了所需卷積層的數量，從而使單元更有效率。
Detection Head：對SSD（Single Shot MultiBox Detector）進行了簡單的修改。保留了SSD的核心理念，即單次通過且無需區域提議，但取消了錨盒（anchor boxes）的使用。直接為網格中的每個單元格輸出預測，雖然失去了單元格多物件偵測能力，但避免了繁瑣且常常不精確的錨盒參數調整，並簡化了推理過程。線性層處理分類和定位（位置、大小和角度）迴歸的各自輸出。只有大小使用激活函數（ReLU），以防止負值。此外，不同於相關文獻，論文透過獨立預測車輛行駛方向的正弦和餘弦分量，並從中提取角度，避免了直接角度回歸的問題。

Feature Ego-Motion Compensation

在論文這一部分，作者討論瞭如何處理由卷積GRU輸出的隱藏狀態特徵，這些特徵是以前一幀的座標系表示的。如果直接儲存並用於計算下一個預測，由於自我運動（ego-motion）會發生空間不匹配。

為了進行轉換，可以應用不同的技術。理想情況下，已經校正的資料將被輸入網絡，而不是在網絡內部進行轉換。然而，這不是論文提出的方法，因為它需要在推理過程中的每一步重置隱藏狀態，轉換先前的點雲，並將它們傳播到整個網路。這不僅效率低下，也違背了使用RNN的目的。因此，在循環上下文中，補償需要在特徵層級進行。這使得假設的解決方案更有效率，但也使問題變得更複雜。傳統的插值方法可以用來取得變換座標系中的特徵。

與此相反，論文中受到Chen等人工作的啟發，提出使用卷積操作和輔助任務來執行變換。考慮到前述工作的細節有限，論文提出了針對此問題的客製化解決方案。

論文採取的方法是透過一個額外的捲積層，為網路提供執行特徵轉換所需的資訊。首先計算兩個連續幀之間的相對變換矩陣，即成功變換特徵所需執行的操作。然後，從中提取2D資訊（旋轉和平移部分）：

這種簡化避免了主要矩陣常數，並在2D（偽圖像）域中工作，將16個值簡化為6個。然後將矩陣展平，並擴展以符合要補償的隱藏特徵的形狀。第一個維度表示需要轉換的幀數。這種表示法使其適合於在隱藏特徵的通道維度中串聯每個潛在柱子。

最後，隱藏狀態特徵被輸入到一個2D卷積層中，該層適合變換過程。需要注意的一個關鍵面向是：卷積的執行並不保證變換的進行。通道串聯只是為網路提供了關於如何可能執行變換的額外資訊。在這種情況下，使用輔助學習是適當的。在訓練過程中，增加了一個額外的學習目標（座標變換）與主要目標（物件偵測）並行。設計一個輔助任務，其目的是在監督下引導網路通過變換過程，以確保補償的正確性輔助任務僅限於訓練過程。一旦網路學會了正確地變換特徵，它就失去了適用性。因此，在推理時不考慮該任務。下一節將進一步實驗，以對比其影響。

實驗

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

實驗結果表明，TimePillars模型在處理Zenseact Open Dataset（ZOD）幀資料集時表現出色，特別是在處理長達120公尺的範圍時。這些結果凸顯了TimePillars在不同運動轉換方法下的表現差異，並與其他方法進行了比較。

在比較基準模型PointPillars和多幀（MF）PointPillars後，可以看出TimePillars在多個關鍵效能指標上取得了顯著提升。尤其是在NuScenes Detection Score（NDS）上，TimePillars展示了更高的綜合評分，反映了其在檢測性能和定位精度方面的優勢。此外，TimePillars在平均轉換誤差（mATE）、平均尺度誤差（mASE）和平均方向誤差（mAOE）上也取得了較低的數值，顯示其在定位準確度和方向估計上較為精確。特別值得注意的是，TimePillars在運動轉換方面的不同實作方法對表現有顯著影響。當採用卷積基的運動轉換（Conv-based）時，TimePillars在NDS、mATE、mASE和mAOE上的表現特別突出，證明了這種方法在Motion Compensation和提高檢測精度方面的有效性。相較之下，使用內插法的TimePillars雖然也優於基準模型，但在某些指標上不如卷積方法。平均精確度（mAP）的結果顯示，TimePillars在車輛、騎乘者和行人類別的偵測上均表現良好，特別是在處理騎乘者和行人這些更為挑戰性的類別時，其效能提升更為顯著。從處理頻率（f (Hz））的角度來看，TimePillars雖然不如單幀PointPillars那麼快，但與多幀PointPillars相比，其處理速度更快，同時保持了較高的偵測效能。這顯示TimePillars在保持即時處理的同時，能夠有效地進行長距離偵測和Motion Compensation。也就是說TimePillars模型在長距離偵測、Motion Compensation以及處理速度方面展現出顯著優勢，尤其是在處理多幀資料和採用卷積基運動轉換技術時。這些結果強調了TimePillars在自動駕駛車輛的3D雷射雷達物體偵測領域的應用潛力。

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

上述實驗結果表明，TimePillars模型在不同距離範圍內的物件偵測效能上表現卓越，尤其是與基準模型PointPillars相比。這些結果分為三個主要的檢測範圍：0至50公尺、50至100公尺和100公尺以上。

首先，NuScenes Detection Score（NDS）和平均精確度（mAP）為整體效能指標。 TimePillars在這兩項指標上均優於PointPillars，顯示出整體上更高的偵測能力和定位精度。具體來說，TimePillars的NDS為0.723，遠高於PointPillars的0.657；而在mAP方面，TimePillars也以0.570顯著超越了PointPillars的0.475。

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

在不同距离范围内的性能对比中，可以看到TimePillars在各个范围内均有更好的表现。对于车辆类别，TimePillars在0至50米、50至100米和100米以上的范围内的检测精度分别为0.884、0.776和0.591，均高于PointPillars在相同范围内的性能。这表明TimePillars在车辆检测方面，无论是近距离还是远距离，都具有更高的准确性。在处理易受伤害的交通工具（如摩托车、轮椅、电动滑板车等）时，TimePillars同样展现了更好的检测性能。特别是在100米以上的范围内，TimePillars的检测精度为0.178，而PointPillars仅为0.036，显示出在远距离检测方面的显著优势。对于行人检测，TimePillars也呈现出更好的性能，尤其是在50至100米的范围内，其检测精度达到了0.350，而PointPillars仅为0.211。即便在更远的距离（100米以上），TimePillars仍能实现一定程度的检测（0.032的精度），而PointPillars在这一范围内的表现为零。

这些实验结果强调了TimePillars在处理不同距离范围内的物体检测任务上的优越性能。无论是在近距离还是在更具挑战性的远距离范围内，TimePillars均能提供更准确和可靠的检测结果，这对于自动驾驶车辆的安全和效率至关重要。

讨论

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

首先，TimePillars模型的主要优点在于其对长距离物体检测的有效性。通过采用动态体素化和卷积GRU结构，模型能够更好地处理稀疏的激光雷达数据，尤其是在远距离物体检测方面。这对于自动驾驶车辆在复杂和变化的道路环境中的安全运行至关重要。此外，模型在处理速度上也显示出了较好的性能，这对于实时应用是必不可少的。另一方面，TimePillars在Motion Compensation方面采用了基于卷积的方法，这是对传统方法的一大改进。这种方法在训练过程中通过辅助任务确保了转换的正确性，提高了模型在处理运动对象时的精确度。

然而，论文的研究也存在一些局限。首先，虽然TimePillars在处理远距离物体检测方面表现出色，但这种性能的提升可能以牺牲一定的处理速度为代价。虽然模型的速度仍适用于实时应用，但与单帧方法相比，仍有所下降。此外，论文主要关注于LiDAR数据，没有考虑其他传感器输入，如相机或雷达，这可能限制了模型在更复杂多传感器环境中的应用。

也就是说TimePillars在自动驾驶车辆的3D激光雷达物体检测方面展现出了显著的优势，特别是在长距离检测和Motion Compensation方面。尽管存在处理速度的轻微折衷和对多传感器数据处理的局限性，TimePillars仍然代表了在这一领域中的一个重要进步。

结论

这项工作表明，考虑过去的传感器数据比仅利用当前的信息更为优越。访问先前的驾驶环境信息，可以应对激光雷达点云的稀疏性质，并导致更准确的预测。我们证明了递归网络作为实现后者的手段是合适的。与通过大量处理创建更密集数据表示的点云聚合方法相比，赋予系统记忆力带来了更加稳健的解决方案。我们提出的方法TimePillars，实现了解决递归问题的一种方式。仅通过在推理过程中增加三个额外的卷积层，我们证明了基本的网络构建模块足以取得显著成果，并保证了现有的效率和硬件集成规范得以满足。据我们所知，这项工作为新引入的Zenseact开放数据集上的3D物体检测任务提供了首个基准结果。我们希望我们的工作能为未来更安全、更可持续的道路做出贡献。

以上是TimePillars：讓純LiDAR 3D偵測路線延伸至何方？直接覆蓋200m！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1324

PHP教程

1272

C# 教程

1251

Related knowledge

自動駕駛場景中的長尾問題怎麼解決？ Jun 02, 2024 pm 02:44 PM

昨天面試被問到了是否做過長尾相關的問題，所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況，即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決，剩下的5%的長尾問題，逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車（AV）中的邊緣情況，邊緣情況是發生機率較低的可能場景。這些罕見的事件

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

nuScenes最新SOTA | SparseAD：稀疏查詢協助高效端對端自動駕駛！ Apr 17, 2024 pm 06:22 PM

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性，但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時，先前端到端方法中廣泛使用的密集鳥瞰圖（BEV）特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式（SparseAD），其中稀疏查找完全代表整個駕駛場景，包括空間、時間和任務，無需任何密集的BEV表示。具體來說，設計了一個統一的稀疏架構，用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外，重

自動駕駛第一性之純視覺靜態重建 Jun 02, 2024 pm 03:24 PM

純視覺的標註方案，主要利用視覺加上一些GPS、IMU和輪速感測器的資料進行動態標註。當然面向量產場景的話，不一定要純視覺，有些量產的車輛裡面，會有像固態雷達（AT128）這樣的感測器。如果從量產的角度做資料閉環，把這些感測器都用上，可以有效解決動態物體的標註問題。但是我們的方案裡面，是沒有固態雷達的。所以，我們就介紹這個最通用的量產標註方案。純視覺的標註方案的核心在於高精度的pose重建。我們採用StructurefromMotion(SFM)的pose重建方案，來確保重建精確度。但是傳

LLM全搞定！ OmniDrive：集3D感知、推理規劃於一體（英偉達最新） May 09, 2024 pm 04:55 PM

寫在前面&筆者的個人理解這篇論文致力於解決當前多模態大語言模型（MLLMs）在自動駕駛應用中存在的關鍵挑戰，即將MLLMs從2D理解擴展到3D空間的問題。由於自動駕駛車輛（AVs）需要針對3D環境做出準確的決策，這項擴展顯得格外重要。 3D空間理解對於AV來說至關重要，因為它直接影響車輛做出明智決策、預測未來狀態以及與環境安全互動的能力。目前的多模態大語言模型（如LLaVA-1.5）通常只能處理較低解析度的影像輸入（例如），這是由於視覺編碼器的分辨率限制，LLM序列長度的限制。然而，自動駕駛應用需

一覽Occ與自動駕駛的前世今生！首篇綜述全面總結特徵增強/量產部署/高效標註三大主題 May 08, 2024 am 11:40 AM

寫在前面&筆者的個人理解近年來，自動駕駛因其在減輕駕駛員負擔和提高駕駛安全方面的潛力而越來越受到關注。基於視覺的三維佔用預測是一種新興的感知任務，適用於具有成本效益且對自動駕駛安全全面調查的任務。儘管許多研究已經證明，與基於物體為中心的感知任務相比，3D佔用預測工具具有更大的優勢，但仍存在專門針對這一快速發展領域的綜述。本文首先介紹了基於視覺的3D佔用預測的背景，並討論了這項任務中遇到的挑戰。接下來，我們從特徵增強、部署友善性和標籤效率三個面向全面探討了目前3D佔用預測方法的現況和發展趨勢。最後

邁向『閉環』| PlanAgent：基於MLLM的自動駕駛閉環規劃新SOTA！ Jun 08, 2024 pm 09:30 PM

中科院自動化所深度強化學習團隊聯合理想汽車等提出了一種新的基於多模態大語言模型MLLM的自動駕駛閉環規劃框架—PlanAgent。此方法以場景的鳥瞰圖和基於圖的文本提示為輸入，利用多模態大語言模型的多模態理解和常識推理能力，進行從場景理解到橫向和縱向運動指令生成的層次化推理，並進一步產生規劃器所需的指令。在大規模且具有挑戰性的nuPlan基準上對該方法進行了測試，實驗表明PlanAgent在常規場景和長尾場景上都取得了最好(SOTA)性能。與常規大語言模型(LLM)方法相比，PlanAgent所

超越BEVFusion！ DifFUSER：擴散模型殺入自動駕駛多任務（BEV分割+偵測雙SOTA） Apr 22, 2024 pm 05:49 PM

寫在前面&筆者的個人理解目前，隨著自動駕駛技術的越發成熟以及自動駕駛感知任務需求的日益增多，工業界和學術界非常希望一個理想的感知算法模型，可以同時完成三維目標檢測以及基於BEV空間的語意分割任務。對於一輛能夠實現自動駕駛功能的車輛而言，其通常配備環視相機感測器、光達感測器以及毫米波雷達感測器來採集不同模態的數據資訊。從而充分利用不同模態資料之間的互補優勢，使得不同模態之間的資料補充優勢，例如三維點雲資料可以為3D目標檢測任務提供信息，而彩色影像資料則可以為語義分割任務提供更加準確的資訊。針

See all articles

TimePillars：讓純LiDAR 3D偵測路線延伸至何方？直接覆蓋200m！

寫在前面

詳解TimePillars

Input preprocessing

Model architecture

Feature Ego-Motion Compensation

實驗

讨论

结论

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題