如何用Transformer BEV克服自動駕駛的極端狀況？-人工智慧-PHP中文網

自動駕駛系統在實際應用中需要面對各種複雜的場景，尤其是Corner Case（極端情況）對自動駕駛的感知和決策能力提出了更高的要求。 Corner Case指的是實際駕駛中可能出現的極端或罕見情況，例如交通事故、惡劣天氣條件或複雜的道路狀況。 BEV技術透過提供全局視角來增強自動駕駛系統的感知能力，從而有望在處理這些極端情況時提供更好的支援。本文將探討BEV（Bird's Eye View，俯視視角）技術如何幫助自動駕駛系統應對Corner Case，並提高系統的可靠性和安全性。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

Transformer 作為你一個基於自註意力機制的深度學習模型，最早應用於自然語言處理任務。其核心思想是透過自註意力機制捕捉輸入序列中的長距離依賴關係，從而提高模型在處理序列資料上的能力。

將以上兩者進行有效結合也是在自動駕駛策略中相當吃香的一門新興技術。

01 BEV的技術優勢分析

BEV是一種將三維環境資訊投影到二維平面的方法，以俯視視角展示環境中的物體和地形。在自動駕駛領域，BEV 可以幫助系統更好地理解周圍環境，並提高感知和決策的準確性。在環境感知階段，BEV 可以將光達、雷達和相機等多模態資料融合在同一平面上。這種方法可以消除資料之間的遮蔽和重疊問題，提高物體偵測和追蹤的精確度。同時，BEV 可以為後續的預測和決策階段提供清晰的環境表示，有利於提高系統的整體效能。

1、Lidar與BEV技術的比較：

#首先，BEV技術能提供全域視角的環境感知，有助於提升自動駕駛系統在複雜場景下的表現。然而，光達在距離和空間資訊方面具有更高的精度。

其次，BEV技術透過攝影機捕捉影像，可以取得顏色和紋理信息，而光達在這方面的表現較弱。

此外，BEV技術的成本相對較低，適用於大規模商業化部署。

2、BEV技術與傳統單視角攝影機的比較

傳統單視角攝影機是常用的車輛感知設備，可捕捉車輛周圍的環境資訊。然而，單視角攝影機在視野和資訊取得方面存在一定限制。 BEV技術整合多個攝影機的影像，提供全局視角，可以更全面地了解車輛周圍的環境。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

BEV技術在複雜場景和惡劣天氣條件下，相對於單視角攝影機具有更好的環境感知能力，因為BEV能夠融合來自不同角度的影像訊息，從而提高系統對環境的感知。

BEV技術可以幫助自動駕駛系統更好地處理Corner Case，如複雜道路狀況、狹窄或遮蔽的道路等，而單視角攝影機在這些情況下可能表現不佳。

當然在成本和資源佔用情況方面，由於BEV需要進行各個視角下的影像感知，重建和拼接，因此是比較耗費算力和儲存資源的。雖然BEV技術需要部署多個攝像頭，但整體成本仍低於光達，且相對於單視角攝影機在性能上有明顯提升。

綜上所述，BEV技術在自動駕駛領域與其他感知技術相比具有一定優勢。尤其是在處理Corner Case方面，BEV技術可以提供全局視角的環境感知，有助於提高自動駕駛系統在複雜情境下的表現。然而，為了充分發揮BEV技術的優勢，仍需要進一步研究和開發，以提高影像處理能力、感測器融合技術以及異常行為預測等方面的效能。同時，結合其他感知技術（如雷射雷達）以及深度學習和機器學習演算法，可以進一步提升自動駕駛系統在各種場景下的穩定性和安全性。

02 基於Transformer 和BEV 的自動駕駛系統

同時，Bird's Eye View (BEV) 作為一種有效的環境感知方法，在自動駕駛系統中發揮重要作用。結合 Transformer 和 BEV 的優勢，我們可以建立一個端到端的自動駕駛系統，實現高精度的感知、預測和決策。本文也將同時探討 Transformer 和 BEV 在自動駕駛領域如何進行有效結合與應用，以提升系統性能。

具體步驟如下：

1、資料預處理：

將雷射雷達、雷達和相機等多模態資料融合為BEV 格式，並進行必要的預處理操作，如資料增強、歸一化等。

首先，我們需要將光達、雷達和相機等多模態資料轉換為 BEV 格式。對於雷射雷達點雲數據，我們可以將三維點雲投影到一個二維平面上，然後對該平面進行柵格化，以產生一個高度圖；對於雷達數據，我們可以將距離、角度資訊轉換為笛卡爾座標，然後在BEV 平面上進行柵格化；對於相機數據，我們可以將影像資料投影到BEV 平面上，產生一個顏色或強度圖。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

2、感知模組：

在自動駕駛的感知階段，Transformer 模型可用於擷取多模態資料中的特徵，如雷射雷達點雲、影像、雷達資料等。透過對這些資料進行端到端的訓練，Transformer 能夠自動學習到這些資料的內在結構和相互關係，從而有效地識別和定位環境中的障礙物。

利用 Transformer 模型對 BEV 資料進行特徵提取，實現障礙物的偵測與定位。

將這些 BEV 格式的資料疊在一起，形成一個多通道的 BEV 影像。設雷射雷達的BEV 高度圖為H(x, y)，雷達的BEV 距離圖為R(x, y)，相機的BEV 強度圖為I(x, y)，則多通道的BEV 影像可表示為：

B(x, y) = [H(x, y), R(x, y), I(x, y)]

其中B(x, y) 表示多通道BEV 影像在座標(x, y) 的像素值，[] 表示通道疊加。

3、預測模組：

基於感知模組的輸出，使用 Transformer 模型預測其他交通參與者的未來行為和軌跡。透過學習歷史軌跡數據，Transformer 能夠捕捉交通參與者的運動模式和相互影響，從而為自動駕駛系統提供更準確的預測結果。

具體的講，我們首先使用 Transformer 對多通道 BEV 影像進行特徵提取。設輸入BEV 影像為B(x, y)，我們可以透過多層自註意力機制和位置編碼來提取特徵F(x, y)：

F(x, y) = Transformer(B(x, y))

其中F(x, y) 表示特徵圖，在座標(x, y) 的特徵值。

然後，我們利用提取到的特徵 F(x, y) 預測其他交通參與者的行為和軌跡。可以採用Transformer 的解碼器來產生預測結果，如下所示：

P(t) = Decoder(F(x, y), t)

#其中P(t) 表示在時間t 處的預測結果，Decoder 表示Transformer 解碼器。

透過上述步驟，我們可以實現基於 Transformer 與 BEV 的資料融合與預測。具體的 Transformer 結構和參數設定可以根據實際應用場景進行調整，以達到最佳效能。

4、決策模組：

根據預測模組的結果，結合交通規則和車輛動力學模型，採用Transformer 模型產生適當的駕駛策略。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

透過將環境資訊、交通規則和車輛動力學模型整合到模型中，Transformer 能夠學習到高效且安全的駕駛策略。如路徑規劃、速度規劃等。此外，利用 Transformer 的多頭自註意力機制，可以有效平衡不同資訊來源之間的權重，從而在複雜環境中做出更合理的決策。

以下是採用此方法的具體步驟：

1、資料收集與預處理：

#首先，需要收集大量的駕駛數據，包括車輛狀態資訊（如速度、加速度、方向盤角度等）、路況資訊（如道路類型、交通標誌、車道線等）、週邊環境資訊（如其他車輛、行人、自行車等）以及駕駛者所採取的操作。對這些資料進行預處理，包括資料清洗、標準化和特徵提取。

2、資料編碼與序列化：

#將收集到的資料編碼成適合 Transformer 模型輸入的形式。這通常包括將連續的數值資料離散化，並將離散化的資料轉換成向量形式。同時，需要將資料序列化，以便 Transformer 模型能夠處理時序資訊。

2.1、Transformer 編碼器

#Transformer 編碼器由多層相同的子層組成，每個子層包含兩個部分：多頭自註意力（Multi-Head Attention）和前饋神經網路（Feed-Forward Neural Network）。

多頭自註意力：首先將輸入序列分成 h 個不同的頭，分別計算每個頭的自註意力，然後將這些頭的輸出拼接在一起。這樣可以捕捉輸入序列中不同尺度的依賴關係。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

多頭自註意力的計算公式為：

MHA (X) = Concat(head_1, head_2, ..., head_h) * W_O

#其中MHA(X) 表示多頭自註意力的輸出，head_i 表示第i 個頭的輸出，W_O 是輸出權重矩陣。

前饋神經網路：接下來，將多頭自註意力的輸出傳遞給前饋神經網路。前饋神經網路通常包含兩層全連接層和一個活化函數（如 ReLU）。前饋神經網路的計算公式為：

FFN(x) = max(0, xW_1 b_1) * W_2 b_2

#其中FFN (x) 表示前饋神經網路的輸出，W_1 和W_2 是權重矩陣，b_1 和b_2 是偏置向量，max(0, x) 表示ReLU 活化函數。

此外，編碼器中的每個子層都包含殘差連接和層歸一化（Layer Normalization），這有助於提高模型的訓練穩定性和收斂速度。

2.2、Transformer 解碼器

與編碼器類似，Transformer 解碼器也由多層相同的子層組成，每個子層包含三個部分：多頭自註意力、編碼器-解碼器注意力（Encoder-Decoder Attention）和前饋神經網路。

多頭自註意力：與編碼器中的多頭自註意力相同，用於計算解碼器輸入序列中各個元素之間的關聯程度。

編碼器-解碼器注意力：用於計算解碼器輸入序列與編碼器輸出序列之間的關聯程度。其計算方法與自註意力類似，只是查詢向量來自解碼器輸入序列，而鍵向量和值向量來自編碼器輸出序列。

前饋神經網路：與編碼器中的前饋神經網路相同。解碼器中的每個子層同樣包含殘差連接和層歸一化。透過多層編碼器和解碼器的堆疊，Transformer 能夠處理具有複雜依賴關係的序列資料。

3、建立Transformer 模型：

#建立一個適用於自動駕駛場景的Transformer 模型，包括設定適當的層數、頭數和隱藏層大小。此外，還需要根據任務需求對模型進行微調，例如使用駕駛策略產生任務的損失函數。

首先將特徵向量經由MLP得到低維向量，傳遞到GRU實現的自動迴歸路徑點網絡，並用其初始化GRU的隱狀態。此外目前位置和目標位置也被輸入，使網路專注於隱狀態的相關上下文。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

使用單層GRU，用線性層從隱狀態預測路徑點偏移量如何利用Transformer BEV解决自动驾驶极端情况？ #，得到預測路徑點。 GRU的輸入是原點。

控制器根據預測路徑點，使用兩個PID控制器分別進行橫向和縱向控制，獲得轉向、煞車和油門值。將連續幀路徑點向量進行加權平均，則縱向控制器的輸入為其模長，並橫向控制器的輸入為其朝向。

計算目前影格自車座標系下的專家軌跡路徑點與預測軌跡路徑點的L1損失，即

如何利用Transformer BEV解决自动驾驶极端情况？

4、訓練與驗證：

使用收集到的資料集對Transformer 模型進行訓練。在訓練過程中，需要對模型進行驗證以檢查其泛化能力。資料集可以劃分為訓練集、驗證集和測試集，以便對模型進行評估。

5、駕駛策略產生：

在實際應用中，根據當前車輛狀態、路況資訊和周圍環境資訊輸入預訓練的Transformer 模型。模型將根據這些輸入產生駕駛策略，如加速、減速、轉向等。

6、駕駛策略執行與最佳化：

#將產生的駕駛策略傳遞給自動駕駛系統，以控制車輛。同時，收集實際執行過程中的數據，用於模型的進一步最佳化和迭代。

經過上述步驟，可以採用基於 Transformer 模型的方法在自動駕駛決策階段產生適當的駕駛策略。需要注意的是，由於自動駕駛領域的安全性要求較高，實際部署時需確保模型在各種場景下的效能和安全性。

03 Transformer BEV技術解決Corner Case的實例

在本部分中，我們將詳細介紹三個BEV技術解決Corner Case的實例，分別涉及複雜道路狀況、惡劣天氣條件和預測異常行為。如下圖分別表示了自動駕駛中的一些Cornercase情境。採用Transformer BEV的技術可以有效的辨識及應對大部分目前所能辨識出的邊緣場景。

如何利用Transformer BEV解决自动驾驶极端情况？圖片

1、處理複雜道路狀況

在複雜道路狀況下，如交通擁擠、複雜的路口或不規則的路面，Transformer BEV技術可以提供更全面的環境感知。透過整合車輛周圍多個攝影機的影像，BEV產生一個連續的俯視視角，使得自動駕駛系統能夠清楚地識別車道線、障礙物、行人和其他交通參與者。例如，在一個複雜的路口，BEV技術能幫助自動駕駛系統準確地辨識各個交通參與者的位置和行駛方向，進而為路徑規劃和決策提供可靠依據。

2、應付惡劣天氣條件

在惡劣天氣條件下，如雨、雪、霧等，傳統的攝影機和雷射雷達可能會受到影響，降低自動駕駛系統的感知能力。 Transformer BEV技術在這些情況下仍具有一定優勢，因為它可以融合來自不同角度的影像訊息，從而提高系統對環境的感知。為了進一步增強Transformer BEV技術在惡劣天氣條件下的性能，可以考慮採用紅外線攝影機或熱成像攝影機等輔助設備，以補充可見光攝影機在這些情況下的不足。

3、預測異常行為

在實際道路環境中，行人、騎乘者和其他交通參與者可能會出現異常行為，例如突然穿越馬路、違反交通規則等。 BEV技術可以幫助自動駕駛系統更好地預測這些異常行為。借助全局視角，BEV可以提供完整的環境信息，使得自動駕駛系統能夠更準確地追蹤和預測行人和其他交通參與者的動態。此外，結合機器學習和深度學習演算法，Transformer BEV技術可以進一步提高對異常行為的預測準確性，從而使自動駕駛系統在複雜場景中做出更合理的決策。

4、狹窄或遮蔽的道路

#在狹窄或遮蔽的道路環境中，傳統的攝影機和雷射雷達可能難以取得足夠的資訊來進行有效的環境感知。然而，Transformer BEV技術可以在這些情況下發揮作用，因為它可以整合多個攝影機擷取的影像，產生一個更全面的視野。這使得自動駕駛系統能夠更好地了解車輛周圍的環境，並識別狹窄通道中的障礙物，從而安全地通過這些場景。

5、併車和交通合流

#在高速公路等場景中，自動駕駛系統需要應對併車和交通合流等複雜任務。這些任務對自動駕駛系統的感知能力提出了較高要求，因為系統需要即時評估周圍車輛的位置和速度，以確保安全地進行併車和交通合流。透過Transformer BEV技術，自動駕駛系統可以獲得一個全局視角，清楚地了解車輛周圍的交通狀況。這將有助於自動駕駛系統制定合適的併車策略，確保車輛安全地融入交通流。

6、緊急情況應對

在緊急情況下，如交通事故、道路封閉或突發事件，自動駕駛系統需要快速做出決策以確保行駛安全。在這些情況下，Transformer BEV技術可以為自動駕駛系統提供即時、全面的環境感知，幫助系統迅速評估當前的道路狀況。結合即時數據和先進的路徑規劃演算法，自動駕駛系統可以製定合適的應急策略，避免潛在的風險。

透過這些實例，我們可以看到Transformer BEV技術在應對Corner Case時具有很大的潛力。然而，為了充分發揮Transformer BEV技術的優勢，仍需要進一步研究和開發，以提高影像處理能力、感測器融合技術以及異常行為預測等方面的效能。

04 結論

本文總結了Transformer和BEV技術在自動駕駛中的原理和應用，特別是如何解決Corner Case問題。透過提供全局視角和準確的環境感知，Transformer BEV技術有望提高自動駕駛系統在面對極端情況時的可靠性和安全性。然而，目前的技術仍存在一定的局限性，例如在惡劣天氣條件下的性能下降。未來的研究應繼續關注BEV技術的改進和與其他感知技術的融合，以實現更高水準的自動駕駛安全性。

以上是如何用Transformer BEV克服自動駕駛的極端狀況？的詳細內容。更多資訊請關注PHP中文網其他相關文章！