目標追蹤是電腦視覺中一項重要任務,廣泛應用於交通監控、機器人、醫學影像、自動車輛追蹤等領域。它是透過深度學習方法,在確定了目標物件的初始位置後,預測或估計影片中每個連續幀中目標物件的位置。目標追蹤在現實生活中有著廣泛的應用,並且在電腦視覺領域具有重要意義。
目標追蹤通常涉及目標偵測的過程。以下是目標追蹤步驟的簡要概述:
1.物件偵測,其中演算法透過在物件周圍建立邊界框來對物件進行分類和偵測。
2.為每個物件指派唯一識別 (ID)。
3.在儲存相關資訊的同時追蹤偵測到的物件在影格中的移動。
目標追蹤有兩種類型:影像追蹤和視訊追蹤。
影像追蹤
影像追蹤是自動辨識和追蹤影像的任務。主要應用於擴增實境(AR)領域。例如,當透過相機輸入二維影像時,演算法會偵測二維平面影像,然後可用於疊加3D圖形物件。
影片追蹤
影片追蹤是追蹤影片中移動物件的任務。視訊追蹤的想法是關聯或建立目標物件之間的關係,因為它出現在每個視訊幀中。換句話說,視訊追蹤是按順序分析視訊幀,並透過預測並在其周圍創建邊界框來將物件的過去位置與當前位置拼接起來。
視訊追蹤廣泛用於交通監控、自動駕駛汽車和安全,因為它可以處理即時鏡頭。
# 階段一:目標初始化
#涉及定義對像或目標。結合了在影片的初始幀中圍繞它繪製邊界框的過程。然後追蹤器必須估計或預測物件在剩餘幀中的位置,同時繪製邊界框。
階段二:外觀建模
外觀建模涉及對物件的視覺外觀進行建模。當目標物體經過光照條件、角度、速度等各種場景時,可能會改變物體的外觀,並可能導致錯誤訊息和演算法失去對物體的追蹤。因此必須進行外觀建模,以便建模演算法可以捕捉目標物件移動時引入的各種變化和扭曲。
外觀建模由兩部分組成:
階段三:運動估計
運動估計通常推斷模型的預測能力以準確預測物體的未來位置。
階段四:目標定位
一旦物件的位置被近似,我們就可以使用視覺模型來鎖定目標的確切位置。
物件追蹤可以定義為兩個層級:
單目標追蹤(SOT)
單一目標追蹤(SOT)旨在追蹤單一類別的物件而不是多個物件。有時也稱為視覺物件追蹤。在SOT中,目標物件的邊界框在第一幀中定義。該演算法的目標是在其餘幀中定位相同的物件。
SOT屬於免偵測追蹤的範疇,因為必須手動提供追蹤器第一個邊界框。這意味著單對象追蹤器應該能夠追蹤給定的任何對象,甚至是沒有訓練可用分類模型的對象。
多目標追蹤(MOT)
多目標追蹤(MOT)是指追蹤演算法追蹤影片中每個感興趣的單一物件的方法。最初,追蹤演算法確定每個幀中的物件數量,然後追蹤每個物件從一幀到下一幀的身份,直到它們離開幀。
目標追蹤已經引入了許多方法來提高追蹤模型的準確性和效率。一些方法涉及經典的機器學習方法,如k-最近鄰或支援向量機。而下面我們討論一些用於目標追蹤任務的深度學習演算法。
MDNet
利用大規模資料進行訓練的目標追蹤演算法。 MDNet由預先訓練和線上視覺追蹤組成。
預訓練:在預訓練中,網路需要學習多域表示。為實現這一目標,該演算法在多個註釋的影片上進行訓練,以學習表示和空間特徵。
線上視覺追蹤:一旦完成預訓練,特定領域的層就會被移除,網路只剩下共享層,其中包含學習到的表徵。在推理過程中,添加了一個二元分類層,該層是在線訓練或微調的。
這種技術節省了時間,而且它已被證明是一種有效的基於線上的追蹤演算法。
GOTURN
#深度迴歸網路是基於離線訓練的模型。此演算法學習物件運動和外觀之間的一般關係,可用於追蹤未出現在訓練集中的物件。
使用迴歸網路或 GOTURN 的通用物件追蹤使用基於迴歸的方法來追蹤物件。本質上,它們直接回歸以透過網路僅透過一次前饋來定位目標物件。此網路接受兩個輸入:目前幀的搜尋區域和前一幀的目標。網絡然後比較這些圖像以在當前圖像中找到目標對象。
ROLO
ROLO是循環神經網路和YOLO的結合。通常,LSTM更適合與CNN結合使用。
ROLO結合了兩種神經網路:一種是CNN,用於提取空間資訊;另一種是LSTM網絡,用於尋找目標物體的軌跡。在每個時間步,空間資訊被提取並傳送到LSTM,然後LSTM會傳回被追蹤物件的位置。
DeepSORT
DeepSORT是最受歡迎的目標追蹤演算法之一,它是SORT的擴充。
SORT是一種基於線上的追蹤演算法,使用卡爾曼濾波器在給定物件先前位置的情況下估計物件的位置。卡爾曼濾波器對遮蔽非常有效。
了解了SORT後,我們可以結合深度學習技術來增強SORT演算法。深度神經網路允許SORT以更高的精度估計物件的位置,因為這些網路現在可以描述目標影像的特徵。
SiamMask
旨在改善全卷積Siamese網路的離線訓練流程。 Siamese網路接受兩個輸入:裁剪圖像和更大的搜尋圖像以獲得密集的空間特徵表示。
Siamese網路產生一個輸出,它測量兩個輸入影像的相似性,並確定兩個影像中是否存在相同的物件。透過使用二進制分割任務增加損失,該框架對於目標追蹤非常有效。
JDE
JDE是單次偵測器,旨在解決多任務學習問題。 JDE在共享模型中學習目標偵測和外觀嵌入。
JDE使用Darknet-53作為主幹,在每一層獲得特徵表示。然後使用上採樣和殘差連接融合這些特徵表示。然後將預測頭附加到融合特徵表示的頂部,從而產生密集的預測圖。為了執行目標跟踪,JDE從預測頭生成邊界框類別和外觀嵌入。使用親和力矩陣將這些外觀嵌入與先前檢測到的物件的嵌入進行比較。
Tracktor
Tracktor 是一種線上追蹤演算法。它使用物件檢測方法透過僅在檢測任務上訓練神經網路來執行追蹤。本質上是透過計算邊界框迴歸來預測下一幀中物件的位置。它不會對追蹤資料執行任何訓練或優化。
Tracktor 的目標偵測器通常是具有101層ResNet和FPN的Faster R-CNN。它使用Faster R-CNN的回歸分支從當前幀中提取特徵。
#以上是電腦視覺中的目標追蹤概念解讀的詳細內容。更多資訊請關注PHP中文網其他相關文章!