遮蔽是電腦視覺很基礎但依舊未解決的問題之一,因為遮蔽意味著視覺訊息的缺失,而機器視覺系統卻依靠視覺訊息進行感知和理解,並且在現實世界中,物體之間的相互遮蔽無所不在。牛津大學 VGG 實驗室 Andrew Zisserman 團隊最新工作系統性地解決了任意物體的遮蔽補全問題,並且為此問題提出了一個新的更精確的評估資料集。該工作受到了 MPI 大佬 Michael Black、CVPR 官方帳號、南加州大學計算機系官方帳號等在 X 平台的讚。以下為論文「Amodal Ground Truth and Completion in the Wild」的主要內容。
#非模態分割(Amodal Segmentation)旨在補全物體被遮蔽的部分,即給出物體可見部分和不可見部分的形狀遮罩。這個任務可以使得許多下游任務受益:物體辨識、目標偵測、實例分割、影像編輯、三維重建、視訊物件分割、物件間支撐關係推理、機器人的操縱和導航,因為在這些任務中知道被遮蔽物體完整的形狀會有所幫助。
然而,如何去評估一個模型在真實世界做非模態分割的表現卻是一個難題:雖然很多圖片中都有大量的被遮蔽物體,可是如何得到這些物體完整形狀的參考標準 或是非模態遮罩呢?前人的工作有透過人手動標註非模態掩碼的,可是這樣標註的參考標準難以避免引入人類誤差;也有工作通過製造合成數據集,比如在一個完整的物體上貼直接另一個物體,來得到被遮蔽物體的完整形狀,但這樣得到的圖片都不是真實圖片場景。因此,這項工作提出了透過 3D 模型投影的方法,構造了一個大規模的涵蓋多物體種類並且提供非模態掩碼的真實圖片資料集(MP3D-Amodal)來精確評估非模態分割的性能。各不同資料集的對比如下圖:
#具體而言,以MatterPort3D 資料集為例,對於任意的有真實照片並且有場景三維結構的資料集,我們可以將場景中所有物體的三維形狀同時投影到相機上以獲得每個物體的模態遮罩(可見形狀,因為物體相互之間有遮蔽),然後將場景每個物體的三維形狀分別投影到相機以獲得這個物體的非模態掩碼,即完整的形狀。透過對比模態遮罩和非模態掩碼,即可以挑選出被遮蔽的物體。
資料集的統計資料如下:
資料集的樣例如下:
#此外,為解決任意物體的完整形狀重建任務,作者提取出Stable Diffusion 模型的特徵中關於物體完整形狀的先驗知識,來對任意被遮蔽物體做非模態分割,具體的架構如下(SDAmodal):
提出使用Stable Diffusion Feature 的動機在於,Stable Diffusion 具有圖片補全的能力,所以可能一定程度上包含了有關物體的全部資訊;而且由於Stable Diffusion經過大量圖片的訓練,所以可以期待其特徵在任意環境下有對任意物體的處理能力。和前人two-stage 的框架不同,SDAmodal 不需要已經標註好的遮擋物掩碼作為輸入;SDAmodal 架構簡單,卻體現出很強的零樣本泛化能力(比較下表Setting F 和H,僅在COCOA 上訓練,卻能在另一個不同域、不同類別的資料集上有所提升);即使沒有關於遮擋物的標註,SDAmodal 在目前已有的涵蓋多種類被遮擋物體的資料集COCOA 以及新提出的MP3D-Amodal 資料集上,都取得了SOTA表現(Setting H)。
除了定量實驗,定性的比較也體現出了SDAmodal 模型的優勢:從下圖可以觀察到(所有模型都只在COCOA上訓練),對於不同種類的被遮蔽物體,無論是來自於COCOA,還是來自於另一個MP3D-Amodal,SDAmodal 都能大大提升非模態分割的效果,所預測的非模態掩碼更加接近真實的。
更多細節,請閱讀論文原文。
以上是「AI透視眼」,三次馬爾獎得主Andrew帶隊解決任意物體遮蔽補全難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!