「AI透視眼」,三次馬爾獎得主Andrew帶隊解決任意物體遮蔽補全難題
遮蔽是電腦視覺很基礎但依舊未解決的問題之一,因為遮蔽意味著視覺訊息的缺失,而機器視覺系統卻依靠視覺訊息進行感知和理解,並且在現實世界中,物體之間的相互遮蔽無所不在。牛津大學 VGG 實驗室 Andrew Zisserman 團隊最新工作系統性地解決了任意物體的遮蔽補全問題,並且為此問題提出了一個新的更精確的評估資料集。該工作受到了 MPI 大佬 Michael Black、CVPR 官方帳號、南加州大學計算機系官方帳號等在 X 平台的讚。以下為論文「Amodal Ground Truth and Completion in the Wild」的主要內容。
- #論文連結:https://arxiv.org/pdf/2312.17247.pdf
- 專案首頁:https://www.robots.ox.ac.uk/~vgg/research/amodal/
- 程式碼位址: https://github.com/Championchess/Amodal-Completion-in-the-Wild
#非模態分割(Amodal Segmentation)旨在補全物體被遮蔽的部分,即給出物體可見部分和不可見部分的形狀遮罩。這個任務可以使得許多下游任務受益:物體辨識、目標偵測、實例分割、影像編輯、三維重建、視訊物件分割、物件間支撐關係推理、機器人的操縱和導航,因為在這些任務中知道被遮蔽物體完整的形狀會有所幫助。
然而,如何去評估一個模型在真實世界做非模態分割的表現卻是一個難題:雖然很多圖片中都有大量的被遮蔽物體,可是如何得到這些物體完整形狀的參考標準 或是非模態遮罩呢?前人的工作有透過人手動標註非模態掩碼的,可是這樣標註的參考標準難以避免引入人類誤差;也有工作通過製造合成數據集,比如在一個完整的物體上貼直接另一個物體,來得到被遮蔽物體的完整形狀,但這樣得到的圖片都不是真實圖片場景。因此,這項工作提出了透過 3D 模型投影的方法,構造了一個大規模的涵蓋多物體種類並且提供非模態掩碼的真實圖片資料集(MP3D-Amodal)來精確評估非模態分割的性能。各不同資料集的對比如下圖:
#具體而言,以MatterPort3D 資料集為例,對於任意的有真實照片並且有場景三維結構的資料集,我們可以將場景中所有物體的三維形狀同時投影到相機上以獲得每個物體的模態遮罩(可見形狀,因為物體相互之間有遮蔽),然後將場景每個物體的三維形狀分別投影到相機以獲得這個物體的非模態掩碼,即完整的形狀。透過對比模態遮罩和非模態掩碼,即可以挑選出被遮蔽的物體。
資料集的統計資料如下:
資料集的樣例如下:
#此外,為解決任意物體的完整形狀重建任務,作者提取出Stable Diffusion 模型的特徵中關於物體完整形狀的先驗知識,來對任意被遮蔽物體做非模態分割,具體的架構如下(SDAmodal):
提出使用Stable Diffusion Feature 的動機在於,Stable Diffusion 具有圖片補全的能力,所以可能一定程度上包含了有關物體的全部資訊;而且由於Stable Diffusion經過大量圖片的訓練,所以可以期待其特徵在任意環境下有對任意物體的處理能力。和前人two-stage 的框架不同,SDAmodal 不需要已經標註好的遮擋物掩碼作為輸入;SDAmodal 架構簡單,卻體現出很強的零樣本泛化能力(比較下表Setting F 和H,僅在COCOA 上訓練,卻能在另一個不同域、不同類別的資料集上有所提升);即使沒有關於遮擋物的標註,SDAmodal 在目前已有的涵蓋多種類被遮擋物體的資料集COCOA 以及新提出的MP3D-Amodal 資料集上,都取得了SOTA表現(Setting H)。
除了定量實驗,定性的比較也體現出了SDAmodal 模型的優勢:從下圖可以觀察到(所有模型都只在COCOA上訓練),對於不同種類的被遮蔽物體,無論是來自於COCOA,還是來自於另一個MP3D-Amodal,SDAmodal 都能大大提升非模態分割的效果,所預測的非模態掩碼更加接近真實的。
更多細節,請閱讀論文原文。
以上是「AI透視眼」,三次馬爾獎得主Andrew帶隊解決任意物體遮蔽補全難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。
