未知物體也能輕易辨識分割,效果可遷移
從來沒有見過的新物體,它也能被很好地分割。
這是DeepMind研究出的一個新的學習框架:目標發現和表示網絡(Object discovery and representation networks,簡稱Odin)
以往的自我監督學習(SSL)方法能夠很好地描述整個大的場景,但是很難區分出單一的物體。
現在,Odin方法做到了,而且是在沒有任何監督的情況下做到的。
區分出影像中的單一物體可不是很容易的事,它是怎麼做到的呢?
方法原理
能夠很好地區分出影像中的各個物體,主要歸功於Odin學習框架的「自我循環」。
Odin學習了兩組協同工作的網絡,分別是目標發現網絡和目標表示網絡。
目標發現網路以影像的一個裁剪部分作為輸入,裁剪的部分應該包含影像的大部分區域,而這部分影像並沒有在其他方面進行增強處理。
接著對輸入影像產生的特徵圖進行聚類分析,根據不同的特徵對影像中各個物體的進行分割。
目標表示網路的輸入視圖是目標發現網路中所產生的分割影像。
視圖輸入之後,分別對它們進行隨機預處理,包括翻轉、模糊和點級色彩轉換等。
這樣就能夠獲得兩組掩模,它們除了剪裁之外的差異,其他資訊都和底層圖像內容相同。
而後兩個掩模會透過對比損失,進而學習能夠更好地表示影像中物體的特徵。
具體來說,就是透過對比偵測,訓練一個網路來辨識不同目標物體的特徵,同時還有許多來自其他不相干物體的「負面」特徵。
然後,最大化不同掩模中同一目標物體的相似性,最小化不同目標物體之間的相似性,進而更好地進行分割以區別不同目標物體。
同時,目標發現網路會定期根據目標表示網路的參數進行對應的更新。
最終的目的是確保這些物件層級的特性在不同的視圖中大致不變,換句話說就是將影像中的物件分隔開來。
那麼Odin學習框架的效果究竟如何呢?
能夠很好地區分未知物體
Odin方法在場景分割時,沒有先驗知識的情況下遷移學習的效能也很強大。
首先,使用Odin方法在ImageNet資料集上進行預訓練,然後評估其在COCO資料集以及PASCAL和Cityscapes語意分割上的效果。
已經知道目標物體,也就是獲得先驗知識的方法在進行場景分割時,效果要明顯優於其他未獲得先驗知識的方法。
而Odin方法即使未獲得先驗知識,其效果也要優於獲得先驗知識的DetCon和ReLICv2。
除此之外,Odin方法不僅可以應用在ResNet模型中,還可以應用到更複雜的模型中,如Swim Transformer。
在資料上,Odin框架學習的優勢很明顯,那在視覺化的影像中,Odin的優勢在何處體現了呢?
將使用Odin產生的分割影像與隨機初始化的網路(第3列),ImageNet監督的網路(第4列)中獲得的分割影像進行比較。
第3、4列都未能清楚地描繪出物體的邊界,或缺乏現實世界物體的一致性與局部性,而Odin所產生的影像效果很明顯較好。
參考連結:
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
以上是未知物體也能輕易辨識分割,效果可遷移的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

一、引言隨著行動裝置的普及和運算能力的提升,影像分割技術成為了研究的熱點。 MobileSAM(MobileSegmentAnythingModel)是一種針對行動裝置最佳化的影像分割模型,旨在保持高品質分割結果的同時,降低計算複雜度和記憶體佔用,以便在資源有限的行動裝置上高效運行。本文將詳細介紹MobileSAM的原理、優點和應用場景。二、MobileSAM模式的設計想法MobileSAM模式的設計想法主要包括以下幾個面向:輕量級模式:為了適應行動裝置的資源限制,MobileSAM模式採用了輕量級

隨著人工智慧技術的不斷發展,影像語意分割技術已成為影像分析領域的熱門研究方向。在影像語意分割中,我們將一張影像中的不同區域進行分割,並對每個區域進行分類,從而達到對這張影像的全面理解。 Python是一種著名的程式語言,其強大的資料分析和資料視覺化能力使其成為了人工智慧技術研究領域的首選。本文將介紹如何在Python中使用影像語意分割技術。一、前置知識在深入

有時候,我們需要把一個大文件發送給別人,但是限於傳輸通道的限制,比如郵箱附件大小的限制,或者網絡狀況不太好,需要將大文件分割成小文件,分多次發送,接收端再對這些小文件進行合併。今天就來分享一下用Python分割合併大檔案的方法。思路及實作如果是文字文件,可以依行數分割。無論是文字文件還是二進位文件,都可以依指定大小進行分割。使用Python的文件讀寫功能就可以實現文件的分割與合併,設定每個文件的大小,然後讀取指定大小的位元組就寫入一個新文件,接收端依序讀取小文件,把讀取到的位元組依序寫入一個文件,就

如何實現C++中的語音辨識與語音合成?語音辨識和語音合成是當今人工智慧領域的熱門研究方向之一,它們在許多應用場景中扮演了重要的角色。本文將介紹如何使用C++實現基於百度AI開放平台的語音辨識和語音合成功能,並提供相關的程式碼範例。一、語音辨識語音辨識是將人說的語音轉換為文字的技術,在語音助理、智慧家庭、自動駕駛等領域有廣泛應用。以下是使用C++實現語音識

隨著人工智慧技術的不斷發展,人臉偵測和辨識技術在日常生活中得到了越來越廣泛的應用。在各種場合,如人臉門禁系統、人臉支付系統、人臉搜尋引擎等等,人臉偵測和辨識技術都被廣泛應用。而Java作為一種廣泛使用的程式語言,也可以實現人臉偵測和辨識技術。本文將介紹如何使用Java實現人臉偵測與辨識技術。一、人臉偵測技術人臉偵測技術是指在影像或影片中偵測到人臉的技術。在J

Golang與FFmpeg:如何實現音訊合成和分割,需要具體程式碼範例摘要:本文將介紹如何使用Golang和FFmpeg函式庫來實現音訊合成和分割。我們將用到一些具體的程式碼範例來幫助讀者更好地理解。引言:隨著音訊處理技術的不斷發展,音訊合成和分割已成為日常生活和工作中常見的功能需求。而Golang作為一種快速,高效且易於編寫和維護的程式語言,加上FFmpeg作

許多的小夥伴都需要錄影畫面進行辦公室或傳輸文件,但是有時候會出現文件過大的問題製造了很多麻煩,下面就給大家帶來了文件過大的解決方法,一起看看吧。 win10錄影檔太大怎麼辦:1.下載軟體格式工廠來進行壓縮檔。下載位址>>2、進入主頁面,點選「影片-MP4」選項。 3、在轉換格式頁面中點選“新增檔案”,選擇要壓縮的MP4檔案。 4、點擊頁面“輸出配置”,透過輸出品質來壓縮檔案。 5、下拉配置清單選擇「低品質和大小」點選「確定」。 6、點選「確定」完成影片檔案的導入。 7.點選「開始」進行轉換。 8.完成後即可

什麼是交通標誌辨識系統?汽車安全系統的交通標誌辨識系統,英文翻譯為:Traffic Sign Recognition,簡稱TSR,是利用前置攝影機結合模式,可以辨識常見的交通標誌 《 限速、停車、掉頭等)。這項功能會提醒駕駛注意前方的交通標誌,以便駕駛人遵守這些標誌。 TSR 功能降低了駕駛者不遵守停車標誌等交通法規的可能,避免了違法左轉或無意的其他交通違規行為,從而提高了安全性。這些系統需要靈活的軟體平台來增強探測演算法,並根據不同地區的交通標誌來進行調整。交通標誌識別原理交通標誌識別又稱為TS
