NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!
本月初,Meta推出的「分割一切」模型可謂是震撼了整個CV圈。
這幾天,一個名為「Relate-Anything-Model(RAM)」的機器學習模型橫空出世。它賦予了Segment Anything Model(SAM)識別不同視覺概念之間的各種視覺關係的能力。
據了解,該模型由南洋理工大學MMLab團隊和倫敦國王學院和同濟大學的VisCom實驗室的同學利用閒暇時間合作開發。
#示範網址:https://huggingface.co/spaces/mmlab-ntu/ relate-anything-model
程式碼位址:https://github.com/Luodian/RelateAnything
資料集位址:https://github.com/Jingkang50/OpenPSG
#效果示範
首先,讓我們來看看「Relate-Anything-Model(RAM)」的應用程式實例吧!
例如,以下這些關於踢足球、跳舞和交朋友的RAM模型實現的圖像分析結果,就讓人印象非常深刻,很好地展示了模型出色的性能和多樣化應用的潛力。
預備知識:全場景圖產生PSG任務
RAM模型基於ECCV'22 SenseHuman Workshop & 國際演算法算例大賽「Panoptic Scene Graph Generation」賽道冠軍方案。論文網址:https://arxiv.org/abs/2302.02651
#該PSG挑戰賽獎金百萬,共收到來自全球100支團隊提交的各種解決方案,其中包括了使用先進的圖像分割方法以及解決長尾問題等。此外,競賽也收到了一些創新性的方法,例如場景圖專用的資料增強技術。
經過評估,根據性能指標、解決方案的新穎性和意義等方面的考慮,小紅書團隊的GRNet脫穎而出,成為獲勝的方法。
#競賽詳情:https://github.com/Jingkang50/OpenPSG
#在介紹解決方案之前,我們先來介紹兩個經典的PSG基準方法,其中一個是雙階段方法,另一個是單階段方法。 ##########
對於雙階段基線方法,如圖a所示,在第一階段中,使用預訓練的全景分割模型Panoptic FPN從影像中提取特徵、分割和分類預測。然後,將每個個體物件的特徵提供給經典的場景圖產生器,例如IMP,以便在第二階段進行適應PSG任務的場景圖產生。此雙階段方法允許經典的SGG方法透過最小的修改來適應PSG任務。
如圖b所示,單階段基線方法PSGTR首先使用CNN擷取影像特徵,然後使用類似DETR的transformer編碼器-解碼器來直接學習三元組表示。匈牙利匹配器用於將預測的三元組與基本真實三元組進行比較。然後,優化目標最大化匹配器計算的成本,並使用交叉熵進行標籤和分割的DICE/F-1損失計算總損失。
RAM模型架構
在RAM模型的設計過程中,作者參考了PSG冠軍方案GRNet的雙階段結構範式。儘管PSG原文的研究中表明,單階段模型目前的表現優於雙階段模型,然而,單階段模型通常無法像雙階段模型那樣達到良好的分割表現。
經過不同模型結構的觀察推測,單階段模型在關係三元組預測上的優異表現可能是由於來自影像特徵圖的直接監督訊號有利於捕捉關係。
基於這個觀察,RAM的設計同GRNet一樣,旨在兩個模式之間找到一個權衡,透過重視雙階段範式並賦予其類似於單階段範式中獲取全域上下文的能力來實現。
具體地,首先利用Segment Anything Model(SAM)作為特徵提取器,識別和分割圖像中的物體對象,將來自SAM分割器的特定物件的中間特徵映射與其對應的分割融合,得到物件層級特徵。
隨後,將Transformer當作一種全域上下文模組,將獲得的物件層級特徵經過線性映射後輸入其中。透過Transformer編碼器中的交叉注意力機制,輸出的物件特徵從其他物件中收集了更多的全局資訊。
最後,對於Transformer輸出的每個物件層級特徵,透過self-attention機制進一步豐富上下文資訊並使各個物件物件之間完成互動。
請注意,這裡也加入了一個類別嵌入以指示物件的類別,並由此得到了成對的物件及它們之間關係的預測。
RAM關係分類
在訓練過程中,對於每個關係類別,需要執行關係二元分類任務以確定物件對之間是否存在關係。
和GRNet相似的,對關係二元分類任務還有一些特別的考量。例如, PSG資料集通常包含兩個具有多個關係的對象,例如“人看著大象”和“人餵大象”同時存在。為了解決多標籤問題,作者將關係預測從單一標籤分類問題轉換為多標籤分類問題。
此外,由於PSG資料集透過要求註釋者選擇特定和準確的謂詞(如「停在」而不是更一般的「在」)來追求精確度和相關性,可能不適合學習邊界關係(如「在」實際上與「停在」同時存在)。為了解決這個問題,RAM採用了一種自我訓練策略,使用自我蒸餾標籤進行關係分類,並使用指數移動平均值來動態更新標籤。
#RAM的其他設計
在計算關係二元分類損失時,每個預測物件必須與其對應的基礎真實物件配對。匈牙利匹配演算法用於此目的。
然而,演算法容易出現不穩定情況,特別是在網路準確度低的早期訓練階段。這可能導致對於相同的輸入,匹配產生不同的匹配結果,導致網路優化方向不一致,使訓練變得更加困難。
在RAM中,不同於先前方案,作者藉助強大的SAM模型,可以對幾乎任何圖片進行完整且細緻的分割,因此,在在匹配預測和GT過程中, RAM自然地設計了新的GT匹配方法:使用PSG資料集來訓練模型。
對於每個訓練影像,SAM會分割多個物體,但只有少數與PSG的ground truth(GT)mask相符。作者根據它們的交集-並集(IOU)分數進行簡單的匹配,以便(幾乎)每個GT mask都被分配到一個SAM mask。之後,作者根據SAM的mask重新產生關係圖,自然地匹配上了模型的預測。
RAM模型總結
在RAM模型中,作者利用Segment Anything Model(SAM)來識別和分割圖像中的物體,並提取每個分割物體的特徵。隨後使用Transformer模組來使分割物體之間產生交互作用,從而得到新的特徵。最後將這些特徵經過類別嵌入後,透過self-attention機制輸出預測結果。
在訓練過程中,特別地,作者提出了新的GT匹配方法並基於該方法,計算預測和GT的配對關係並分類它們的相互關係。在關係分類的監督學習過程中,作者視之為多標籤分類問題並採用了一種自我訓練策略學習標籤的邊界關係。
最後,希望RAM模型能為你帶來更多的啟發與創新。如果你也想訓練會找關係的機器學習模型,可以專注在團隊的工作,並隨時提出回饋和建議。
專案網址:https://github.com/Jingkang50/OpenPSG
#以上是NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程:第一步:訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件:sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步:定義自定義日誌格式找到或

Tomcat日誌是診斷內存洩漏問題的關鍵。通過分析Tomcat日誌,您可以深入了解內存使用情況和垃圾回收(GC)行為,從而有效定位和解決內存洩漏。以下是如何利用Tomcat日誌排查內存洩漏:1.GC日誌分析首先,啟用詳細的GC日誌記錄。在Tomcat啟動參數中添加以下JVM選項:-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log這些參數會生成詳細的GC日誌(gc.log),包含GC類型、回收對像大小和時間等信息。分析gc.log

在Debian系統中,readdir函數用於讀取目錄內容,但其返回的順序並非預先定義的。要對目錄中的文件進行排序,需要先讀取所有文件,再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序:#include#include#include#include//自定義比較函數,用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系統中,readdir系統調用用於讀取目錄內容。如果其性能表現不佳,可嘗試以下優化策略:精簡目錄文件數量:盡可能將大型目錄拆分成多個小型目錄,降低每次readdir調用處理的項目數量。啟用目錄內容緩存:構建緩存機制,定期或在目錄內容變更時更新緩存,減少對readdir的頻繁調用。內存緩存(如Memcached或Redis)或本地緩存(如文件或數據庫)均可考慮。採用高效數據結構:如果自行實現目錄遍歷,選擇更高效的數據結構(例如哈希表而非線性搜索)存儲和訪問目錄信

Debian系統中的readdir函數是用於讀取目錄內容的系統調用,常用於C語言編程。本文將介紹如何將readdir與其他工具集成,以增強其功能。方法一:C語言程序與管道結合首先,編寫一個C程序調用readdir函數並輸出結果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

本文介紹如何在Debian系統中使用iptables或ufw配置防火牆規則,並利用Syslog記錄防火牆活動。方法一:使用iptablesiptables是Debian系統中功能強大的命令行防火牆工具。查看現有規則:使用以下命令查看當前的iptables規則:sudoiptables-L-n-v允許特定IP訪問:例如,允許IP地址192.168.1.100訪問80端口:sudoiptables-AINPUT-ptcp--dport80-s192.16

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務,它幫助管理員監控和分析系統活動,從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括:集中收集和管理日誌消息;支持多種日誌輸出格式和目標位置(例如文件或網絡);提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝:sudoaptupdatesud

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss
