回歸元學習,基於變分特徵聚合的少樣本目標檢測實現新SOTA
不同於傳統的目標偵測問題,少樣本目標偵測(FSOD)假設我們有許多的基礎類別樣本,但只有少量的新穎類別樣本。其目標是研究如何將基礎類別的知識遷移到新穎類,進而提升檢測器對新穎類的辨識能力。
FSOD 通常遵循兩階段訓練範式。在第一階段,偵測器使用豐富的基礎類別樣本進行訓練,以學習目標偵測任務所需的通用表示,如目標定位和分類。在第二階段中,檢測器僅使用 少量(如 1, 2, 3...)新穎類樣本進行微調。然而由於基礎類和新穎類樣本數量的不平衡,其學習到的模型通常偏向基礎類,進而導致新穎類目標與相似的基礎類混淆。此外,由於每個新穎類別只有少量樣本,因此模型對新穎類的變異數很敏感。例如,隨機採樣新穎類樣本進行多次訓練,每次的結果都會有較大的差異。因此十分有必要提升模型在少樣本下的穩健性。
近期,騰訊優圖實驗室與武漢大學提出了基於變分特徵聚合的少樣本目標偵測模型 VFA。 VFA 的整體結構是基於改進版的元學習目標檢測框架Meta R-CNN ,並提出了兩種特徵聚合方法:類別無關特徵聚合CAA(Class-Agnostic Aggregation)和變分特徵聚合VFA(Variational Feature Aggregation)。
特徵聚合是 FSOD 中的關鍵設計,其定義了 Query 和 Support 樣本之間的互動方式。前面的方法如 Meta R-CNN 通常採用類別相關特徵聚合 CSA(class-specific aggregation),即同類 Query 和 Support 樣本的特徵進行特徵聚合。與此相反,本文提出的 CAA 允許不同類別樣本之間的特徵聚合。由於 CAA 鼓勵模型學習類別無關的表示,其降低了模型對基礎類別的偏差。此外,不同類別之間的交互作用能夠更好地建模類別間的關係,從而降低了類別的混淆。
基於CAA,本文又提出了VFA,採用變分編碼器(VAEs)將Support 樣本編碼為類別的分佈,並從學習到的分佈中採樣新的Support特徵進行特徵融合。相關工作 [1] 指出類內方差(如外觀的變化)在不同類別之間是相似的,並且可以透過常見的分佈進行建模。因此我們可以利用基礎類別的分佈來估計新穎類別的分佈,進而提高少樣本情況下特徵聚合的穩健性。
VFA 在多個FSOD 資料集上表現優於目前最好的模型,##相關研究已經被AAAI 2023 錄取為Oral。
論文網址:https://arxiv.org/abs/2301.13411
#VFA 模型細節更強的基準方法:Meta R-CNN
目前FSOD 的工作主要可以分為兩類:基於元學習(meta learning)的方法和基於微調(fine-tuning)的方法。早期的一些工作證明元學習對 FSOD 是有效的,但基於微調的方法在最近受到越來越多的關注。 本文首先建立了一個基於元學習的基線方法Meta R-CNN ,縮小了兩種方法之間的差距,在某些指標上甚至超過了基於微調的方法 。
我們首先分析了兩種方法在實作上的一些差距,以元學習方法Meta R-CNN [2] 和基於微調的方法TFA [3] 為例,雖然這兩種方法都遵循兩階段訓練範式,TFA 在微調階段使用額外的技術最佳化模型:
- TFA 凍結了大部分網路參數,只訓練最後的分類和迴歸層,這樣模型就不會過度擬合少樣本類別。
- TFA 不是隨機初始化分類層,而是複製基礎類別的預訓練權重,只初始化新穎類別的權重。
- TFA 採用餘弦分類器(cosine classifier)而不是線性分類器。
考慮到 TFA 的成功,我們建構了 Meta R-CNN 。如下表 1 所示,只要我們仔細處理微調階段,後設學習方法也能達到較好的效果。因此,本文選擇 Meta R-CNN 作為基線方法。
表一:Meta R-CNN 與TFA 的比較與分析
類別無關特徵聚合CAA
##圖一:類別無關特徵聚合CAA 示意圖
本文提出一個簡單而有效的類別無關特徵聚合方法CAA。如上圖一所示,CAA 允許不同類別之間的特徵聚合,進而鼓勵模型學習類別無關的表示,從而減少類別間的偏向和類別之間的混淆。具體來說,對於類別
的每個RoI 特徵和一組Support 特徵,
我們隨機選擇一個類別的Support 特徵
的
##然後我們將聚合特徵
#提供給偵測子網路
#以輸出分類分數
。
變分特徵聚合 VFA
####先前的工作通常將Support 樣本編碼為單一特徵向量來表示類別的中心。然而在樣本較少且變異數較大的情況下,我們很難對類中心做出準確的估計。在本文中,我們首先將 Support 特徵轉換為類別的分佈。由於估計出的類別分佈不偏向特定樣本,因此從分佈中採樣的特徵對樣本的變異數有較好的穩健性。 VFA 的框架如上圖二所示。
a)變分特徵學習。 VFA 採用變分自編碼器 VAEs [4] 來學習類別的分佈。如圖二所示,對於一個Support 特徵S,我們首先使用編碼器來估計分佈的參數
# ,接著從分佈
中透過變分推理(variational inference)取樣
,最後透過解碼器
得到重構的Support 特徵
。在最佳化VAE 時,除了常見的KL Loss
和重構Loss
,本文也使用了一致性Loss 使得學習到的分佈保留類別資訊:
b)變分特徵融合。由於 Support 特徵被轉換為類別的分佈,我們可以從分佈中取樣特徵並與 Query 特徵聚合。具體來說,VFA 同樣採用類別無關聚合 CAA,但將 Query 特徵與變異特徵
聚合在一起。給定類別
的Query 特徵
和類別
的Support 特徵
,我們首先估計其分佈#,並取樣變分特徵
;然後透過下面的公式將其融合在一起:
其中表示通道乘法,而sig 是sigmoid 運算的縮寫。在訓練階段,我們隨機選擇一個Support 特徵
進行聚合;在測試階段,我們對
類別的##個Support 特徵取平均值
,並估計分佈
。
分類 - 回歸任務解耦
#通常情況下,偵測子網路包含一個共享特徵擷取器
和兩個獨立的網路:分類子網絡
和回歸子網路
。在前面的工作中,聚合後的特徵被輸入到偵測子網路中進行目標分類和邊界框回歸。但是分類任務需要平移不變特徵,而迴歸需要平移協變的特徵。由於 Support 特徵表示的是類別的中心,具有平移不變性,因此聚合後特徵會損害迴歸任務。
本文提出一個簡單的分類 - 回歸任務解耦。讓和
表示原始和聚合後的Query 特徵,先前的方法對這兩個任務都採用
,其中分類分數
與預測邊界框
定義為:
為了解耦這些任務,我們採用單獨的特徵提取器並使用原始的Support 特徵進行邊界框回歸:
我們所採用的資料集:PASCAL VOC、 MS COCO。 評估指標:新穎類別平均精確度 nAP、基礎類別平均精確度 bAP。
主要結果
#VFA 在兩個資料集上都取得了較好的結果。如在 PASCAL VOC 資料集上(下表二),VFA 顯著高於先前的方法;VFA 的 1-shot 結果甚至高於一些方法 10-shot 的結果。
消融實驗
a)不同模組的作用 。如下表三所示,VFA 的不同模組可以共同作用,提升模型的表現。
b) 不同特徵聚合方法視覺化分析。如下圖三所示,CAA 可以減少基礎類與新穎類之間的混淆;VFA 在 CAA 的基礎上,進一步增強了類間的區分度。
c)更準確的類別中心點估計值。如下圖四所示,VFA 可以更準確的估計出類別的中心。且隨著樣本數的減少,估計的準確度逐漸高於基線方法。這也解釋了為什麼我們的方法在樣本少的情況下(K=1)表現的更好。
d)結果視覺化。
結論
本文回歸了基於元學習的FSOD 中特徵聚合方法,並提出了類別無關特徵聚合CAA 和變異特徵聚合VFA。 CAA 可以減少基礎類別和新穎類別之間的類別偏差和混淆;VFA 將樣本轉換為類別分佈以實現更穩健的特徵聚合。本文提出的方法在 PASCAL VOC 和 MS COCO 資料集上的實驗證明了其有效性。
以上是回歸元學習,基於變分特徵聚合的少樣本目標檢測實現新SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

i77700的效能運行win11完全足夠,但是用戶卻發現自己的i77700不能升級win11,這主要是受到了微軟硬性條件的限制,所以只要跳過該限制就能安裝了。 i77700不能升級win11:1、因為微軟限制了cpu的版本。 2.intel只有第八代以上版本可以直升win11。3、而i77700作為7代,無法滿足win11的升級需求。 4.但是i77700在性能上是完全能流暢使用win11的。 5.所以大家可以使用本站的win11直裝系統。 6.下載完成後,右鍵「裝載」該檔案。 7.再雙擊運行其中的「一鍵

哈嘍,大家好。今天就跟大家分享一個摔倒偵測項目,確切地說是基於骨骼點的人體動作辨識。大概分為三個步驟辨識人體辨識人體骨骼點動作分類項目源碼已經打包好了,取得方式見文末。 0. chatgpt首先,我們需要取得監控的視訊串流。這段程式碼比較固定,我們可以直接讓chatgpt完成chatgpt寫的這段程式碼是沒有問題的,可以直接使用。但後面涉及業務型任務,例如:用mediapipe識別人體骨骼點,chatgpt給的代碼是不對的。我覺得chatgpt可以當作一個工具箱,能獨立於業務邏輯,都可以試著交給c

今天要為大家介紹一篇MIT上週發表的文章,使用GPT-3.5-turbo解決時間序列異常檢測問題,初步驗證了LLM在時間序列異常檢測的有效性。整個過程沒有進行finetune,直接使用GPT-3.5-turbo進行異常檢測,文中的核心是如何將時間序列轉換成GPT-3.5-turbo可辨識的輸入,以及如何設計prompt或pipeline讓LLM解決異常檢測任務。下面跟大家詳細介紹一下這篇工作。圖片論文標題:Largelanguagemodelscanbezero-shotanomalydete

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

隨著現代Web應用不斷發展,PHP作為其中最受歡迎的程式語言之一,被廣泛地應用於網站開發中。但在開發過程中,經常會遇到空值錯誤,而這些錯誤會導致應用程式拋出異常,進而影響使用者的使用體驗。因此,在PHP開發過程中,如何偵測和處理空值錯誤,是程式設計師需要掌握的重要技能。一、什麼是空值錯誤在PHP開發過程中,空值錯誤通常指的是兩種情況:變數未初始化和變

最近在Arxiv上閱讀到一篇關於純視覺環視感知的最新研究,該研究基於PETR系列方法,並專注於解決遠距離目標檢測的純視覺感知問題,將感知範圍擴大到150米。這篇論文的方法和結果對我們來說有很大的參考價值,所以我嘗試著對其進行解讀原標題:Far3D:ExpandingtheHorizonforSurround-view3DObjectDetection論文連結:https://arxiv.org/abs/2308.09616作者單位:北京理工大學&曠視科技任務背景三維物體偵測在理解自動駕駛

寫在前面&筆者的個人理解在自動駕駛系統當中,感知任務是整個自駕系統中至關重要的組成部分。感知任務的主要目標是使自動駕駛車輛能夠理解和感知周圍的環境元素,如行駛在路上的車輛、路旁的行人、行駛過程中遇到的障礙物、路上的交通標誌等,從而幫助下游模組做出正確合理的決策和行為。在一輛具備自動駕駛功能的車輛中,通常會配備不同類型的信息採集感測器,如環視相機感測器、雷射雷達感測器以及毫米波雷達感測器等等,從而確保自動駕駛車輛能夠準確感知和理解周圍環境要素,使自動駕駛車輛在自主行駛的過程中能夠做出正確的決斷。目

隨著網路的不斷發展,越來越多的網站湧現出來,但同時,網站的安全問題也愈發嚴重。駭客攻擊、惡意軟體、SQL注入等安全漏洞令網站業者頭痛不已。為了確保網站的安全性,網站建置和營運過程中的安全檢測也顯得格外重要。本文將介紹如何利用ThinkPHP6實現網站安全偵測,協助網站業者進一步提升網站安全性。一、什麼是ThinkPHP6ThinkPHP6是一款PH
