論文連結:https://arxiv.org/pdf/2105.10375.pdf
應用& 程式碼:
背景
影像分類是目前AI 最為成功的實際應用技術之一,已經融入了人們的日常生活。被廣泛應用於電腦視覺的大部分任務中,例如影像分類、影像搜尋、OCR、內容審核、辨識認證等領域。目前已形成一個普遍共識:「當資料集越大 ID 越多時,只要訓練得當,相應分類任務的效果就會越好」。但當面對千萬 ID 甚至上億 ID 時,當下流行的 DL 框架,很難低成本的直接進行如此超大規模的分類訓練。解決這個問題最直觀的方式是透過叢集的方式消耗更多的顯示卡資源,但即便如此,海量ID 下的分類問題,依然會有以下幾個問題:
1)成本問題:分散式訓練框架海量資料情況下,記憶體開銷、多機通訊、資料儲存與載入都會消耗更多的資源。
2)長尾問題:實際場景中,當資料集達到上億ID 時,往往其絕大部分ID 內的圖片樣本數量會很少,資料長尾分佈非常明顯,直接訓練難以獲得較好效果。
本文餘下章節將聚焦在超大規模分類架構現有解決方案,以及低成本分類架構 FFC 的相應原理及 trick 介紹。方法
在介紹方法之前,本文首先回顧了目前超大規模分類存在的主要挑戰點:
挑戰點1:成本居高不下
ID 數目越大分類器顯存需求越大,如下示意圖所示:
顯存越大所需機器卡數越多,成本就越高,對應多機協同的硬體基礎設施成本也越高。同時,當分類 ID 數目達到極超大規模的時候,主要計算量將浪費在最後一層分類器上,骨架網路消耗的時間可忽略不計。
挑戰點2:長尾學習困難
在實際場景下,上億ID 中的絕大部分ID 內的圖片樣本數會很少,長尾資料分佈非常明顯,直接訓練難以收斂。如果按照同等權重訓練,則長尾樣本會被淹沒學習不充分。此時,一般採用 imbalanced sample,在這個研究課題上,有非常多的方法可以藉鑑,採取怎樣的方式融入到簡易超大規模分類框架上較為合適呢?
帶著上述兩個挑戰點,首先來看下現有可行的方案有哪些,是否能很好的解決上述兩個挑戰。
######可行方法1:度量學習############################可行方法2:PFC 框架##########可行方法3:VFC 框架
本論文方法:FFC 框架
大規模分類採用FC 訓練時損失函數如下:
在每一次反傳過程中,所有的類別中心都會更新:
但FC 太大了,直覺的想法是合理地選擇一定比例的類別中心,即如下Vj 為1 部分:
##由上述動機,引出如下初步的方案:
首先,為了解決長尾帶來的影響,本文引進兩個loaders,分別是基於id取樣的id_loader 和基於取樣的instance_loader,有了這兩個loader。在每個 epoch 當中,樣本多的類別和樣本少的(few-shot)類別能夠有機會被訓練到。
其次,在訓練開始之前,先將一部分樣本送入 id group,這裡假設放入 10% id 的樣本進入 group。這時候 gallery 用的是隨機參數。
然後,訓練開始時,batch 樣本挨個進入 probe net。然後對於每個 batch 裡面的樣本就有兩種情況:1.)group 中存在此樣本同樣 id 的特徵,2.)group 中不存在同類樣本的特徵。對於這兩種情況,分別稱為 existing id 和 fresh id。對於 existing 的樣本,用特徵和 group 裡面的特徵做內積,計算與標籤的交叉熵損失函數,然後再回傳。對於 fresh 的樣本,與 group 裡面的樣本進行最小化餘弦相似度。
最後,對 group 裡面特徵更新,採取新類別中心替換,依據現有類別中心加權的原則。對於 gallery net,採用 moving average 策略把 probe 裡面的參數漸進式更新進去。
本論文方法:trick 介紹
1.)引入的ID Group,其size 為可調參數,一般預設為3 萬。
2.)為達到穩定訓練,參考moco 類別方法,引入moving average,對應收斂情況分別為:
實驗結果
1. 雙重Loader 消融實驗
############# 2. SOTA 方法效果比較##################
3. 顯存與樣本吞吐對比
##以上是達摩院開源低成本大規模分類架構FFC的詳細內容。更多資訊請關注PHP中文網其他相關文章!