AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
隨著人工智慧的發展,語言模型和生成模型獲得了大量的成功並且在設計模型的過程中,模型的參數量也越來越大。對於細粒度理解任務,模型參數量也同樣在增加。然而目前現有的資料集存在規模和精度的矛盾,例如SA-1B 資料集中99.1% 的mask 都是機器生成的,但沒有賦予語義的標籤,而其他一些公開資料集也同樣存在精度問題並且這些資料集的規模一般都比較小。 近期,位元組跳動提出了新一代細粒度理解的資料集,針對當代深度學習模型的設計需求,給總量為383K 的圖片進行了全景分割的人工標註,最後達到了5.18M 張mask,是至今最大規模的人工標籤的全景分割理解資料集,命名為COCONut。此成果已入選 CVPR2024。
- 論文連結:https://arxiv.org/abs/2404.08639
- 程式碼與數據集連結: https://xdeng7.github.io/coconut.github.io/
影片展示了COCONut 的單張圖片的mask密度以及語意類別的統計,可以看出,資料集的語意豐富以及mask 分割粒度精細。該資料集還支援多種理解任務,例如全景分割,實例分割,語義分割,目標檢測,語義控制生成和開放詞彙分割,在多項任務上,僅透過替換資料集就達到了明顯的效能提升。
#通常只採用手動標註是非常昂貴的,這也是目前現存的大多數公開資料集規模上不去的一個重要原因。還有一些資料集直接使用模型產生的標籤,但往往這種產生的標籤對模型的訓練不會有太大的提高,本文也驗證了這一點。所以本文提出了一種新穎的標註方式,結合人工的半自動標籤生成。既能確保數據標註的精度又能實現人工勞動力的節省成本,同時還能加速標註過程。
#研究者把COCONut 和COCO 在同一張圖上的標註進行對比。從下圖的比較可以看到本文提出的標註方法達到了和純人工用 Photoshop 標註幾乎一致的精度,但是在標註速度上提高了 10 倍以上。
和已有的COCO 資料集相比,資料集各個類別的分佈比較相近,但是在每張圖的mask 總量上是超過COCO 資料集的,尤其是有大量單張圖片有超過100 張mask 的情況,由此說明了COCONut 的標註較為精細,粒度分割較為密集。
除了提出一個更好的訓練集,研究者也發現現有的驗證集無法很好的體現模型效能的提升,因此本文也提出了一個更加富有挑戰性的、可以反映模型的提升的測試集,命名為COCONut-val. 從下表可以看到,僅替換資料集,更高精度的訓練集可以帶來模型很大的提升,例如在全景分割上達到超過4 個點的PQ。然而當訓練集的規模增加了之後,可以發現,用現有的測試集做測試並不能反映出模型的提升,而COCONut-val 則能反映出模型在增加了訓練集資料量之後仍然有明顯的提升。
下圖為驗證集語意類別和 mask 密度的對比,可以看出新提出的驗證集更具挑戰性,更能反映模型的提升。
了解更多實驗結果可參考原論文,團隊後續將在 GitHub 主頁提供資料集和對應的模型公開下載。 智慧創作團隊是位元組跳動AI & 多媒體技術團隊,涵蓋了電腦視覺、影音編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法- 工程系統- 產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。 目前,智慧創作團隊已透過位元組跳動旗下的雲端服務平台火山引擎向企業開放技術能力與服務。更多大模型演算法相關崗位開放中。 以上是CVPR 2024 | 位元組提出新一代資料集COCONut,比COCO粒度分割更密集的詳細內容。更多資訊請關注PHP中文網其他相關文章!