為了實現高精度的區域級多模態理解,本文提出了一種動態分辨率方案來模擬人類視覺認知系統。
本文作者來自中國科學院大學LAMP實驗室,其中第一作者趙毓鐘是中國科學院大學2023級博士生,共同作者劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知。
DynRefer 透過模擬人類視覺認知過程,顯著提升了區域級多模態辨識能力。透過引入人眼的動態解析度機制,DynRefer 能夠以單一模型同時完成區域辨識、區域屬性偵測和區域字幕產生(region-level captioning)任務,並在上述任務都取得 SOTA 效能。其中在 RefCOCOg 資料集的 region-level captioning 任務上取得了 115.7 CIDEr,顯著高於 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。
- 論文標題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
- 論文連結:https://arxhttpsiv./ab ://github.com/callsys/DynRefer
動機
區域級多模態任務致力於將指定的圖像偏好的語言描述為符合人類偏好的語言描述為符合人類偏好的圖像。人類完成區域級多模態任務時具有一種分辨率自適應能力,即關注區域是高分辨率的,非關注區域是低分辨率的。然而,目前的區域層級多模態大語言模型往往採用固定解析度編碼的方案,即對整張影像進行編碼,然後透過 RoI Align 將區域特徵提取出來。這種做法缺乏人類視覺認知系統中的解析度自適應能力,對關注區域的編碼效率和能力較低。為了實現高精度的區域級多模態理解,我們提出了一個動態解析度方案來模擬人類視覺認知系統,如下圖所示。
以上是超越CVPR 2024方法,DynRefer在區域級多模態辨識任務上,多項SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!