超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 20, 2024 pm 08:31 PM

產業 DynRefer

為了實現高精度的區域級多模態理解，本文提出了一種動態分辨率方案來模擬人類視覺認知系統。

本文作者來自中國科學院大學LAMP實驗室，其中第一作者趙毓鐘是中國科學院大學2023級博士生，共同作者劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知。

簡介

DynRefer 透過模擬人類視覺認知過程，顯著提升了區域級多模態辨識能力。透過引入人眼的動態解析度機制，DynRefer 能夠以單一模型同時完成區域辨識、區域屬性偵測和區域字幕產生（region-level captioning）任務，並在上述任務都取得 SOTA 效能。其中在 RefCOCOg 資料集的 region-level captioning 任務上取得了 115.7 CIDEr，顯著高於 RegionGPT，GlaMM，Osprey，Alpha-CLIP 等 CVPR 2024 的方法。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

論文標題：DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
論文連結：https://arxhttpsiv./ab ://github.com/callsys/DynRefer

動機超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

區域級多模態任務致力於將指定的圖像偏好的語言描述為符合人類偏好的語言描述為符合人類偏好的圖像。人類完成區域級多模態任務時具有一種分辨率自適應能力，即關注區域是高分辨率的，非關注區域是低分辨率的。然而，目前的區域層級多模態大語言模型往往採用固定解析度編碼的方案，即對整張影像進行編碼，然後透過 RoI Align 將區域特徵提取出來。這種做法缺乏人類視覺認知系統中的解析度自適應能力，對關注區域的編碼效率和能力較低。為了實現高精度的區域級多模態理解，我們提出了一個動態解析度方案來模擬人類視覺認知系統，如下圖所示。

^{圖 1：傳統中區域中的多模態方法（左）與 DynRefer 方法（右）的比較。}

方法

1、模擬動態解析度的影像（Multi-view construction）。 由於主流的預訓練視覺語言模型（CLIP）只能接收均勻解析度的輸入，我們透過建構多個均勻解析度的視圖來模擬一幅動態解析度影像。該影像在指代區域具有高分辨率，而在非指代區域低解析度。具體流程如圖 2 上。原始影像 x 被裁剪並調整大小為多個候選視圖。裁剪區域的計算方式為超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

，其中

。這裡的

表示參考區域的邊界框，超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

表示整個影像的尺寸，t 表示插值係數。在訓練過程中，我們從候選視圖中隨機選擇 n 個視圖，以模擬由於注視和眼球快速運動而產生的圖像。這些 n 個視圖對應於內插係數 t，即超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

。我們固定保留僅包含參考區域的視圖（即超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

）。經實驗證明此視圖有助於保留區域細節，對於所有區域多模態任務都至關重要。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

^{圖 2：DynRefer 訓練時（上）與推理（下）。}

2、隨機動態視圖嵌入（Stochastic Multi-view Embedding）。 具體流程如圖 3 所示。採樣的 n 個視圖透過凍結的 CLIP 編碼成空間特徵，然後經過 RoI-Align 模組處理，以獲取區域嵌入，即超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

。如圖 3 左側所示。由於裁剪、調整大小和 RoI-Align 引入的空間誤差，這些區域嵌入在空間上並不對齊。受 deformable convolution 操作啟發，我們提出了一個對齊模組，透過將超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

對齊到

來減少偏差，其中

超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA

是僅包含參考區域的視圖編碼的區域嵌入。對於每個區域嵌入超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

，首先將其與

連接，然後透過卷積層計算一個二維偏移圖。超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

的空間特徵然後根據二維偏移重新取樣。最後，對齊後的區域嵌入沿著通道維度連接並透過 linear 層進行融合。輸出進一步透過視覺重採樣模組，即 Q-former，進行壓縮，從而提取原始影像 x 的參考區域超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

的區域表示（圖 3 中的超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

）。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

^{圖 3：DynRefer 網路結構}

透過隨機多視圖嵌入模組計算得到的區域表示

，由三個解碼器

解碼，如圖3（右）所示，分別受三個多模態任務的監督：超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

i ) 影像區域標籤生成。我們採用基於查詢的輕量級識別解碼器進行區域標籤產生。解碼器
如圖 3（右）所示。透過使用標籤作為查詢，作為鍵和值，計算預定義標記的置信度來完成標記過程。我們從真值字幕中解析出標籤，以監督識別解碼器。 ii) 區域 - 文本對比學習。類似於區域標記解碼器，解碼器

定義為基於查詢的識別解碼器。此解碼器計算字幕與區域特徵之間的相似性分數，使用 SigLIP loss 進行監督。 iii) 語言建模。我們採用預先訓練的大語言模式

將區域表示

轉換為語言描述。

^{圖 4：雙視圖（n=2）DynRefer 模型在區域層級多模態任務上的表現。在不同的內插係數 t 下,}^{。視圖一是固定的（}^{），視圖二隨機選擇或固定。}

4、在推理過程中，經過訓練的 DynRefer 模型透過動態解析度在影像上執行多模態任務。透過調整取樣的 n 個視圖的內插係數超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

，我們可以得到具有動態解析度特性的區域表示。為了評估不同動態解析度下的特性，我們訓練了一個雙視圖（n=2）的 DynRefer 模型，並在四個多模態任務上進行評估。從圖 4 中的曲線可以看出，對於沒有情境資訊的視圖（超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

），屬性偵測（Attribute detection）獲得了更好的結果。這可以解釋為這種任務通常需要詳細的區域資訊。而對於區域級字幕（Region-level captioning）和密集字幕生成（Dense captioning）任務，需要上下文豐富的視圖（超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

），以便完整理解參考區域。需要注意的是，過多上下文的視圖（超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

）會降低所有任務的效能，因為它們引入了過多與區域無關的資訊。當已知任務類型時，我們可以根據任務特性採樣適當的視圖。當任務類型未知時，我們首先建立一組在不同插值係數 t 下的候選視圖集合，超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

。從候選集中，透過貪婪搜尋演算法採樣 n 個視圖。搜尋的目標函數定義為：

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA 其中表示第 i 個視圖的插值係數，表示第 i 個視圖，pHASH (・) 表示感知圖像雜湊函數，表示異或操作。為了從全域視角比較視圖的訊息，我們利用 "pHASH (・)" 函數將視圖從空間域轉換到頻域，然後編碼成雜湊碼。對於超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA 這一項，我們減少上下文豐富視圖的權重，以避免引入過多冗餘資訊。

實驗

Region-level Captioning

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

在區域生成任務，DynRefer 以更小字幕的模型（Refg.在METEOR 和CIDEr 兩個指標上都顯著超過了CVPR 2024 中的眾多方法，如RegionGPT，GlaMM，Alpha-CLIP 和Osprey 等，展現出DynRefer 巨大的性能優勢。

Dense Captioning

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

在密集字幕產生任務，在 VG1.2 資料集，DynRefer 相較之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

在區域屬性檢測任務，DynRefer 也取得了 SOTA 的效能。

Open Vocabulary Region Recognition

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

在區域識別任務，DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% 。

消融實驗

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

Line 1-6：隨機動態多視圖要優於固定視圖。
Line 6-10：透過最大化資訊選擇視圖優於隨機選擇視圖。
Line 10-13：多任務訓練可以學習得到更好的區域表徵。

可視化

下面幾張圖展示了 DynRefer 的推理結果，DynRefer 可以用一個模型同時輸出區域字幕、標籤模型和標籤模型。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

以上是超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

分散式人工智慧盛會DAI 2024徵稿：Agent Day，強化學習之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展，人工智慧成為了推動社會進步的重要力量。在這個時代，我們有幸見證並參與分散式人工智慧（DistributedArtificialIntelligence，DAI）的創新與應用。分散式人工智慧是人工智慧領域的重要分支，這幾年引起了越來越多的關注。基於大型語言模型（LLM）的智能體（Agent）異軍突起，透過結合大模型的強大語言理解和生成能力，展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型，成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題