首頁 科技週邊 人工智慧 CVPR 2024 | 擅長處理複雜場景與語言表達,清華&博世提出全新實例分割網路架構MagNet

CVPR 2024 | 擅長處理複雜場景與語言表達,清華&博世提出全新實例分割網路架構MagNet

Apr 26, 2024 pm 06:10 PM
工程 指稱分割

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  图 1:细粒度语言 - 图像对齐能力对 RIS 的重要性示意图。红色掩码是目前最先进的 RIS 算法之一 LAVT 的预测结果,而黄色虚线框则是正确的标注。

目前的 RIS 研究主要集中在设计新颖的损失函数或引入创新的网络架构 / 模块,以增强语言 - 图像的分布对齐。尽管取得了显著进展,但仍存在两个根本性问题,导致它们在细粒度语言 - 图像对齐(Fine-grained Visual Grounding)方面能力不足:

1. 这些方法主要依赖于句子级别的语言特征进行语言 - 图像对齐,导致它们在文字级别的语言 - 图像对齐能力较为薄弱。
2. 这些方法在训练过程中往往缺乏显式的监督信号,无法有效地教会模型进行细粒度对齐,导致它们在处理复杂的指代语言时表现不佳。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                 图 2:现有算法的缺陷

在近期一篇 CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。通过随机掩码部分文本词汇,并让算法学习预测其真实身份,这一任务旨在显式地教会模型学习文本与视觉对象之间的细粒度对应关系。除此之外,他们还提出了一个新颖的跨模态对齐模块(Cross-modal Alignment Module)和一个新颖的跨模态对齐损失函数 (Cross-modal Alignment Loss),来进一步全面缩小语言和图像之间的模态差距。基于这些技术,他们设计了一个全新的实例分割网络架构 Mask-grounded Network (MagNet)。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  • 论文标题:Mask Grounding for Referring Image Segmentation
  • 论文地址:https://arxiv.org/abs/2312.12198

在 RefCOCO、RefCOCO 和 G-Ref 数据集上,MagNet 大幅超越了所有之前最优的算法,在整体交并比 (oIoU) 这项核心指标上显著提升了 2.48 个百分点。可视化结果也证实,MagNet 在处理复杂场景和语言表达时具有出色的表现。

方法

MagNet 由 3 个独立互补的模块组成,分别为 Mask Grounding,Cross-modal Alignment Module 和 Cross-modal Alignment Loss。

1.Mask Grounding

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                              圖3:Mask Grounding 流程圖

如圖3 所示,在給定輸入圖像、對應的指代表達以及分割遮罩的情況下,作者隨機選取句子中的某些詞彙,並將其替換為一個特殊的可學習遮罩token。然後,訓練模型來預測這些被替換詞彙的實際身分。透過成功預測被遮罩 token 的身份,模型能夠理解文本中的哪些詞彙對應於圖像的哪些部分,從而在此過程中學習細粒度語言 - 圖像對齊能力。為了執行這項輔助任務,首先提取遮罩區域的中心座標,並將其傳遞給一個 2 層 MLP,以編碼分割遮罩的特徵。同時,使用線性層將語言特徵映射到與圖像特徵相同的維度。然後,使用提出的遮罩 token 預測器聯合處理這些特徵,並使用注意力機制模組來進行遮罩 token 預測。雖然 Mask Grounding 需要透過語言編碼器進行額外的前向傳遞來處理被遮罩的表達式,但由於語言編碼器非常小,整體計算成本幾乎可以忽略不計。

2.Cross-modal Alignment Module (CAM)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

##                                                 圖上中:Cross-modal Alignment Module 結構圖


##13!模態對齊模組(CAM),透過在執行語言- 影像融合之前將全局上下文先驗注入影像特徵來增強語言- 影像對齊效果。 CAM 首先使用不同視窗大小的池化操作來產生 K 個不同金字塔尺度的特徵圖。然後,每個特徵圖透過 3 層 MLP 以更好地提取全局訊息,並與另一個模態進行交叉注意力操作。接下來,所有輸出特徵透過雙線性插值上取樣到原始特徵圖尺寸,並在通道維度上拼接。隨後,使用一個 2 層 MLP 將拼接後的特徵通道數減少回原始維度。為了防止多模態訊號淹沒原始訊號,使用一個具有 Tanh 非線性的閘控單元來調製最終輸出。最後,這個門控後的特徵被加回輸入特徵中,然後傳遞給影像或語言編碼器的下一階段。在作者的實作中,CAM 被加到圖像和語言編碼器的每個階段末尾。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

3.Cross-modal Alignment Loss (CAL)

##                                      中使用模態對齊損失函數(CAL)。圖五展示了此損失函數的數學公式。與先前工作不同,CAL 同時考慮了像素到像素 (Pixel-to-Pixel,P2P) 和像素到文字 (Pixel-to-Text,P2T) 之間的對齊。精確的像素到像素對齊能確保模型能分割輸出具有準確形狀和邊界的分割掩碼,而精確的像素到文字對齊能使模型能夠正確地將文字描述與其匹配的圖像區域進行合理的關聯。

實驗

#在表1 中,作者使用oIoU 指標評估MagNet,並與現有最先進的演算法做性能比較。測試數據為 RefCOCO、RefCOCO 和 G-Ref。在單一和多個 / 額外資料集的設定下,MagNet 的效能在這些資料集上全都是 SOTA。

                                        表 1:实验结果

可视化结果CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
                               图 6:MagNet 可视化结果

在图 6 中,我们可以看到,MagNet 的可视化结果也非常突出,在许多困难的场景中都比对比基准 LAVT 强很多。

小结

这篇文章深入探讨了指代分割(RIS)领域的挑战和当前存在的问题,特别是在细粒度语言 - 图像对齐方面的不足。针对这些问题,清华大学和博世中央研究院的研究人员提出了一种新的方法,名为 MagNet,通过引入辅助任务 Mask Grounding、跨模态对齐模块和跨模态对齐损失函数,全面提升了语言和图像之间的对齐效果。实验证明,MagNet 在 RefCOCO、RefCOCO 和 G-Ref 数据集上均取得了显著优异的性能,超越了之前最先进的算法,表现出了强大的泛化能力。可视化结果也证实了 MagNet 在处理复杂场景和语言表达时的优越性。这一研究为指代分割领域的进一步发展提供了有益的启示,有望推动该领域取得更大的突破。

团队介绍

此论文来源于清华大学自动化系(https://www.au.tsinghua.edu.cn)和博世中央研究院(https://www.bosch.com/research/)。其中论文一作庄荣贤为清华大学在读博士生,并在博世中央研究院实习;项目负责人为邱旭冲博士,任博世中央研究院资深研发科学家;通讯作者为清华大学自动化系黄高教授。

以上是CVPR 2024 | 擅長處理複雜場景與語言表達,清華&博世提出全新實例分割網路架構MagNet的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles