橫掃13個視覺語言任務!哈工深發布多模態大模型「九天」,性能直升5%
为了应对多模态大语言模型中视觉信息提取不充分的问题,哈尔滨工业大学(深圳)的研究人员提出了双层知识增强的多模态大语言模型-九天(JiuTian-LION)。
需要重新写的内容是:论文链接:https://arxiv.org/abs/2311.11860
GitHub: https://github.com/rshaojimmy/JiuTian
项目主页: https://rshaojimmy.github.io/Projects/JiuTian-LION
与现有的工作相比,九天首次分析了图像级理解任务和区域级定位任务之间的内部冲突,提出了分段指令微调策略和混合适配器来实现两种任务的互相提升。
通过注入细粒度空间感知和高层语义视觉知识,九天实现了在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上显著的性能提升( 比如Visual Spatial Reasoning 上高达5% 的性能提升),在其中13个评测任务上达到了国际领先水平,性能对比如图1所示。
图1:对比其他MLLMs,九天在大部分任务上都取得了最优的性能。
九天JiuTian-LION
通过赋予大型语言模型(LLMs)多模态感知能力,一些工作开始生成多模态大语言模型(MLLMs),并在许多视觉语言任务上取得了突破性进展。然而,现有的MLLMs主要采用图文对预训练得到的视觉编码器,如CLIP-ViT
这些视觉编码器的主要任务是学习图像层面的粗粒度图像文本模态对齐,但是它们缺乏全面的视觉感知和信息抽取能力,无法进行细粒度的视觉理解
在很大程度上,这种视觉信息提取不足和理解程度不够的问题会导致MLLMs存在视觉定位偏差、空间推理不足和物体幻觉等多个缺陷,如图2所示
请参考图2:九天(JiuTian-LION)是一种采用双层视觉知识增强的多模态大语言模型
九天相较于现有的多模态大语言模型(MLLMs),通过注入细粒度空间感知视觉知识和高层语义视觉证据,有效地提升了MLLMs的视觉理解能力,生成更准确的文本回应,减少了MLLMs的幻觉现象
双层视觉知识增强的多模态大语言模型-九天(JiuTian-LION)
为了解决MLLMs在视觉信息提取和理解方面存在的不足,研究人员提出了一种双层视觉知识增强的MLLMs方法,被称为九天(JiuTian-LION)。具体的方法框架如图3所示
该方法主要从两方面增强MLLMs,渐进式融合细粒度空间感知视觉知识(Progressive Incorporation of Fine-grained Spatial-aware Visual knowledge)和软提示下的高层语义视觉证据(Soft Prompting of High-level Semantic Visual Evidence)。
具体来说,研究人员提出了一种分段指令微调策略,以解决图像级理解任务和区域级定位任务之间的内部冲突。他们逐步将细粒度的空间感知知识注入到MLLMs中。同时,他们将图像标签作为高层语义视觉证据加入MLLMs,并使用软提示方法来减轻不正确标签可能带来的负面影响
九天(JiuTian-LION)模型框架图如下所示:
此工作透過分段式訓練策略先分別基於Q-Former 和Vision Aggregator – MLP 兩個分支學習影像層級理解和區域層級定位任務,然後在最後訓練階段利用具有路由機制的混合適配器來動態融合不同分支的知識提升模型在兩種任務中的表現。
該工作也透過RAM提取圖像標籤作為高層語意視覺證據,然後提出軟提示方法來提高高層語意注入的效果
漸進式融合細粒度空間感知視覺知識
當直接將影像層級理解任務(包括影像描述和視覺問答)與區域層級定位任務(包括指示表達理解,指示表達生成等)進行單階段混合訓練時,MLLMs 會遭遇兩種任務之間存在的內部衝突,從而無法在所有任務上取得較好的綜合表現。
研究人員認為這種內在衝突主要由兩個問題引起。第一個問題是缺少區域級的模態對齊預訓練,目前具有區域級定位能力的MLLMs 大多先使用大量相關資料進行預訓練,不然很難在有限地訓練資源下讓基於圖像級模態對齊的視覺特徵適應區域層級任務。
另一個問題是影像層級理解任務和區域層級定位任務之間的輸入輸出模式差異,後者需要模型額外理解關於物體座標的特定短句(以的形式)。為了解決上述問題,研究人員提出了分段式指令微調策略,以及具有路由機制的混合適配器。
如圖4所示,研究者將單一階段指令微調過程拆分為三個階段:
##使用ViT、Q-Former和影像級適配器學習全局視覺知識的影像級理解任務;使用Vision Aggregator、MLP和區域級適配器學習細粒度空間感知視覺知識的區域級定位任務;提出了具有路由機制的混合適配器,動態融合不同分支中學習到的不同粒度的視覺知識。表3顯示了分段式指令微調策略相對於單階段訓練的效能優勢
圖4:分段式指令微調策略
對於注入軟提示下的高層語意視覺證據,需要進行重寫處理
研究人員提出使用圖像標籤作為高層語義視覺證據的有效補充,以進一步增強MLLMs的全局視覺感知理解能力
具體來說,先透過RAM 擷取影像的標籤,然後利用特定的指令模版「According to , you are allowed to use or partially use the following tags:」包裝圖片標籤。此指令模版中的「
配合模版中特定短語“use or partially use”,軟提示向量可以指導模型減輕不正確標籤帶來的潛在負面影響。
實驗結果研究人員在包含圖像描述(image captioning)、視覺問答(VQA)、和指示表達理解(REC)等17個任務基準集上進行了評測。
實驗結果表明,九天在13個評測集上達到了國際領先水準。特別的,相比較 InstructBLIP 和 Shikra,九天分別在圖像級理解任務和區域級定位任務上取得了全面且一致的性能提升,在 Visual Spatial Reasoning (VSR) 任務上可達到最高5%的提升幅度。
#
從圖5可以看出,在不同的視覺語言多模態任務中,九天和其他MLLMs的能力存在差異,顯示九天在細粒度視覺理解和視覺空間推理能力方面表現更優秀,並且能夠輸出具有較少幻覺的文字回應
#重寫的內容是:第五張圖展示了對九天大模型、InstructBLIP和Shikra的能力差異進行的定性分析
圖6透過樣本分析,顯示了九天模型在影像層級和區域層級視覺語言任務上都具有優秀的理解和辨識能力。
第六張圖:透過更多例子的分析,從圖像和區域級視覺理解的角度展示了九天大模型的能力
總結
(1)該工作提出了一個新的多模態大語言模型-九天:透過雙層視覺知識增強的多模態大語言模型。
(2)該工作在包括圖像描述、視覺問答和指示表達理解等17個視覺語言任務基準集上進行評測,其中13個評測集達到了當前最好的性能。
(3)這項工作提出了一種分段式指令微調策略,以解決影像層級理解和區域層級定位任務之間的內部衝突,並實現了兩種任務之間的相互提升
(4)該工作成功將圖像級理解和區域級定位任務進行整合,多層次全面理解視覺場景,未來可以將這種全面的視覺理解能力應用到具身智慧場景,幫助機器人更好、更全面地辨識和理解當前環境,做出有效決策。
以上是橫掃13個視覺語言任務!哈工深發布多模態大模型「九天」,性能直升5%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

目前排名前十的虛擬幣交易所:1.幣安,2. OKX,3. Gate.io,4。幣庫,5。海妖,6。火幣全球站,7.拜比特,8.庫幣,9.比特幣,10。比特戳。

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron
