目錄
在多個資料集上取得SOTA
△RES任務上NExT-Chat結果
△REC任務上NExT-Chat結果
△POPE資料集上NExT-Chat結果
△RefCOCOg資料集上NExT-Chat結果
提出影像編碼新方式
傳統方法的缺陷
pix2emb方法
△pix2emb方法簡單範例
NExT-Chat模型
△NExT-Chat模型架構
首頁 科技週邊 人工智慧 大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

Jan 05, 2024 pm 12:56 PM
ai 模型

多模態大模型整合了偵測分割模組後,摳圖變得更簡單了!

我們的模型可以透過自然語言描述來快速標註要尋找的物體,並提供文字解釋,讓您輕鬆完成任務。

新加坡國立大學NExT 實驗室與清華劉知遠團隊合作開發的全新多模態大模型,為我們提供了強大的支援。這個模型的背後是經過精心打造的,它能夠在解謎過程中為玩家們提供全面的幫助和指導。它結合了多種模態的訊息,為玩家們呈現出全新的解謎方法和策略。這個模型的應用將為玩家們

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

隨著GPT-4v的推出,多模態領域迎來了一系列新模型,如LLaVA、BLIP-2等等。這些模型的出現在提升了多模態任務的表現和效果方面做出了巨大貢獻。

為了進一步提升多模態大模型的區域理解能力,研究團隊發展了一個名為NExT-Chat的多模態模型。此模型具備同時進行對話與檢測、分割的能力。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

NExT-Chat的最大亮點是其多模態模型中引入了位置輸入和輸出的能力。這項特點使得NExT-Chat在互動中能夠更準確地理解和回應使用者的需求。透過位置輸入,NExT-Chat可以根據使用者所在的地理位置提供相關的資訊和建議,從而提升使用者體驗。而透過位置輸出,NExT-Chat可以將特定地理位置的相關資訊傳達給用戶,幫助他們更好

其中,位置輸入能力是指根據指定的區域回答問題,而位置輸出能力則是指定位元對話中提及的物體。這兩種能力在解謎遊戲中非常重要。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

即使是複雜的定位問題,也能迎刃而解:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

除了物體定位,NExT-Chat還可以將圖片或其中的某個部分進行描述:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果
分析完影像的內容之後,NExT-Chat可以利用得到的資訊進行推理:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

為了準確評估NExT-Chat的表現,研究團隊在多個任務資料集上進行了測試。

在多個資料集上取得SOTA

作者首先展示了NExT-Chat在指代表達式分割(RES)任務上的實驗結果。

雖然僅用了極少量的分割數據,NExT-Chat卻展現出了良好的指代分割能力,甚至打敗了一系列有監督模型(如MCN,VLT等)和用了5倍以上分割掩模標註的LISA方法。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△RES任務上NExT-Chat結果

#接著,研究團隊展示了NExT-Chat在REC任務上的實驗結果。

如下表所示,相較於相當一系列的有監督方法(如UNITER),NExT-Chat都可以取得更優的效果。

一個有趣的發現是NExT-Chat比使用了類似框訓練資料的Shikra效果要稍差一些。

作者猜測,這是由於pix2emb方法中LM loss和detection loss更難以平衡,以及Shikra更貼近現有的純文本大模型的預訓練形式導致的。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△REC任務上NExT-Chat結果

在影像幻覺任務上,如表3所示,NExT-Chat可以在Random和Popular數據集上取得最優的準確率。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△POPE資料集上NExT-Chat結果

在區域描述任務上,NExT-Chat也能取得最優的CIDEr表現,且在該指標打敗了4-shot情況下的Kosmos- 2。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△RefCOCOg資料集上NExT-Chat結果

那麼,NExT-Chat背後都採用了哪些方法呢?

提出影像編碼新方式

傳統方法的缺陷

傳統的模型主要透過pix2seq的方式進行LLM相關的位置建模。

例如Kosmos-2將圖像劃分成32x32的區塊,用每個區塊的id來代表點的座標;Shikra將物體框的座標轉化為純文字的形式從而使得LLM可以理解座標。

但使用pix2seq方法的模型輸出主要限制在框和點這樣的簡單格式,而很難泛化到其他更密集的位置表示格式,例如segmentation mask。

為了解決這個問題,本文提出了一種全新的基於embedding的位置建模方式pix2emb。

pix2emb方法

不同於pix2seq,pix2emb所有的位置資訊都透過對應的encoder和decoder進行編碼和解碼,而不是藉助LLM本身的文字預測頭。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△pix2emb方法簡單範例

#如上圖所示,位置輸入被對應的encoder編碼為位置embedding,而輸出的位置embedding則透過Box Decoder和Mask Decoder轉換為框架和遮罩。

這樣做帶來了兩個好處:

  • 模型的輸出格式可以非常方便的擴展到更多複雜形式,例如segmentation mask。
  • 模型可以非常容易的定位任務中已有的實踐方式,例如本文的detection loss採用L1 Loss和GIoU Loss (pix2seq則只能使用文本生成loss),本文的mask decoder借助了已有的SAM來做初始化。

透過將pix2seq與pix2emb結合,作者訓練了全新的NExT-Chat模型。

NExT-Chat模型

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△NExT-Chat模型架構

NExT-Chat整體採用了LLaVA架構,即透過Image Encoder來編碼圖像資訊並輸入LLM進行理解,並在此基礎上添加了對應的Box Encoder和兩種位置輸出的Decoder。

為了解決LLM不知道何時該使用語言的LM head還是位置解碼器的問題,NExT-Chat額外引入一個全新的token類型來標識位置資訊。

如果模型輸出了,則該token的embedding會被送入對應的位置解碼器進行解碼而不是語言解碼器。

此外,為了維持輸入階段和輸出階段位置資訊的一致性,NExT-Chat額外引入了一個對齊約束:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

##△位置輸入、輸出限制
如上圖所示,box和位置embedding會分別透過解碼器、編碼器或解碼器編碼器組合,並要求前後不變更。

作者發現此方法可以大幅促進位置輸入能力的收斂。

而NExT-Chat的模型訓練主要包含3個階段:

    第一階段:訓練模型
  • 基本的框輸入輸出基本能力。 NExT-Chat採用Flickr-30K,RefCOCO,VisualGenome等包含框輸入輸出的資料集進行預訓練。訓練過程中,LLM參數會被全部訓練。
  • 第二階段:
  • 調整LLM的指令遵循能力。透過一些Shikra-RD,LLaVA-instruct之類的指令微調資料使得模型可以更好的回應人類的要求,輸出更人性化的結果。
  • 第三階段:
  • 賦予NExT-Chat模型分割能力。透過以上兩階段訓練,模型已經有很好的位置建模能力了。作者進一步將此能力擴展到mask輸出。實驗發現,透過使用極少量的mask標註資料和訓練時間(大約3小時),NExT-Chat可以快速的擁有良好的分割能力。
這樣的訓練流程的好處是:偵測框資料豐富且訓練開銷更小。

NExT-Chat透過在充沛的檢測框資料訓練基本的位置建模能力,之後可以快速的擴展到難度更大且標註更稀缺的分割任務上。

以上是大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles