首頁 科技週邊 人工智慧 字節豆包、武大提出 CAL:透過視覺相關的 token 增強多模態對齊效果

字節豆包、武大提出 CAL:透過視覺相關的 token 增強多模態對齊效果

Jun 19, 2024 am 09:53 AM
工程 位元組跳動 豆包大模型

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

##目前主流的視覺語言模型(VLM)主要基於大語言模型( LLM)進一步微調。因此需要透過各種方式將圖像映射到 LLM 的嵌入空間,然後使用自回歸方式根據圖像 token 預測答案。

在這個過程中,
模態的對齊是透過文字 token 隱式實現的,如何做好這一步的對齊非常關鍵。

針對這個問題,武漢大學、位元組跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種
基於對比學習的文本token篩選方法(CAL),從文字中篩選出與影像高度相關的token,並加強其損失函數權重,從而實現更精準的多模態對齊。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

  • 論文連結:https://arxiv.org/pdf/2405.17871
  • 程式碼連結:https://github.com/foundation-multimodal-models/CAL

#CAL 有以下幾個亮點:

  • 可以直接嵌套到訓練過程,無需額外預訓練階段。
  • 在 OCR 和 Caption benchmarks 上獲得了明顯的提升,從視覺化中可以發現 CAL 使得圖片模態對齊效果更好。
  • CAL 使得訓練過程對雜訊資料抵抗能力更強。

研究動機


##目前視覺語言模型依賴圖片模態的對齊,如何做好對齊非常關鍵。目前主流的方法是透過文字自回歸的方式進行隱式對齊,但是每個文字 token 對圖像對齊的貢獻是不一致的,對這些文字 token 進行區分是非常有必要的。
  • CAL 提出,在現有的視覺語言模型(VLM)訓練資料中,文字token 可以被分為三類:
  • 與圖片高度相關的文字
    :如實體(例如人、動物、物件)、數量、顏色、文字等。這些 token 與影像資訊直接對應,對多模態對齊至關重要。
  • 與圖片低相關度的文字
    :如承接詞或可以透過前文推論出的內容。這些 token 其實主要是在訓練 VLM 的純文字能力。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果與圖片內容相悖的文字

:這些 token 與圖像訊息不一致,甚至可能提供誤導訊息,對多模態對齊過程產生負面影響。 #####################
                                圖片中:綠色標記為與圖片高度相關#token,紅色為中性內容相悖,無色為中性為#token,紅色為中性內容相悖,無色為中性
##11

在訓練過程中,後兩類token 整體而言實際上佔據了較大比例,但由於它們並不強依賴於圖片,對圖片的模態對齊作用不大。因此,為了實現更好的對齊,需要加大第一類文字 token,也就是與圖片高度相關部分 token 的權重。如何找出這一部分 token 成為了解決這個問題的關鍵。

方法

#找出與圖片高度相關token這個問題可以透過condition contrastive 的方式來解決。

  •  對於訓練資料中的每個圖文對,在沒有圖片輸入的情況下,每個文字token 上的logit 代表LLM基於上下文情況和已有知識對這種情況出現的估計值。
  • 如果在前面添加圖片輸入,相當於提供額外的上下文信息,這種情況下每個 text token 的 logit 會基於新的情況進行調整。這兩種情況的 logit 變化量代表著圖片這個新的條件對每個文字 token 的影響大小。

具體來說,在訓練過程中,CAL 將圖文序列和單獨的文字序列分別輸入到大語言模型(LLM)中,得到每個文字token 的logit。透過計算這兩種情況下的 logit 差值,可以衡量圖片對每個 token 的影響程度。 logit 差值越大,表示圖片對該 token 的影響越大,因此該 token 與圖像越相關。下圖展示了文字 token 的 logit diff 和 CAL 方法的流程圖。
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                         圖二:左圖為兩個情境中的流程的視覺化,右圖為可視化,右圖為可視化方法為視覺化方法為視覺化方法為視覺化方法為視覺化,為右圖為「可視化方法」的為視覺化,右圖為視覺化方法為視覺化,為視覺化方法為視覺化方法為視覺化,為視覺化方法為視覺化,為右圖為可視覺化方法的為視覺化,為視覺化是視覺化方法為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方式為視覺化方法的右圖為視覺化,為右邊是視覺化方式為

##實驗

#CAL 在LLaVA 和MGM 兩個主流模型上進行了實驗驗證,在不同規模的模型下均實現了性能提升。

包含以下四個部分的驗證:

#(1)使用CAL 的模型在各項基準測試指標上表現更佳。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

#(2) 以比例隨機交換兩個圖文對中的文字來製造一批雜訊資料(圖文錯配),並用於模型訓練,CAL 使得訓練過程具有更強的資料抗噪效能。
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              圖三:在不同強度訓練噪聲情況下,CAL 與基線的性能表現

(3)對QA case 中的答案部分計算其與圖片token 的注意力分數分佈,並將其繪製在原圖上,CAL 訓練的模型擁有更清晰的注意力分佈圖。

#

                             圖四:基線與CAL 的attention map 可視化,每對中的右邊為CAL

(4)將每個圖片token 映射為它最相似LLM 詞表中的文字token,將其繪製到原圖上,CAL 訓練的模型映射內容更接近圖片內容。 字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
                              圖五:將image token 映射為最相似詞表token,並對應到原圖上

團隊介紹:

#位元組跳動豆包大模型團隊成立於2023 年,致力於開發業界最先進的AI 大模型技術,成為世界級的研究團隊,為科技和社會發展做出貢獻。

豆包大模型團隊在AI 領域擁有長期願景與決心,研究方向涵蓋NLP、CV、語音等,在中國、新加坡、美國等地設有實驗室及研究職缺。團隊依托平台充足的數據、運算等資源,在相關領域持續投入,已推出自研通用大模型,提供多模態能力,下游支援豆包、釦子、即夢等50 + 業務,並透過火山引擎開放給企業客戶。目前,豆包 APP 已成為中國市場用戶量最大的 AIGC 應用程式。歡迎加入位元組跳動豆包大模型團隊。

以上是字節豆包、武大提出 CAL:透過視覺相關的 token 增強多模態對齊效果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

See all articles