首頁 科技週邊 人工智慧 ECCV 2024|是真看到了,還是以為自己看到了?多模態大模型對文本預訓練知識的過度依賴該解決了

ECCV 2024|是真看到了,還是以為自己看到了?多模態大模型對文本預訓練知識的過度依賴該解決了

Jul 28, 2024 am 07:49 AM
工程 偏好對齊

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者皮仁傑是香港科技大學三年級博士生,師從四年級博士生,師從週潼方教授。此前獲得香港大學計算機工程學士學位。研究興趣為多模態大語言模型,以資料為中心的人工智慧,以及自動化機器學習。

隨著大型語言模型(LLMs)的進步,多模態大型語言模型(MLLMs)迅速發展。它們使用預先訓練的視覺編碼器處理圖像,並將圖像與文字訊息一起作為 Token 嵌入輸入至 LLMs,從而擴展了模型處理圖像輸入的對話能力。這種能力的提升為自動駕駛和醫療助理等多種潛在應用領域帶來了可能性。

儘管 MLLMs 具有出色的圖文理解能力,但它們仍然會出現錯誤或幻覺,產生與輸入圖像不符的相應,例如回答不存在的對像或錯誤識別屬性等。我們認為多模態大模型在不同訓練階段的資料量和訓練時間的不平衡是產生這類偏誤的主要原因之一。多模態大模型的語言模組往往使用了海量的文字資料進行預訓練,而模態對齊階段則使用較小的資料規模和更短的訓練時間。

為了解決上述問題,我們提出了一種偏好對齊方法 --Bootstrapped Preference Optimization(BPO),能在緩解多模態大模型的幻覺現象的同時提升模型的視覺理解能力。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

  • 論文標題:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
  • 論文連結:https://arxiv.org/pdf/2403.08873035/pdf com/pipilurj/bootstrapped-preference-optimization-BPO-
  • Plus précisément, nous avons conçu deux méthodes pour construire automatiquement des échantillons négatifs pour l'apprentissage des préférences, révélant ainsi la dépendance excessive des modèles multimodaux à l'égard de la formation. Ensuite, nous utilisons les annotations des données originales comme échantillons positifs pour affiner les préférences du modèle multimodal. Dans l'ensemble, nos principales contributions sont :
    1. Nous proposons une nouvelle perspective qui transforme le problème d'alignement multimodal en une tâche d'apprentissage des préférences, où les biais pré-entraînement et la capacité de compréhension visuelle sont traités comme des préférences anciennes et nouvelles
     ;

    2. Nous introduisons une méthode pour automatiser la construction d'ensembles de données de préférences à grande échelle. Grâce à cette méthode, un grand nombre d'échantillons négatifs contenant des informations sur les biais pré-entraînement peuvent être construits

    3. Un grand nombre d'expériences ont prouvé que notre méthode peut améliorer efficacement la capacité cognitive des grands modèles multimodaux ; images, formation Ce dernier modèle a amélioré les performances dans plusieurs benchmarks.
    Construction d'ensembles de données de préférences évolutives

    Pour des exemples positifs d'ensembles de données de préférences, il existe déjà de nombreux ensembles de données prêts à l'emploi conçus pour un réglage fin supervisé, tels que les réponses aux questions annotées de haute qualité générées par LlaVA et MiniGPT4. Data, ShareGPTV exploite le puissant GPT4-V comme outil pour générer des légendes de haute qualité pour les images. Nous utilisons ces ensembles de données publiques annotées comme réponses positives dans l'ensemble de données de préférence afin d'éviter des annotations manuelles coûteuses tout en garantissant des paires de données de haute qualité.

    Afin de collecter des données de réponses négatives qui reflètent des biais pré-formation, nous proposons deux méthodes.

    a. Affaiblir les invites d'image : nous ajoutons du bruit aux données d'image dans l'ensemble de données de préférences pour détruire les caractéristiques de l'image et rendre le grand modèle multimodal plus incliné vers la distribution pré-entraînée d'origine lors de la réponse. Les réponses d'erreur contiendront le biais inhérent au module LLM. Comme le montre la figure, en ajoutant différents niveaux de bruit à l'image, la probabilité que la réponse correcte apparaisse est plus petite et la probabilité que la réponse avec un biais de pré-entraînement apparaisse est plus grande.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    b. Injection d'erreur : nous exigeons que le grand modèle de langage correspondant au grand modèle multimodal réécrive directement la réponse, et exigeons que le modèle génère une réponse incorrecte qui est similaire mais pas exactement la même que la réponse. .
    Ensuite, nous utilisons l'optimisation des préférences directes (DPO) pour optimiser le modèle multimodal :

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    Évaluation expérimentale

    Nous utilisons le modèle LLaVA (LLaVA-7B) affiné par BPO-BPO et LLaVA-13B-BPO) testés sur MM-Vet, LLaVA-Wild et Object HalBench. MM-Vet et LlaVA-Bench sont des listes spécifiquement utilisées pour mesurer les capacités globales des modèles, tandis qu'Object HalBench est utilisé pour évaluer la crédibilité visuelle des grands modèles multimodaux.

    Les résultats expérimentaux montrent que le modèle affiné par BPO prend la tête dans toutes les tâches sur les trois listes de référence. Dans la plupart des tâches, le LLaVA-7B-BPO surpasse même le modèle LLaVa1.5-13B non réglé.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    Nous comparons également le BPO avec la formation de mise au point supervisée (SFT). Nous affinons le modèle en utilisant directement des échantillons positifs de l'ensemble de données comme données supervisées. Les expériences montrent que les grands modèles multimodaux affinés par BPO fonctionnent mieux que le réglage fin SFT sur différentes catégories de sous-tâches.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    En termes de résultats qualitatifs, nous avons comparé les performances de grands modèles multimodaux avant et après réglage fin du BPO. Nous avons constaté que le modèle affiné par BPO produisait des réponses plus fidèles à l'image saisie et contenait moins d'informations erronées.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

以上是ECCV 2024|是真看到了,還是以為自己看到了?多模態大模型對文本預訓練知識的過度依賴該解決了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1430
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles