目錄
## 背景
M2KR 資料集
實驗結果與縱向擴展
结论
首頁 科技週邊 人工智慧 劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

Mar 25, 2024 pm 08:50 PM
ai 開源 訓練

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器



  • 論文鏈接:https://arxiv.org/abs/2402.08327
  • DEMO 連結:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443 /
  • 專案首頁連結:https://preflmr.github.io/
  • 論文標題:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers

## 背景

##雖然多模態大模型(如GPT4-Vision、Gemini等)展示了強大的通用圖文理解能力,但在處理需要專業知識的問題時表現不如人意。即使是GPT4-Vision,也無法有效回答知識密集問題(如圖一所示),這給許多企業級應用帶來了挑戰。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

GPT4-Vision 可以透過 PreFLMR 多模態知識擷取器來獲得相關知識,並產生準確的答案。圖中展示了模型的實際輸出結果。

檢索增強生成(RAG,Retrieval-Augmented Generation)為解決這個問題提供了一個簡單有效的方法,讓多模態大模型在某個領域變得像「領域專家」一樣。其運作原理如下:首先,利用輕量級知識檢索器(Knowledge Retriever)從專業資料庫(如Wikipedia或企業知識庫)中檢索相關的專業知識;接著,大型模型將這些知識與問題一起作為輸入,輸出準確的答案。多模態知識擷取器的知識「回想能力」直接影響大型模型在回答推理問題時是否能獲得準確的專業知識。

近期,

劍橋大學資訊工程係人工智慧實驗室完整開源了首個預訓練、通用多模態後期交互知識檢索器PreFLMR (Pre- trained Fine-grained Late-interaction Multi-modal Retriever)。相較於以往常見的模型,PreFLMR 有以下特點:

PreFLMR是一款通用預訓練模型,能有效解決文字檢索、影像檢索和知識檢索等多個子任務。經過百萬級多模態資料的預訓練,該模型在多個下游檢索任務中表現出色。另外,作為一款優秀的基礎模型,PreFLMR 經過針對私有資料的微調後,能夠迅速發展成為優秀的領域專用模型。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖2:PreFLMR 模型同時在多項任務上取得極佳的多模態檢索表現,是一個極強的預訓練基底模型。

2. 傳統的密集文字檢索(Dense Passage Retrieval, DPR)只使用一個向量表徵問詢(Query)或文件(Document)。劍橋團隊在 NeurIPS 2023 發表的 FLMR 模型證明了 DPR 的單向量表徵設計會導致細粒度資訊損失,導致 DPR 在需要精細資訊匹配的檢索任務上表現不佳。尤其是在多模態任務中,使用者的問詢(Query)包含複雜場景訊息,壓縮​​至一維向量極大地抑制了特徵的表達能力。 PreFLMR 繼承並改進了 FLMR 的結構,使其在多模態知識檢索中有得天獨厚的優勢。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖3:PreFLMR 在字元層級(Token level)上編碼問詢(Query,左側1、2 、3)和文件(Document,右側4),相較於將所有資訊壓縮至一維向量的DPR 系統有資訊細粒度上的優勢。

3.PreFLMR 能夠根據使用者輸入的指令(例如「提取能用於回答以下問題的文檔」 或「提取與圖中物品相關的文檔」),從龐大的知識庫中提取相關的文檔,幫助多模態大模型大幅提昇在專業知識問答任務上的表現。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器


#

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖4:PreFLMR 可以同時處理圖片提取文件、根據問題提取文件、根據問題和圖片一起提取文件的多模態問詢任務。

劍橋大學團隊開源了三個不同規模的模型,模型的參數量由小到大分別為:PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M )、PreFLMR_ViT-G (2B),供使用者依實際情況選取。

除了開源模型PreFLMR 本身,該專案還在該研究方向上做出了兩個重要貢獻:

  1. 該項目同時開源了一個訓練和評估通用知識檢索器的大規模資料集,Multi-task Multi-modal Knowledge Retrieval Benchmark (M2KR),包含10 個在學界中被廣泛研究的檢索子任務和總計超過百萬的檢索對。
  2. 在論文中,劍橋大學團隊比較了不同大小、不同表現的影像編碼器和文字編碼器,總結了擴大參數和預訓練多模態後期互動知識檢索系統的最佳實踐,為未來的通用檢索模型提供經驗性的指導。

下文將簡單介紹 M2KR 資料集,PreFLMR 模型和實驗結果分析。

M2KR 資料集

為了大規模預訓練和評估通用多模態檢索模型,作者彙編了十個公開的資料集並將其轉換為統一的問題- 文檔檢索格式。這些資料集的原本任務包括圖像描述(image captioning),多模態對話(multi-modal dialogue)等等。下圖展示了其中五個任務的問題(第一行)和對應文件(第二行)。

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖5:M2KR 資料集中的部分知識擷取任務

PreFLMR 檢索模型

劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器

圖6:PreFLMR 的模型結構。問詢(Query)被編碼為 Token-level 的特徵。 PreFLMR 對問詢矩陣中的每一個向量,找到文檔矩陣中的最近向量併計算點積,然後對這些最大點積求和得到最後的相關度。

PreFLMR 模型基於發表於 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 並進行了模型改進和 M2KR 上的大規模預訓練。相較於 DPR,FLMR 和 PreFLMR 以由所有的 token 向量組成的矩陣對文件和問詢進行表徵。 Tokens 包含文字 tokens 和投射到文字空間中的圖像 tokens。後期交互(late interaction)是一種高效率計算兩個表徵矩陣之間相關性的演算法。具體做法為:對問詢矩陣中的每一個向量,找到文件矩陣中的最近向量並計算點積。然後對這些最大點積求和得到最後的相關度。這樣,每個 token 的表徵都可以明確地影響最終的相關性,以此保留了 token-level 的細粒度(fine-grained)訊息。由於專門的後期互動檢索引擎,PreFLMR 在 40 萬份文件中提取 100 個相關文件僅需 0.2 秒,這極大地提高了 RAG 場景中的可用性。

PreFLMR 的預先訓練包含以下四個階段:

  • 文字編碼器預訓練:首先,在MSMARCO(一個純文字知識檢索資料集)上預先訓練一個後期交互文文檢索模型作為PreFLMR 的文字編碼器。
  • 圖片 - 文字投射層預訓練#:其次,在 M2KR 上訓練圖像 - 文字投射層並凍結其它部分。此階段只使用經過投射的圖像向量進行檢索,旨在防止模型過度依賴文字資訊。
  • 持續預訓練:然後,在E-VQA,M2KR 中的一個高品質知識密集型視覺問答任務上持續訓練文字編碼器和圖像- 文字投射層。此階段旨在提升 PreFLMR 的精細知識檢索能力。
  • 通用檢索訓練:最後,在整個 M2KR 資料集上訓練所有權重,只凍結影像編碼器。同時,將問詢文字編碼器和文件文字編碼器的參數解鎖進行分別訓練。此階段旨在提高 PreFLMR 的通用檢索能力。

同時,作者展示了 PreFLMR 可以在子資料集(如 OK-VQA、Infoseek)上進一步微調以在特定任務上獲得更好的檢索效能。

實驗結果與縱向擴展

最佳檢索結果:表現最好的PreFLMR 模型使用ViT-G 作為影像編碼器和ColBERT -base-v2 作為文字編碼器,總計二十億參數。它在 7 個 M2KR 檢索子任務(WIT,OVEN,Infoseek, E-VQA,OKVQA 等)上取得了超越基線模型的表現。

扩展视觉编码更加有效:作者发现将图像编码器 ViT 从 ViT-B(86M)升级到 ViT-L(307M)带来了显著的效果提升,但是将文本编码器 ColBERT 从 base(110M)扩展到 large(345M)导致表现下降并造成了训练不稳定问题。实验结果表明对于后期交互多模态检索系统,增加视觉编码器的参数带来的回报更大。同时,使用多层 Cross-attention 进行图像 - 文本投射的效果与使用单层相同,因此图像 - 文本投射网络的设计并不需要过于复杂。

PreFLMR 让 RAG 更加有效:在知识密集型视觉问答任务上,使用 PreFLMR 进行检索增强大大提高了最终系统的表现:在 Infoseek 和 EVQA 上分别达到了 94% 和 275% 的效果提升,经过简单的微调,基于 BLIP-2 的模型能够击败千亿参数量的 PALI-X 模型和使用 Google API 进行增强的 PaLM-Bison Lens 系统。

结论

剑桥人工智能实验室提出的 PreFLMR 模型是第一个开源的通用后期交互多模态检索模型。经过在 M2KR 上的百万级数据预训练,PreFLMR 在多项检索子任务中展现出强劲的表现。M2KR 数据集,PreFLMR 模型权重和代码均可以在项目主页 https://preflmr.github.io/ 获取。

拓展资源

  • FLMR paper (NeurIPS 2023): https://proceedings.neurips.cc/paper_files/paper/2023/hash/47393e8594c82ce8fd83adc672cf9872-Abstract-Conference.html 
  • 代码库:https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
  • 英文版博客:https://www.jinghong-chen.net/preflmr-sota-open-sourced-multi/
  • FLMR 简介:https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/

以上是劍橋團隊開源:賦能多模態大模型RAG應用,首個預訓練通用多模態後期互動知識檢索器的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

幣圈行情實時數據免費平台推薦前十名發布 幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

okx在線  okx交易所官網在線 okx在線 okx交易所官網在線 Apr 22, 2025 am 06:45 AM

OKX 交易所的詳細介紹如下:1) 發展歷程:2017 年創辦,2022 年更名為 OKX;2) 總部位於塞舌爾;3) 業務範圍涵蓋多種交易產品,支持 350 多種加密貨幣;4) 用戶遍布 200 餘個國家,千萬級用戶量;5) 採用多重安全措施保障用戶資產;6) 交易費用基於做市商模式,費率隨交易量增加而降低;7) 曾獲多項榮譽,如“年度加密貨幣交易所”等。

各大虛擬貨幣交易平台的特色服務一覽 各大虛擬貨幣交易平台的特色服務一覽 Apr 22, 2025 am 08:09 AM

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase,啟用多重驗證,資產自託管可減少依賴:1. 選擇有監管牌照的交易所;2. 開啟2FA和提幣白名單;3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易app容易上手的推薦top10(025年最新排名) 數字貨幣交易app容易上手的推薦top10(025年最新排名) Apr 22, 2025 am 07:45 AM

gate.io(全球版)核心優勢是界面極簡,支持中文,法幣交易流程直觀;幣安(簡版)核心優勢是全球交易量第一,簡版模式僅保留現貨交易;OKX(香港版)核心優勢是界面簡潔,支持粵語/普通話,衍生品交易門檻低;火幣全球站(香港版)核心優勢是老牌交易所,推出元宇宙交易終端;KuCoin(中文社區版)核心優勢是支持800 幣種,界面採用微信式交互;Kraken(香港版)核心優勢是美國老牌交易所,持有香港SVF牌照,界面簡潔;HashKey Exchange(香港持牌)核心優勢是香港知名持牌交易所,支持法

幣圈十大行情網站的使用技巧與推薦2025 幣圈十大行情網站的使用技巧與推薦2025 Apr 22, 2025 am 08:03 AM

國內用戶適配方案包括合規渠道和本地化工具。 1. 合規渠道:通過OTC平台如Circle Trade進行法幣兌換,境內需通過香港或海外平台。 2. 本地化工具:使用幣圈網獲取中文資訊,火幣全球站提供元宇宙交易終端。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

See all articles