位元組團隊提出猞猁Lynx模型:多模態LLMs理解認知生成類別榜單SoTA
當前大語言模型 (Large Language Models, LLMs) 如 GPT4 在遵循給定圖像的開放式指令方面表現出了出色的多模態能力。然而,這些模型的性能嚴重依賴於對網路結構、訓練資料和訓練策略等方案的選擇,但這些選擇並沒有在先前的文獻中被廣泛討論。此外,目前也缺乏合適的基準 (benchmarks) 來評估和比較這些模型,限制了多模態 LLMs 的 發展。
圖片
- #論文:https://arxiv.org/abs/2307.02469
- #網址:https://lynx-llm.github.io/
- #程式碼:https://github.com/bytedance/lynx-llm
#在這篇文章中,作者從定量和定性兩個方面對此類模型的訓練進行了系統和全面的研究。設定了20 多種變體,對於網路結構,比較了不同的LLMs 主幹和模型設計;對於訓練數據,研究了數據和採樣策略的影響;在指令方面,探討了多樣化提示對模型指令跟隨能力的影響。對於 benchmarks ,文章首次提出包括影像和視訊任務的開放式視覺問答評估集 Open-VQA。
基於實驗結論,作者提出了 Lynx,與現有的開源GPT4-style 模型相比,它在表現出最準確的多模態理解能力的同時,也保持了最佳的多模態生成能力。
評估方案
不同於典型的視覺語言任務,評估GPT4-style 模型的主要挑戰在於平衡文本生成能力和多模態理解準確度兩個面向的表現。為了解決這個問題,作者提出了一個包含視訊和圖像資料的新 benchmark Open-VQA,並對目前的開源模型進行了全面的評估。
具體來說,採用了兩種量化評估方案:
- #收集開放式視覺問答(Open-VQA) 測試集,其包含關於物件、OCR、計數、推理、動作辨識、時間順序等不同類別的問題。有別於有標準答案的 VQA 資料集,Open-VQA 的答案是開放式的。為了評估 Open-VQA 上的效能,使用 GPT4 作為判別器,其結果與人類評估有 95% 的一致性。
- 此外,作者採用了由mPLUG-owl [1] 提供的OwlEval 資料集來評估模型的文本生成能力,雖然只包含50 張圖片82 個問題,但涵蓋故事生成、廣告生成、程式碼產生等多元問題,並招募人工標註員對不同模型的表現進行評分。
結論
為了深入研究多模態LLMs 的訓練策略,作者主要從網路結構(前綴微調/ 交叉注意力)、訓練資料(資料選擇及組合比例)、指示(單一指示/ 多樣化指示)、LLMs 模型(LLaMA [5]/Vicuna [6])、影像像素(420/224)等多個面向設定了二十多種變體,透過實驗得出了以下主要結論:
- 多模態 LLMs 的指示遵循能力不如 LLMs。 例如,InstructBLIP [2] 傾向於不管輸入指令如何都產生簡短的回复,而其他模型傾向於產生長句子而不考慮指令,作者認為這是由於缺乏高質量和多樣化的多模態指令資料所導致的。
- 訓練資料的品質對模型的效能至關重要。 基於在不同的數據上進行實驗的結果,發現使用少量的高品質數據比使用大規模的噪音數據表現得更好。作者認為這是生成式訓練和對比式訓練的區別,因為生成式訓練是直接學習字的條件分佈而不是文字和圖像的相似度。因此,為了更好的模型性能,在數據方面需要滿足兩點:1)包含高品質的流暢文字;2)文字和圖像內容對齊得較好。
- 任務和提示對零樣本 (zero-shot) 能力至關重要。 使用多樣化任務和指令可以提升模型在未知任務上的零樣本產生能力,這與純文字模型中的觀察結果一致。
- 平衡正確性和語言生成能力是很重要的。 如果模型在下游任務(如VQA) 上訓練不足,更可能產生與視覺輸入不符的編造的內容;而如果模型在下游任務中訓練過多,它則傾向於生成短答案,將無法按照使用者的指示產生較長的答案。
- 前綴微調 (prefix-finetuning, PT) 是目前對 LLMs 進行多模態適配的最佳方案。 在實驗中,prefix-finetuning 結構的模型能更快地提升對多樣化指示的遵循能力,比交叉注意力 (cross-attention, CA) 的模型結構更容易訓練。 (prefix-tuning 和cross-attention 為兩種模型結構,具體見Lynx 模型介紹部分)
##Lynx 模型
作者提出了 Lynx(猞猁)—— 進行了兩階段訓練的prefix-finetuning 的GPT4-style 模型。在第一階段,使用大約 120M 圖像- 文字對來對齊視覺和語言嵌入(embeddings) ;在第二階段,使用20 個圖像或視頻的多模態任務以及自然語言處理(NLP ) 資料來調整模型的指令遵循能力。
圖片
Lynx 模型的整體結構如上圖 Figure 1 所示。
視覺輸入經過視覺編碼器處理後得到視覺令牌(tokens) $$W_v$$,經過映射後與指令tokens $$W_l$$ 拼接作為LLMs 的輸入,在本文中將此結構稱為「prefix-finetuning」以區別於如Flamingo [3] 所使用的 cross-attention 結構。
此外,作者發現,透過在凍結 (frozen) 的 LLMs 某些層後添加適配器 (Adapter) 可以進一步降低訓練成本。
模型效果
作者評估了現有的開源多模態LLMs 模型在 Open-VQA、Mme [4]及OwlEval 人工測評上的表現(結果見後文圖表,評估細節見論文)。可以看到 Lynx 模型在 Open-VQA 影像和視訊理解任務、OwlEval 人工測評及 Mme Perception 類別任務中都取得了最好的表現。 其中,InstructBLIP 在多數任務中也實現了高效能,但其回應過於簡短,相較而言,在大多數情況下Lynx 模型在給出正確的答案的基礎上提供了簡明的理由來支撐回复,這使得它對用戶更友好(部分cases 見後文Cases 展示部分)。
1. 在Open-VQA 影像測試集上的指標結果如下圖Table 1 所示:
圖片
2. 在Open-VQA 影片測試集上的指標結果如下圖Table 2 所示。
圖片
3. 選取 Open-VQA 中得分排名靠前的模型進行 OwlEval 評估集上的人工效果評估,其結果如上圖 Figure 4 所示。從人工評估結果可以看出 Lynx 模型具有最佳的語言生成效能。
圖片
#4. 在Mme benchmark 測試中,Perception 類別任務獲得最好的表現,其中 14 類別子任務中有7 個表現最優。 (詳細結果請見論文附錄)
Cases 展示
#Open-VQA 圖片cases
OwlEval cases
Open-VQA 影片case
#總結
在本文中,作者透過二十多種多模態LLMs 變種的實驗,確定了以prefix-finetuning 為主要結構的Lynx 模型並給出開放式答案的Open-VQA 評估方案。實驗結果顯示 Lynx 模型表現最準確的多模態理解準確度的同時,維持了最佳的多模態生成能力。
以上是位元組團隊提出猞猁Lynx模型:多模態LLMs理解認知生成類別榜單SoTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

人臉偵測辨識技術已經是一個比較成熟且應用廣泛的技術。而目前最廣泛的網路應用語言非JS莫屬,在Web前端實現人臉偵測辨識相比後端的人臉辨識有優勢也有弱勢。優點包括減少網路互動、即時識別,大大縮短了使用者等待時間,提高了使用者體驗;弱勢是:受到模型大小限制,其中準確率也有限。如何在web端使用js實現人臉偵測呢?為了實現Web端人臉識別,需要熟悉相關的程式語言和技術,如JavaScript、HTML、CSS、WebRTC等。同時也需要掌握相關的電腦視覺和人工智慧技術。值得注意的是,由於Web端的計

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
