寒武紀1號誕生：謝賽寧Yann LeCun團隊發布最強開源多模態LLM-人工智慧-PHP中文網

就像動物有了眼睛，謝賽寧 Yann LeCun 團隊的 Cambrian-1 能讓 AI 獲得強大的視覺表徵學習能力。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

古往今來，許多哲學家都探究過這個問題：理解語言的意義是否需要以感官為基礎？儘管哲學家們看法不一，但有一點卻不言而喻：堅實有效的感官定基（grounding）至少能帶來好處。

例如科學家普遍相信，寒武紀大爆發期間視覺的出現是早期動物演化的關鍵一步；這不僅能幫助動物更好地尋找食物和躲避捕食者，而且還有助於動物自身的進化。事實上，人類（以及幾乎所有動物）的大多數知識都是透過與物理互動的感官體驗來獲取的，例如視覺、聽覺、觸覺、味覺和嗅覺。這些感官體驗是我們理解周遭世界的基礎，也是幫助我們採取行動和決策的關鍵。

這些思想不僅能用來探究哲學概念，而且也具有實用價值，尤其是近期多模態大型語言模型（MLLM）的發展，更是讓視覺表徵學習與語言理解來到了實踐應用的關注核心。語言模型展現了非常強大的規模擴展行為，而多模態學習領域的近期進展也很大程度上得益於更大更好的 LLM。

另一方面，人們仍舊沒有充分探索視覺組件的設計選擇，並且這方面的探索與視覺表徵學習的研究有所脫節。這主要是因為這方面的研究非常困難：MLLM 涉及複雜的訓練和評估流程，需要考慮的設計選擇非常多。

近日，紐約大學謝賽寧和 Yann LeCun 團隊以視覺為中心對 MLLM 進行了探索，填補了這一空白；他們還基於這些探索成果構建了 Cambrian-1（寒武紀 1 號）系列模型。（本文有三位共同一作：Shengbang Tong（童晟邦）、Ellis Brown 與Penghao Wu.）

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

論文標題：Cambrian-1: A Fully Open Exple-Centric Expleoo
論文地址：https://arxiv.org/pdf/2406.16860
網站：https://cambrian-mllm.github.io
代碼：https://github.com/ cambrian
模型：https://huggingface.co/nyu-visionx/
資料：https://huggingface.co/datasets/nyu-visionx/Cambrian-10M

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM 該團隊表示：「我們這項研究的動機源自於當前多模態學習研究的兩個潛在問題：1）過度且過早地依賴語言，這是一個捷徑，能彌補學習有效視覺表徵的不足之處；2）現有基準可能無法為真實世界場景提供足夠的指導—— 視覺定基對於穩健的多模態理解至關重要。開始注意到：在將MLLM 應用於一些高難度真實世界應用方面，視覺定基正在成為一大瓶頸。

從另一個角度來看，傳統的視覺表徵學習評估協議已經變得飽和，不能反映真實世界分佈中發現的各種感知難題。另一方面，使用視覺問答（VQA）形式的語言卻能提供一種靈活且穩健的評估協議。

謝賽寧和 Yann LeCun 團隊這項研究的目標就是探索這種新的協議設計，並從中獲取新見解以引導未來的視覺表徵發展。此外，為了在這種綜合設定中更好地評估視覺表徵，他們還開發了一個以視覺為中心的 MLLM 基準 CV-Bench，做法是將傳統的視覺基準轉換成 VQA 格式。

Cambrian-1 的建造基於五大關鍵支柱，每個支柱都能為MLLM 的設計提供重要的見解：

視覺表徵：該團隊探索了多種不同的視覺編碼器及其組合；

連接器設計：他們設計了一種動態且可感知空間的新型連接器，可將視覺特徵與LLM 整合到一起，同時還能降低token 的數量。
指令微調數據：他們基於公共資料來源整編了高品質視覺指令微調數據，其中格外強調了分佈平衡的重要性。
指令微調配方：他們討論了指令微調的策略和實踐措施。
基準評測：他們分析了現有的 MLLM 基準，並直觀地將它們分成了 4 組，然後提出了一種新的以視覺為中心的基準 CV-Bench。

基於這些支柱，該團隊構建了 Cambrian-1 系列模型，其在多個基準上都表現領先，並且尤其擅長以視覺為中心的任務。該團隊也發布了這項研究的模型權重、開源程式碼、資料集以及模型訓練和評估的詳細方案。

多模態 LLM 基礎知識

MLLM 研究的關鍵組件包括大型語言模型、視覺編碼器、多模態連接器、資料整編流程、指令微調策略、評估與基準評測。具體說明及相關研究請參閱原論文。

透過 MLLM 評估視覺表徵

目前 MLLM 使用的視覺編碼器主要是 CLIP，因為其已經與語言預對齊了，並且易於適應到 LLM token 空間。但是，強大的語言先驗可能是一把雙面刃：既能彌補學習有效視覺表徵時的不足，也會削減從廣泛的視覺表徵學習研究中獲得的見解。

該團隊系統性地評估了各種視覺編碼器選擇（見圖 2）對 MLLM 的多模態能力的影響。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

他們還主張將MLLM 評估用作一種評估視覺表徵方法的穩健框架，以更忠實地反映真實世界場景中多樣化的感知難題，從而更好地引導人們開發更好的視覺表徵。以下我們將簡要介紹其研究過程和所得發現，更多詳情請參看原論文。

分析基準

基於23 個不同視覺骨幹網絡，該團隊使用一種兩階段指令微調過程訓練了MLLM：首先基於ShareGPT-4V 的1.2M 適應器資料訓練連接器，之後在737K 指令微調資料上同時微調該連接器和LLM。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

透過比較有或無視覺輸入時模型的表現（見圖3），該團隊得到了以下發現：

發現1：大多數基準未能準確地度量以視覺為中心的能力，少數能度量這些能力的基準也只有非常少的樣本。

Cambrian 以視覺為中心的基準（CV-Bench）

為了解決現有以視覺為中心的基準的局限，該團隊提出了 CV-Bench。其中包含 2638 個經過人工檢查的樣本，遠多於它以視覺為中心的 MLLM 基準 —— 比 RealWorldQA 多 3.5 倍，比 MMVP 多 8.8 倍。

如圖 4 和表 1 所示，CV-Bench 能透過空間關係和目標計數來評估 2D 理解能力，能透過深度順序（depth order）和相對距離評估 3D 理解能力。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

發現 2：可以將現有視覺基準有效地調整用於 VQA 任務，實現對以視覺為中心的 MLLM 能力的評估。

指令微調方案

MLLM 始於預訓練 LLM 和視覺骨幹網絡，再透過投射器（MLP）等連接器將這些模組連接起來。團隊透過大量實驗探究了不同的指令微調方案，並得到了以下發現。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

對於選擇單階段訓練或雙階段訓練，團隊發現：

發現 3：雙階段訓練是有益的；使用更多適應器資料能進一步提升結果。

在是否凍結視覺編碼器方面，團隊發現：

發現 4：不凍結視覺編碼器有許多好處。語言監督式模型總是有益的；SSL 模型在以視覺為中心的基準上尤其有益。

將MLLM 用作視覺表徵評估器

該團隊研究了將MLLM 用於評估視覺表徵，結果見圖6，得到的發現如下：

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

發現5：高分辨率編碼器極大提昇在以圖表或視覺為中心的基準上的表現，並且基於卷積網路的架構非常適合此類任務。

他們也研究了基於自監督模型的 MLLM 的持續微調能否達到與語言監督模型相近的性能，結果見圖 7。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

發現 6：語言監督有很強的優勢，但只要有足夠的數據和適當的微調，可透過 SSL 方法縮減效能差距。

組合多個視覺編碼器

該團隊也探索了組合多個視覺編碼器來建立更強大 MLLM 的可能性，結果見表 3。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

發現 7：組合多個視覺編碼器（包括視覺 SSL 模型）可提昇在多種不同基准上的 MLLM 性能，尤其是對於以視覺為中心的任務。

空間視覺聚合器（SVA）：一種連接器新設計

為了有效地聚合多個視覺編碼器的特徵並防止插值引入的信息損失，他們使用了一個可學習的隱含查詢集合，其能透過交叉注意力層與多個視覺特徵互動。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

具體來說，新方法整合了兩種新的以視覺為中心的設計原理：

透過為查詢中的每個token 明確地定義聚合空間，引入了空間歸納偏置。
跨 LLM 層多次聚合視覺特徵，讓模型能夠重複存取並整合必要的視覺資訊。

這種新的構建方法可以靈活地適配特徵分辨率不同的多個視覺編碼器，同時在聚合過程中以及與 LLM 的整合過程中保留視覺數據的空間結構。

使用前一節的最佳視覺模型組合和一個 Vicuna-1.5-7B base LLM，該團隊展現了 SVA 模組的效用。

表 4 顯示：SVA 在所有基準類別上均優於兩種對比技術，其中在 OCR 和表格類別（需要高解析度特徵理解）上有巨大提升。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

更進一步，他們以 OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 組合為基礎進行了消融實驗，結果見表 5。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

發現 8：空間歸納偏置以及 LLM 和視覺特徵之間的深度交互作用有助於更好地聚合和凝練視覺特徵。

用於訓練MLLM 的指令微調資料

資料收集

從已有資料來源收集指令微調資料：

該團隊既使用了涉及視覺交互資料集的多模態基準和資料集（例如視覺問答（VQA）和OCR 資料），也收集了少量高品質的純語言指令遵從資料。他們也將這些數據分成了不同類別：一般對話、OCR、計數、程式碼、數學、科學和純語言數據。圖 9 給出了資料來源。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

針對性的網路資料收集引擎：如圖 9 所示，資料的分佈不平衡。

為了創建大規模、可靠、高品質的基於知識的指令微調數據，該團隊提出了一種數據引擎。該引擎可選取一個目標域和子域（例如物理學），然後使用 GPT-4 這樣的 LLM 來識別主題（例如牛頓定律）。然後，其會針對每個主題搜尋維基百科等可靠資訊來源。團隊發現，從維基百科提取的圖像 - 文字對的品質很高。

之後，該團隊使用一個解析器提取出其中的圖像- 描述元組，然後將描述文本傳遞給一個LLM，比如GPT-3.5，通過精心設計的prompt 讓其生成有關圖像的指令類型的問答對。這些問答對和圖像就構成了他們的 VQA 資料集。

Cambrian-10M：他們建立了一個大型指令微調資料池並將其命名為 Cambrian-10M，其中包含約 9784k 個資料點。圖 9 展示了其組成情況。

資料整編

為了提升資料平衡和調整資料比例（見圖 10 和 11），團隊對 Cambrian-10M 進行了整編。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

最後得到了一個更小但更高品質的資料集 Cambrian-7M。表 6 和 7 說明了對指令資料進行整編所帶來的好處：儘管 Cambrian-7M 中樣本較少，但所帶來的效能卻更好。

透過系統 prompt 緩解「答題機現象」

他們也研究了所謂的答題機現象（Answer Machine Phenomenon）。他們觀察到，一個訓練良好的 MLLM 也許擅長應對 VQA 基準，但缺乏基本的對話能力，預設會輸出簡短生硬的回應。這種情況的原因是基準問題所需的回應通常限於單一選項或字詞，這不同於更一般更現實的用例。其它 LLM 研究也觀察到了類似的現象。

他們猜測，這個問題的原因是指令微調資料包含過多的短響應 VQA 任務，這會導致 LLM 出現災難性遺忘。

為了解決這個問題，團隊在訓練期間整合了額外的系統 prompt。例如對於回應中產生單字或短語的問題，在 prompt 中附加「使用單字或短語來回答本問題」這樣的內容。結果發現，這樣的系統 prompt 可在保證模型基準表現不變的同時大幅提升其對話能力。圖 12 給出了一個範例。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

此外，系統 prompt 還能透過鼓勵模型使用思考鏈來提升推理能力。

當前最佳表現

最後，利用探索研究過程中獲得的見解，該團隊訓練了一個新的 MLLM 模型系列：Cambrian-1。他們使用不同規模大小的 LLM 骨幹網路訓練了模型：LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B。

他們的視覺組件透過空間視覺聚合器（SVA）組合了4 個模型：OpenAI CLIP ViT-L/14@336、SigLIP ViT-SO400M/14@384、OpenCLIP ConvNeXt-XXL@1024、DINOv2 ViT-L /14@518。他們使用 2.5M 適應器資料對連接器進行了預訓練，然後使用 Cambrian-7M 資料混合對其進行了微調。

表 8 和圖 13 給出了模型的評估結果。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

可以看到，Cambrian-1 超過了 LLaVA-NeXT 和 Mini-Gemini 等開源模型。由於採用SVA，Cambrian-1 也能非常好地處理需要高解析度影像處理的任務，即便僅使用576 個影像token 也能做到，大約只有LLaVA-NeXT 和Mini-Gemini 所用token 數的1/ 5。

Cambrian-1 在多個基準上也取得了與 GPT-4V、Gemini-Pro 和 MM-1 等最佳專有模型相當的效能。

圖 14 給出了一些範例，可以看到儘管 Cambrian-1 只使用了 576 個 token，卻能有效關注影像中的細節。

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM