介紹NVLM 1.0:NVIDIA的多模式LLM的方法
NVIDIA的開創性NVLM 1.0:開源多模式LLM
本文深入研究了NVIDIA最近揭幕的NVLM 1.0,這是一個由開源,多模式大型語言模型(LLMS)組成的家族。這些模型在視覺任務上實現了最先進的性能,與Llama 3-V 405B和InternVL 2(例如Llama 3-V 405B和InternVL 2)競爭。一個值得注意的功能是NVLM 1.0改進的多型訓練後的文本術性能,這是LLM Backbone的重大進步。模型權重和代碼公開可用,從而促進了社區的貢獻。
NVIDIA經過精心比較了基於跨注意的模型(例如Flamingo)和僅解碼器的多模式LLM(例如LLAVA)。利用每個人的優點和劣勢,他們開發了一種獨特的體系結構,可提高訓練效率和多模式推理能力。
NVLM 1.0的主要功能:
- 開源多模式LLM家庭在視力語言和僅文本任務方面出色。
- 三種架構變化:僅解碼器(NVLM-D),跨注意(NVLM-X)和混合動力(NVLM-H)。
- OCR,多模式推理和高分辨率圖像處理中的出色性能。
- 保持純文本性能,解決多模型模型中的共同弱點。
- 強調預處理和監督微調的高質量和多樣化數據。
- 模型權重和代碼的開源可用性。
建築創新和培訓方法:
為了克服現有的多模式LLM(不一致的體系結構比較,高分辨率圖像處理和僅文本性能降級)的限制,NVLM 1.0引入了三個架構:NVLM-D(單獨解碼器),NVLM-X(交叉注意)和NVLM-H(NVLM-H(hybrid))。所有這些都在同一精選的數據集上進行了培訓,提供了靈活性和性能。一種新穎的瓷磚設計改善了高分辨率圖像處理。訓練過程涉及預處理(凍結視覺編碼器和LLM),然後對LLM和模態對準模塊進行監督的微調(SFT)。這種方法加上對數據質量而不是純粹的數量的關注,從而在各種任務中都能表現出良好的性能。
性能和基準:
與多個基准上的領先模型相比,NVLM 1.0表現出競爭性或卓越的性能。 NVLM-D在OCR任務中表現出色,NVLM-H在多模式推理中閃耀,而NVLM-X具有具有高分辨率圖像的速度優勢。至關重要的是,所有模型在多模式訓練後保持或改善僅文本性能。
訪問和利用NVLM-D 72B:
提供的代碼片段演示瞭如何使用擁抱面和變形金剛庫訪問和利用NVLM-D 72B模型,包括用於高效多GPU使用,圖像預處理,動態圖像瓷磚以及用於文本和基於圖像的對話的示例代碼的模型sharding。請注意,這是一個大型模型(150 GB)。
結論:
NVLM 1.0代表開源多模式LLM中的顯著飛躍。它的出色表現,建築創新和對開源可訪問性的承諾使其成為研究人員和開發人員的寶貴資源。強調數據質量和僅文本功能的保留,請解決以前多模型模型的關鍵局限性。詳細的文檔和隨時可用的代碼促進了社區內部的進一步研究和發展。
以上是介紹NVLM 1.0:NVIDIA的多模式LLM的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題
