威大哥大等聯合發文!最新多模態大模型LLaVA問世,水平直逼GPT-4
視覺指令微調火了。
這篇論文名為Visual Instruction Tuning,由威斯康辛大學麥迪遜分校,微軟研究院和哥倫比亞大學共同製作。
作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。
同時,研究人員也在GitHub上開源了他們的程式碼、模型和資料集。論文也發佈在了Arxiv。
講解
那麼LLaVA的功能究竟是什麼呢?如果一頭栽進論文,不熟悉的朋友可能會有些陌生。
我們先看看LLaVA自己怎麼說。
以上回答產生自LLaVA的Chatbot,我輸入的問題是,LLaVA的功能是什麼,使用者該如何利用它?
回答如下:
LLaVA是一個大語言和視覺助手,在UW Madison WAIV實驗室所經歷的訓練。 LLaVA被設計出來的目的,就是幫助使用者處理各類任務,方法則是藉助自然語言理解的能力和視覺內容分析的能力。
LLaVA的主要功能包括:
#· 以文本為基礎的任務:LLaVA可以處理並分析文本,允許使用者問問題,LLaVA可以和使用者交談,或是完成使用者輸入的任務,比如說提煉文件概要,情感分析,實體辨識等等。
· 以影像為基礎的任務:LLaVA可以分析影像,描述影像,進行物件辨識,分析理解場景。
用戶如果想更好地應用LLaVA,可以直接和LLaVA交談,就像和人類之間對話一樣。盡可能多的提供細節,LLaVA就會產生出一個更完善的答案。
同時應該記住,說到底LLaVA是機器學習模型,是AI工具。只要是工具,就有其限制。 LLaVA不一定每次都能完美回答使用者輸入的問題。
當然,LLaVA也不斷在學習和完善,其功能也會越來越強大。
總的來說,從LLaVA的回答可以看出,在Chatbot這方面,和GPT的功能差不了太多。但是LLaVA可以處理一些有關圖像的任務。
表現出彩
研究人員在Arxiv的論文中詳細介紹了LLaVA的技術細節。
要知道使用機器產生的指令跟隨資料對大型語言模型(LLMs)進行指令微調,提高了新任務的零點能力,但這個想法在多模態領域的探索較少。
在論文中,研究人員首次嘗試使用僅有語言的GPT-4來產生多模態語言圖像的指令跟隨資料。
透過對這種產生的資料進行指令調整,研究人員引入了LLaVA:這是一個大型語言和視覺助手,是一個端到端的訓練有素的大型多模態模型,它連接了一個視覺編碼器和LLM,用於通用的視覺和語言理解。
早期實驗表明,LLaVA展示了令人印象深刻的多模態聊天能力,有時在未見過的圖像/指令上都能輸出多模態GPT-4的表現,在合成的多模態指令跟隨資料集上與GPT-4相比,獲得了85.1%的相對分數。
當Science雜誌進行微調時,LLaVA和GPT-4的協同作用達到了92.53%的新的最先進的準確性。
研究人員公開了GPT-4產生的視覺指令調整的資料、模型和程式庫。
多模態模型
首先釐清定義。
大型多模態模型指的是基於機器學習技術的模型,能夠處理和分析多種輸入類型,如文字和圖像。
這些模型設計用於處理更廣泛的任務,並且能夠理解不同形式的資料。透過將文字和圖像作為輸入,這些模型可以提高理解和編解釋的能力,從而產生更準確和相關的答案。
人類透過視覺和語言等多種管道與世界互動,因為每個單獨的管道在代表和傳達某些世界概念方面都有獨特的優勢,從而有利於更好地理解世界。
而人工智慧的核心願望之一是開發一個通用的助手,能夠有效地遵循多模態的視覺和語言指令,與人類的意圖一致,完成各種真實世界的任務。
因此,開發者社群見證了對開發語言增強的基礎視覺模型的新興趣,在開放世界的視覺理解方面具有強大的能力,如分類、檢測、分割、描述,以及視覺生成和編輯。
在這些功能中,每個任務都由單一的大型視覺模型獨立解決,在模型設計中隱含考慮了任務指令。
此外,語言只用來描述圖像內容。雖然這允許語言在將視覺信號映射到語言語義方面發揮重要作用——這是人類交流的常見管道。但這會導致模型通常具有固定的介面,互動性和對使用者指令的適應性有限。
而大型語言模型(LLM)表明,語言可以發揮更廣泛的作用:通用助手的通用介面,各種任務指令可以明確地用語言表示,並引導端到端訓練有素的神經助手切換到感興趣的任務來解決它。
例如,最近ChatGPT和GPT-4的成功,證明了這種LLM在遵循人類指令方面的能力,並激發了人們對開發開源LLM的巨大興趣。
LLaMA就是一個開源的LLM,其效能與GPT-3相當。正在進行的工作利用各種機器生成的高品質指令跟隨樣本來提高LLM的對齊能力,與專有LLM相比,報告了令人印象深刻的性能。重要的是,這一行的工作是純文字的。
在本文中,研究人員提出了視覺指令調整,這是將指令調整擴展到多模態空間的首次嘗試,它為建立一個通用的視覺助手鋪平了道路。具體來說,論文的主要內容包括:
多模態的指令跟隨資料。一個關鍵的挑戰是缺乏視覺語言指令-跟隨資料。我們提出了一個資料改革的觀點和管道,使用ChatGPT/GPT-4將圖像-文字對轉換為適當的指令-跟隨格式。
大型多模態模型。研究人員開發了一個大型多模態模型(LMM),透過連接CLIP的開放集視覺編碼器和語言解碼器LaMA,並在生成的教學視覺——語言資料上對它們進行端到端的微調。實證研究驗證了使用產生的資料進行LMM指令調諧的有效性,並為建立一個通用的指令跟隨的視覺代理提出了實用的建議。透過GPT 4,研究小組在Science QA多模態推理資料集上取得了最先進的性能。
開源。研究小組向公眾發出了以下內容:產生的多模態指令資料、用於資料生成和模型訓練的程式碼庫、模型檢查點,以及一個視覺聊天演示。
成果展示
可以看到,LLaVA能處理各類問題,且產生的回答既全面又富有邏輯。
LLaVA表現出一些接近GPT-4水平的多模態能力,在視覺聊天方面,GPT-4相對評分85%。
而在推理問答方面,LLaVA甚至達到了新SoTA——92.53%,擊敗多模態思維鏈。
以上是威大哥大等聯合發文!最新多模態大模型LLaVA問世,水平直逼GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

本站8月14日訊息,在今天的8月補丁星期二活動日中,微軟發布了適用於Windows11系統的累積更新,包括針對22H2和23H2的KB5041585更新,面向21H2的KB5041592更新。上述設備安裝8月累積更新之後,本站附上版本號變更如下:21H2設備安裝後版本號升至Build22000.314722H2設備安裝後版本號升至Build22621.403723H2設備安裝後版本號升至Build22631.4037面向Windows1121H2的KB5041585更新主要內容如下:改進:提高了

為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類回饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊LLM方面,一種有效的方法是根據人類回饋的強化學習(RLHF)。儘管RLHF方法的結果很出色,但其中涉及了一些優化難題。其中涉及訓練一個獎勵模型,然後優化一個策略模型來最大化該獎勵。近段時間已有一些研究者探索了更簡單的離線演算法,其中之一就是直接偏好優化(DPO)。 DPO是透過參數化RLHF中的獎勵函數來直接根據偏好資料學習策略模型,這樣就無需顯示式的獎勵模型了。此方法簡單穩定

6月3日訊息,微軟正在積極向所有Windows10用戶發送全螢幕通知,鼓勵他們升級到Windows11作業系統。這項舉措涉及了那些硬體配置並不支援新系統的設備。自2015年起,Windows10已經佔了近70%的市場份額,穩坐Windows作業系統的霸主地位。然而,市佔率遠超過82%的市場份額,佔有率遠超過2021年問世的Windows11。儘管Windows11已經推出已近三年,但其市場滲透率仍顯緩慢。微軟已宣布,將於2025年10月14日後終止對Windows10的技術支持,以便更專注於

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令,响应对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数

寫在前面&筆者的個人理解這篇論文致力於解決當前多模態大語言模型(MLLMs)在自動駕駛應用中存在的關鍵挑戰,即將MLLMs從2D理解擴展到3D空間的問題。由於自動駕駛車輛(AVs)需要針對3D環境做出準確的決策,這項擴展顯得格外重要。 3D空間理解對於AV來說至關重要,因為它直接影響車輛做出明智決策、預測未來狀態以及與環境安全互動的能力。目前的多模態大語言模型(如LLaVA-1.5)通常只能處理較低解析度的影像輸入(例如),這是由於視覺編碼器的分辨率限制,LLM序列長度的限制。然而,自動駕駛應用需
