連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數
大模型的捲,已經不睡覺都趕不上進度了......
這不,微軟亞研院剛發布了一個多模態大型語言模型(MLLM)— KOSMOS-1。
#論文網址:https://arxiv.org/pdf/2302.14045.pdf
論文題目Language Is Not All You Need,還得源自於一句名言。
文中有這麼一句話,「我語言的限制,就是我世界的限制。—奧地利哲學家Ludwig Wittgenstein」
那麼問題來了...
##拿著圖問KOSMOS-1「是鴨還是兔子」能搞清楚嗎?這張有100多年歷史的梗圖硬是把GoogleAI整不會了。
#1899年,美國心理學家Joseph Jastrow首次使用《鴨兔圖》來表明感知不僅是人們所看到的,而且是一種心理活動。
現在,KOSMOS-1可將這種知覺和語言模型結合。
-圖中是什麼?
-像鴨子。
-如果不是鴨子,那是什麼?
-為什麼?
-它有兔子的耳朵。
這麼一問,KOSMOS-1真有點像微軟版的ChatGPT了。
#不僅如此,Kosmos-1還能理解圖像、文字、帶有文字的圖像、OCR、圖像說明、視覺QA。
連IQ測驗也不在話下。
###「宇宙」無所不能############Kosmos來源希臘一詞cosmos,有「宇宙」之意。 ##################根據論文介紹,最新Kosmos-1模型為多模態大型語言模型。 ##################其主幹是基於Transformer的因果語言模型,除了文字之外,其他模態,如視覺、音訊都可以嵌入模型。 ##################Transformer解碼器用作多模態輸入的通用接口,因此它能感知一般模態,進行上下文學習,並遵循指令。 ##########Kosmos-1在語言和多模態任務上取得了令人印象深刻的表現,無需進行微調,其中包括帶有文字指示的圖像識別、視覺問答和多模態對話。
如下Kosmos-1產生一些範例式。
圖片解釋、圖片問答、網頁問題回答,簡單數字公式,以及數字辨識。
那麼,Kosmos-1是在哪些資料集上進行預訓練的呢?
訓練所使用的資料庫,包括文字語料庫、圖像-字幕對、圖像和文字交叉資料集。
文字語料庫取自The Pile和Common Crawl(CC);
圖片-字幕對的來源為English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;
文本交叉資料集的來源是Common Crawl snapshot 。
資料庫有了,接下來就是對模型進行預訓練了。
MLLM元件有24層、2,048個隱藏維度、8,192個FFN和32個注意力頭頭,產生了大約1.3B的參數。
為了確保優化的穩定性,採用Magneto初始化;為了更快地收斂,影像表示是從一個預先訓練好的具有1024個特徵維度的CLIP ViT-L/14模型取得的。在訓練過程中,影像被預處理成224×224分辨率,CLIP模型的參數除了最後一層被凍結。
KOSMOS-1的參數總量約為16億。
為了讓KOSMOS-1更能與指令保持一致,對其進行了只用語言的指令調整[LHV 23, HSLS22],即用指令數據繼續訓練模型,該指令數據是僅有的語言數據,與訓練語料庫混合。
該調優過程是按照語言建模的方式進行的,選取的指令資料集為Unnatural Instructions [HSLS22]和FLANv2 [LHV 23]。
結果顯示,指令跟隨能力的提升可以跨模式轉移。
總之,MLLM可以從跨模態遷移中獲益,將知識從語言遷移到多模態,反之亦然;
5大類10個任務,都拿捏了
一個模型好不好使,拿出來溜溜就知道了。
研究團隊從多角度進行實驗來評估KOSMOS-1的效能,包含5大類十項任務:
1 語言任務(語言理解、語言生成、無OCR的文本分類)
#2 多模態轉移(常識推理)
3 非語言推理(IQ測驗)
##4 感知-語言任務(圖像說明、視覺問答、網頁問答)#
5 視覺任務(零樣本圖像分類、帶有描述的零樣本圖像分類)
#無OCR的文字分類
這是一種不依賴光學字元辨識(OCR)的專注於文字和影像的理解任務。
KOSMOS-1對HatefulMemes和對Rendered SST-2測試集的準確率都高於優於其他模型。
且Flamingo明確提供OCR文字到提示中,KOSMOS-1並沒有存取任何外部工具或資源,這展示了KOSMOS-1閱讀和理解渲染的圖像中的文字的內在能力。
IQ測驗
#瑞文智力測驗是評估非語言的最常用測試之一。
#KOSMOS-1在沒有微調時準確率比隨機選擇提高了5.3% ,經過微調後則提高了9.3%,顯示其具有感知非語言環境中的抽象概念模式的能力。
這是首次有模型能夠完成零樣本Raven測試,證明了MLLMs透過將感知與語言模型結合起來進行零樣本非言語推理的潛力。
#圖片說明
KOSMOS-1在COCO和Flickr30k測試中的零樣本性能均表現優秀,相比其他模型,其得分更高,但採用的參數量更小。
#在少樣本表現測試中,分數隨著k值增加。
#零樣本影像分類
給定一個輸入影像,並將該影像與提示「The photo of the」連接起來。然後,輸入模型以獲得圖像的類別名稱。
#透過在ImageNet[DDS 09]上評估模型,在有約束和無在約束的條件下,KOSMOS-1的影像歸類效果都明顯優於GIT[WYH 22],展現了完成視覺任務的強大能力。
#常識推理
視覺常識推理任務要求模型理解現實世界中日常物體的屬性,如顏色、大小和形狀,這些任務是具有挑戰性的,因為它們可能需要比文本中更多的關於物體屬性的資訊。
結果顯示,KOSMOS-1在尺寸和色彩上的推理能力都明顯優於LLM模型。這主要是因為KOSMOS-1具備多模態遷移能力,從而能夠將視覺知識運用到語言任務中,而不必像LLM那樣必須依靠文本知識和線索來推理。
#對微軟Kosmos-1,網友稱讚道,未來5年,我可以看到一個高級機器人瀏覽網絡,並僅通過視覺方式基於人類的文本輸入來工作。真是有趣的時代。
以上是連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

本站8月14日訊息,在今天的8月補丁星期二活動日中,微軟發布了適用於Windows11系統的累積更新,包括針對22H2和23H2的KB5041585更新,面向21H2的KB5041592更新。上述設備安裝8月累積更新之後,本站附上版本號變更如下:21H2設備安裝後版本號升至Build22000.314722H2設備安裝後版本號升至Build22621.403723H2設備安裝後版本號升至Build22631.4037面向Windows1121H2的KB5041585更新主要內容如下:改進:提高了

為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類回饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊LLM方面,一種有效的方法是根據人類回饋的強化學習(RLHF)。儘管RLHF方法的結果很出色,但其中涉及了一些優化難題。其中涉及訓練一個獎勵模型,然後優化一個策略模型來最大化該獎勵。近段時間已有一些研究者探索了更簡單的離線演算法,其中之一就是直接偏好優化(DPO)。 DPO是透過參數化RLHF中的獎勵函數來直接根據偏好資料學習策略模型,這樣就無需顯示式的獎勵模型了。此方法簡單穩定

6月3日訊息,微軟正在積極向所有Windows10用戶發送全螢幕通知,鼓勵他們升級到Windows11作業系統。這項舉措涉及了那些硬體配置並不支援新系統的設備。自2015年起,Windows10已經佔了近70%的市場份額,穩坐Windows作業系統的霸主地位。然而,市佔率遠超過82%的市場份額,佔有率遠超過2021年問世的Windows11。儘管Windows11已經推出已近三年,但其市場滲透率仍顯緩慢。微軟已宣布,將於2025年10月14日後終止對Windows10的技術支持,以便更專注於

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令,响应对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数

寫在前面&筆者的個人理解這篇論文致力於解決當前多模態大語言模型(MLLMs)在自動駕駛應用中存在的關鍵挑戰,即將MLLMs從2D理解擴展到3D空間的問題。由於自動駕駛車輛(AVs)需要針對3D環境做出準確的決策,這項擴展顯得格外重要。 3D空間理解對於AV來說至關重要,因為它直接影響車輛做出明智決策、預測未來狀態以及與環境安全互動的能力。目前的多模態大語言模型(如LLaVA-1.5)通常只能處理較低解析度的影像輸入(例如),這是由於視覺編碼器的分辨率限制,LLM序列長度的限制。然而,自動駕駛應用需
