目錄
5大類10個任務,都拿捏了
首頁 科技週邊 人工智慧 連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

May 11, 2023 pm 06:58 PM
微軟 模型

大模型的捲,已經不睡覺都趕不上進度了......

這不,微軟亞研院剛發布了一個多模態大型語言模型(MLLM)— KOSMOS-1。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#論文網址:https://arxiv.org/pdf/2302.14045.pdf

論文題目Language Is Not All You Need,還得源自於一句名言。

文中有這麼一句話,「我語言的限制,就是我世界的限制。—奧地利哲學家Ludwig Wittgenstein」

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

那麼問題來了...

##拿著圖問KOSMOS-1「是鴨還是兔子」能搞清楚嗎?這張有100多年歷史的梗圖硬是把GoogleAI整不會了。

#1899年,美國心理學家Joseph Jastrow首次使用《鴨兔圖》來表明感知不僅是人們所看到的,而且是一種心理活動。

現在,KOSMOS-1可將這種知覺和語言模型結合。

-圖中是什麼?

-像鴨子。

-如果不是鴨子,那是什麼?

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

-看起來比較像兔子。

-為什麼?

-它有兔子的耳朵。

這麼一問,KOSMOS-1真有點像微軟版的ChatGPT了。

#不僅如此,Kosmos-1還能理解圖像、文字、帶有文字的圖像、OCR、圖像說明、視覺QA。

連IQ測驗也不在話下。

###「宇宙」無所不能############Kosmos來源希臘一詞cosmos,有「宇宙」之意。 ##################根據論文介紹,最新Kosmos-1模型為多模態大型語言模型。 ##################其主幹是基於Transformer的因果語言模型,除了文字之外,其他模態,如視覺、音訊都可以嵌入模型。 ##################Transformer解碼器用作多模態輸入的通用接口,因此它能感知一般模態,進行上下文學習,並遵循指令。 ##########

Kosmos-1在語言和多模態任務上取得了令人印象深刻的表現,無需進行微調,其中包括帶有文字指示的圖像識別、視覺問答和多模態對話。

如下Kosmos-1產生一些範例式。

圖片解釋、圖片問答、網頁問題回答,簡單數字公式,以及數字辨識。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

那麼,Kosmos-1是在哪些資料集上進行預訓練的呢?

訓練所使用的資料庫,包括文字語料庫、圖像-字幕對、圖像和文字交叉資料集。

文字語料庫取自The Pile和Common Crawl(CC);

圖片-字幕對的來源為English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;

文本交叉資料集的來源是Common Crawl snapshot 。

資料庫有了,接下來就是對模型進行預訓練了。

MLLM元件有24層、2,048個隱藏維度、8,192個FFN和32個注意力頭頭,產生了大約1.3B的參數。

為了確保優化的穩定性,採用Magneto初始化;為了更快地收斂,影像表示是從一個預先訓練好的具有1024個特徵維度的CLIP ViT-L/14模型取得的。在訓練過程中,影像被預處理成224×224分辨率,CLIP模型的參數除了最後一層被凍結。

KOSMOS-1的參數總量約為16億。

為了讓KOSMOS-1更能與指令保持一致,對其進行了只用語言的指令調整[LHV 23, HSLS22],即用指令數據繼續訓練模型,該指令數據是僅有的語言數據,與訓練語料庫混合。

該調優過程是按照語言建模的方式進行的,選取的指令資料集為Unnatural Instructions [HSLS22]和FLANv2 [LHV 23]。

結果顯示,指令跟隨能力的提升可以跨模式轉移。

總之,MLLM可以從跨模態遷移中獲益,將知識從語言遷移到多模態,反之亦然;

5大類10個任務,都拿捏了

一個模型好不好使,拿出來溜溜就知道了。

研究團隊從多角度進行實驗來評估KOSMOS-1的效能,包含5大類十項任務:

1 語言任務(語言理解、語言生成、無OCR的文本分類)

#2 多模態轉移(常識推理)

3 非語言推理(IQ測驗)

##4 感知-語言任務(圖像說明、視覺問答、網頁問答)#

5 視覺任務(零樣本圖像分類、帶有描述的零樣本圖像分類)

#無OCR的文字分類

這是一種不依賴光學字元辨識(OCR)的專注於文字和影像的理解任務。

KOSMOS-1對HatefulMemes和對Rendered SST-2測試集的準確率都高於優於其他模型。

且Flamingo明確提供OCR文字到提示中,KOSMOS-1並沒有存取任何外部工具或資源,這展示了KOSMOS-1閱讀和理解渲染的圖像中的文字的內在能力。

IQ測驗

#瑞文智力測驗是評估非語言的最常用測試之一。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#KOSMOS-1在沒有微調時準確率比隨機選擇提高了5.3% ,經過微調後則提高了9.3%,顯示其具有感知非語言環境中的抽象概念模式的能力。

這是首次有模型能夠完成零樣本Raven測試,證明了MLLMs透過將感知與語言模型結合起來進行零樣本非言語推理的潛力。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#圖片說明

KOSMOS-1在COCO和Flickr30k測試中的零樣本性能均表現優秀,相比其他模型,其得分更高,但採用的參數量更小。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#在少樣本表現測試中,分數隨著k值增加。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#零樣本影像分類

給定一個輸入影像,並將該影像與提示「The photo of the」連接起來。然後,輸入模型以獲得圖像的類別名稱。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#透過在ImageNet[DDS 09]上評估模型,在有約束和無在約束的條件下,KOSMOS-1的影像歸類效果都明顯優於GIT[WYH 22],展現了完成視覺任務的強大能力。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#常識推理

視覺常識推理任務要求模型理解現實世界中日常物體的屬性,如顏色、大小和形狀,這些任務是具有挑戰性的,因為它們可能需要比文本中更多的關於物體屬性的資訊。

結果顯示,KOSMOS-1在尺寸和色彩上的推理能力都明顯優於LLM模型。這主要是因為KOSMOS-1具備多模態遷移能力,從而能夠將視覺知識運用到語言任務中,而不必像LLM那樣必須依靠文本知識和線索來推理。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數


#對微軟Kosmos-1,網友稱讚道,未來5年,我可以看到一個高級機器人瀏覽網絡,並僅通過視覺方式基於人類的文本輸入來工作。真是有趣的時代。

連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數

#

以上是連百年梗圖都整明白了!微軟多模態「宇宙」搞定IQ測試,僅16億參數的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

微軟發布 Win11 八月累積更新:提高安全性、優化鎖定螢幕等 微軟發布 Win11 八月累積更新:提高安全性、優化鎖定螢幕等 Aug 14, 2024 am 10:39 AM

本站8月14日訊息,在今天的8月補丁星期二活動日中,微軟發布了適用於Windows11系統的累積更新,包括針對22H2和23H2的KB5041585更新,面向21H2的KB5041592更新。上述設備安裝8月累積更新之後,本站附上版本號變更如下:21H2設備安裝後版本號升至Build22000.314722H2設備安裝後版本號升至Build22621.403723H2設備安裝後版本號升至Build22631.4037面向Windows1121H2的KB5041585更新主要內容如下:改進:提高了

全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,也煉出最強8B開源模型 全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,也煉出最強8B開源模型 Jun 01, 2024 pm 04:41 PM

為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類回饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊LLM方面,一種有效的方法是根據人類回饋的強化學習(RLHF)。儘管RLHF方法的結果很出色,但其中涉及了一些優化難題。其中涉及訓練一個獎勵模型,然後優化一個策略模型來最大化該獎勵。近段時間已有一些研究者探索了更簡單的離線演算法,其中之一就是直接偏好優化(DPO)。 DPO是透過參數化RLHF中的獎勵函數來直接根據偏好資料學習策略模型,這樣就無需顯示式的獎勵模型了。此方法簡單穩定

微軟全螢幕彈窗催促:Windows 10用戶抓緊時間升級到Windows 11 微軟全螢幕彈窗催促:Windows 10用戶抓緊時間升級到Windows 11 Jun 06, 2024 am 11:35 AM

6月3日訊息,微軟正在積極向所有Windows10用戶發送全螢幕通知,鼓勵他們升級到Windows11作業系統。這項舉措涉及了那些硬體配置並不支援新系統的設備。自2015年起,Windows10已經佔了近70%的市場份額,穩坐Windows作業系統的霸主地位。然而,市佔率遠超過82%的市場份額,佔有率遠超過2021年問世的Windows11。儘管Windows11已經推出已近三年,但其市場滲透率仍顯緩慢。微軟已宣布,將於2025年10月14日後終止對Windows10的技術支持,以便更專注於

無需OpenAI數據,躋身程式碼大模型榜單! UIUC發表StarCoder-15B-Instruct 無需OpenAI數據,躋身程式碼大模型榜單! UIUC發表StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令,响应对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数

LLM全搞定! OmniDrive:集3D感知、推理規劃於一體(英偉達最新) LLM全搞定! OmniDrive:集3D感知、推理規劃於一體(英偉達最新) May 09, 2024 pm 04:55 PM

寫在前面&筆者的個人理解這篇論文致力於解決當前多模態大語言模型(MLLMs)在自動駕駛應用中存在的關鍵挑戰,即將MLLMs從2D理解擴展到3D空間的問題。由於自動駕駛車輛(AVs)需要針對3D環境做出準確的決策,這項擴展顯得格外重要。 3D空間理解對於AV來說至關重要,因為它直接影響車輛做出明智決策、預測未來狀態以及與環境安全互動的能力。目前的多模態大語言模型(如LLaVA-1.5)通常只能處理較低解析度的影像輸入(例如),這是由於視覺編碼器的分辨率限制,LLM序列長度的限制。然而,自動駕駛應用需

See all articles