微軟多模態ChatGPT來了? 16億參數搞定看圖答題、智商測驗等任務
在 NLP 領域,大型語言模型(LLM)已經成功地在各種自然語言任務中充當通用介面。只要我們能夠將輸入和輸出轉換為文本,就能使得基於 LLM 的介面適應一個任務。舉例而言,摘要任務輸入文檔,輸出摘要資訊。所以,我們能夠將輸入文件饋入摘要型語言模型,並產生摘要。
儘管 LLM 在 NLP 任務中取得了成功的應用,但研究人員仍努力將其原生地用於圖像和音訊等多模態資料。作為智慧的基本組成部分,多模態感知是實現通用人工智慧的必要條件,無論是對於知識獲取還是與現實世界打交道。更重要的是,解鎖多模態輸入能夠大幅拓展語言模型在更多高價值領域的應用,例如多模態機器人、文件智慧和機器人技術。
因此,微軟團隊在論文《Language Is Not All You Need: Aligning Perception with Language Models》中介紹了一個##多模態大型語言模型(MLLM)-KOSMOS-1,它可以感知一般模態、遵循指令(即零樣本學習)以及在上下文中學習(即少樣本學習)。研究目標是使感知與 LLM 保持一致,如此一來模型能夠看到(see)和說話(talk)。研究者依照 METALM(參見論文《Language models are general-purpose interfaces》 )的方式從頭開始訓練 KOSMOS-1。
- #論文網址:https://arxiv.org/ pdf/2302.14045.pdf
- #專案網址:https://github.com/microsoft/unilm
#如下圖1 所示,研究者將一個基於Transformer 的語言模型作為通用接口,並將其與感知模組對接。他們在網頁規模的多模態語料庫上訓練模型,語料庫包含了文字資料、任意交錯的圖像和文字、以及圖像字幕對。此外,研究者也透過傳輸純語言資料來校準跨模態的指令遵循能力。
最終,KOSMOS-1 模型原生支援零樣本和少樣本學習設定下的語言、知覺語言與視覺任務,如下表 1 所示。
#研究者在下圖 2 和圖 3 中展示了一些生成範例。 除了各種自然語言任務,KOSMOS-1 模型能夠原生處理廣泛的感知密集型任務,如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數學方程式、OCR 和帶有描述的零樣本影像分類。 他們也根據瑞文推理測驗(Raven's Progressive Matrices, RPM)建立了一個 IQ 測驗基準,用來評估 MLLM 的非語言推理能力。
這些範例表明,多模態感知的原生支援為將LLM 應用於新任務提供了新的機遇。此外與 LLM 相比,MLLM 實現了更好的常識推理性能,表明了跨模態遷移有助於知識獲取。
由於 KOSMOS-1 模型的參數量為 16 億,因此有網友表示有望在自己的電腦上運行這個多模態大模型。
KOSMOS-1:一個多模態大型語言模型
如圖1 所示,KOSMOS-1 是一個多模態語言模型,它既可以感知一般的模態、遵循指令、還能在上下文中學習並產生輸出。具體來說,KOSMOS-1 的主幹是一個基於 Transformer 的因果語言模型。除了文字之外,其他模態也能被嵌入並輸入到該模型中,如下圖中,除了語言上還有視覺、語音等的嵌入。 Transformer 解碼器用作多模態輸入的通用介面。一旦模型訓練完成,KOSMOS-1 在零樣本和少樣本設定中也能對語言任務和多模態任務進行評估。
Transformer 解碼器以統一的方式感知模態,輸入訊息會被 flatten 為具有特殊 token 的序列。例如 表示序列開始、 表示序列結束。特殊 token
#嵌入模組將文字token 和其他輸入模態編碼成向量表示,對於輸入token,該研究使用查找表將其映射到嵌入。對於連續訊號模態(例如,影像和音訊),也可以將輸入表示為離散編碼。
之後,得到的輸入序列嵌入會被饋送到基於 Transformer 的解碼器。然後因果模型以一種自回歸的方式處理序列,從而產生下一個 token。總而言之,MLLM 框架可以靈活地處理各種資料類型,只要將輸入表示為向量即可。
模型訓練
首先是訓練資料集。資料集包括文字語料庫、圖像 - 字幕對、圖像和文字交叉資料集。具體而言,文字語料庫包括The Pile 、Common Crawl (CC);圖像- 字幕對包括English LAION-2B、LAION-400M、COYO-700M 以及Conceptual Captions;圖像和文字交叉多模態資料集來自Common Crawl snapshot 。
資料集有了,然後是訓練設定。 MLLM 元件包含 24 層、隱藏維度是 2048、8192 個 FFN 和 32 個注意力頭、參數量為 1.3B。為了使模型更好的收斂,圖像表示是從具有 1024 個特徵維度的預訓練 CLIP ViT-L/14 模型獲得的。影像在訓練過程中被預處理為 224×224 分辨率,此外,訓練期間除了最後一層,所有的 CLIP 模型參數被凍結。 KOSMOS-1 的參數總數約為 1.6B。
實驗結果
該研究進行了一系列豐富的實驗來評估KOSMOS-1 :語言任務(語言理解、語言生成、 OCR-free 文本分類);跨模態遷移(常識推理);非語言推理( IQ 測試);感知- 語言任務(圖像字幕、視覺問答、網頁問答);視覺任務(零樣本影像分類、帶有描述的零樣本影像分類)。
圖片字幕。 下表給出了不同模型在 COCO 和 Flickr30k 上的零樣本表現。相較於其他模型,KOSMOS-1 均取得了顯著效果,甚至在參數量遠小於 Flamingo 的基礎上,效能也不錯。
下表為少樣本效能比較:
視覺問答。 KOSMOS-1 比Flamingo-3B 和Flamingo-9B 模型具有更高的準確率和穩健性:
下表為少樣本效能比較:
IQ 測驗。瑞文推理測驗是評估非語言推理最常見的測驗之一。圖 4 顯示了一個範例。
表 6 顯示了在 IQ 測試資料集上的評估結果。 KOSMOS-1 能夠在非語言環境中感知抽象概念模式,然後在多個選擇中推理出之後的元素。據了解,這是首次有模型可以執行此類零樣本 Raven IQ 測試。
#網頁問答。 網頁問答旨在從網頁中找到問題的答案。它要求模型既能理解文本的語義,又能理解文本的結構。結果如下:
#多模態思維鏈提示。 受思維鏈提示的啟發,本文對這方面進行了實驗。如圖 5 本文將感知語言任務分解為兩個步驟。在第一階段給定影像,使用提示來引導模型產生符合要求的輸出,以產生最終結果。
從表9 可以看出,多模態思考鏈提示的得分為72.9 分,比標準提示高出5.8 分:
#了解更多實驗內容,請參考原文。
以上是微軟多模態ChatGPT來了? 16億參數搞定看圖答題、智商測驗等任務的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi
