微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務-人工智慧-PHP中文網

KOSMOS-1：一個多模態大型語言模型

模型訓練

實驗結果

首頁

科技週邊

人工智慧

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

PHPz

Apr 14, 2023 pm 06:28 PM

ai 模型

在 NLP 領域，大型語言模型（LLM）已經成功地在各種自然語言任務中充當通用介面。只要我們能夠將輸入和輸出轉換為文本，就能使得基於 LLM 的介面適應一個任務。舉例而言，摘要任務輸入文檔，輸出摘要資訊。所以，我們能夠將輸入文件饋入摘要型語言模型，並產生摘要。

儘管 LLM 在 NLP 任務中取得了成功的應用，但研究人員仍努力將其原生地用於圖像和音訊等多模態資料。作為智慧的基本組成部分，多模態感知是實現通用人工智慧的必要條件，無論是對於知識獲取還是與現實世界打交道。更重要的是，解鎖多模態輸入能夠大幅拓展語言模型在更多高價值領域的應用，例如多模態機器人、文件智慧和機器人技術。

因此，微軟團隊在論文《Language Is Not All You Need: Aligning Perception with Language Models》中介紹了一個##多模態大型語言模型（MLLM）－KOSMOS-1，它可以感知一般模態、遵循指令（即零樣本學習）以及在上下文中學習（即少樣本學習）。研究目標是使感知與 LLM 保持一致，如此一來模型能夠看到（see）和說話（talk）。研究者依照 METALM（參見論文《Language models are general-purpose interfaces》）的方式從頭開始訓練 KOSMOS-1。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

#論文網址：https://arxiv.org/ pdf/2302.14045.pdf
#專案網址：https://github.com/microsoft/unilm

#如下圖1 所示，研究者將一個基於Transformer 的語言模型作為通用接口，並將其與感知模組對接。他們在網頁規模的多模態語料庫上訓練模型，語料庫包含了文字資料、任意交錯的圖像和文字、以及圖像字幕對。此外，研究者也透過傳輸純語言資料來校準跨模態的指令遵循能力。

最終，KOSMOS-1 模型原生支援零樣本和少樣本學習設定下的語言、知覺語言與視覺任務，如下表 1 所示。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

#研究者在下圖 2 和圖 3 中展示了一些生成範例。除了各種自然語言任務，KOSMOS-1 模型能夠原生處理廣泛的感知密集型任務，如視覺對話、視覺解釋、視覺問答、圖像字幕、簡單的數學方程式、OCR 和帶有描述的零樣本影像分類。他們也根據瑞文推理測驗（Raven's Progressive Matrices, RPM）建立了一個 IQ 測驗基準，用來評估 MLLM 的非語言推理能力。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

這些範例表明，多模態感知的原生支援為將LLM 應用於新任務提供了新的機遇。此外與 LLM 相比，MLLM 實現了更好的常識推理性能，表明了跨模態遷移有助於知識獲取。

由於 KOSMOS-1 模型的參數量為 16 億，因此有網友表示有望在自己的電腦上運行這個多模態大模型。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

KOSMOS-1：一個多模態大型語言模型

如圖1 所示，KOSMOS-1 是一個多模態語言模型，它既可以感知一般的模態、遵循指令、還能在上下文中學習並產生輸出。具體來說，KOSMOS-1 的主幹是一個基於 Transformer 的因果語言模型。除了文字之外，其他模態也能被嵌入並輸入到該模型中，如下圖中，除了語言上還有視覺、語音等的嵌入。 Transformer 解碼器用作多模態輸入的通用介面。一旦模型訓練完成，KOSMOS-1 在零樣本和少樣本設定中也能對語言任務和多模態任務進行評估。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

Transformer 解碼器以統一的方式感知模態，輸入訊息會被 flatten 為具有特殊 token 的序列。例如表示序列開始、表示序列結束。特殊 token 和表示編碼圖像嵌入的開始和結束。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

#嵌入模組將文字token 和其他輸入模態編碼成向量表示，對於輸入token，該研究使用查找表將其映射到嵌入。對於連續訊號模態（例如，影像和音訊），也可以將輸入表示為離散編碼。

之後，得到的輸入序列嵌入會被饋送到基於 Transformer 的解碼器。然後因果模型以一種自回歸的方式處理序列，從而產生下一個 token。總而言之，MLLM 框架可以靈活地處理各種資料類型，只要將輸入表示為向量即可。

模型訓練

首先是訓練資料集。資料集包括文字語料庫、圖像 - 字幕對、圖像和文字交叉資料集。具體而言，文字語料庫包括The Pile 、Common Crawl (CC)；圖像- 字幕對包括English LAION-2B、LAION-400M、COYO-700M 以及Conceptual Captions；圖像和文字交叉多模態資料集來自Common Crawl snapshot 。

資料集有了，然後是訓練設定。 MLLM 元件包含 24 層、隱藏維度是 2048、8192 個 FFN 和 32 個注意力頭、參數量為 1.3B。為了使模型更好的收斂，圖像表示是從具有 1024 個特徵維度的預訓練 CLIP ViT-L/14 模型獲得的。影像在訓練過程中被預處理為 224×224 分辨率，此外，訓練期間除了最後一層，所有的 CLIP 模型參數被凍結。 KOSMOS-1 的參數總數約為 1.6B。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

實驗結果

該研究進行了一系列豐富的實驗來評估KOSMOS-1 ：語言任務（語言理解、語言生成、 OCR-free 文本分類）；跨模態遷移（常識推理）；非語言推理（ IQ 測試）；感知- 語言任務（圖像字幕、視覺問答、網頁問答）；視覺任務（零樣本影像分類、帶有描述的零樣本影像分類）。

圖片字幕。 下表給出了不同模型在 COCO 和 Flickr30k 上的零樣本表現。相較於其他模型，KOSMOS-1 均取得了顯著效果，甚至在參數量遠小於 Flamingo 的基礎上，效能也不錯。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

下表為少樣本效能比較：

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

視覺問答。 KOSMOS-1 比Flamingo-3B 和Flamingo-9B 模型具有更高的準確率和穩健性：

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

下表為少樣本效能比較：

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

IQ 測驗。瑞文推理測驗是評估非語言推理最常見的測驗之一。圖 4 顯示了一個範例。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

表 6 顯示了在 IQ 測試資料集上的評估結果。 KOSMOS-1 能夠在非語言環境中感知抽象概念模式，然後在多個選擇中推理出之後的元素。據了解，這是首次有模型可以執行此類零樣本 Raven IQ 測試。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

#網頁問答。 網頁問答旨在從網頁中找到問題的答案。它要求模型既能理解文本的語義，又能理解文本的結構。結果如下：

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

#多模態思維鏈提示。 受思維鏈提示的啟發，本文對這方面進行了實驗。如圖 5 本文將感知語言任務分解為兩個步驟。在第一階段給定影像，使用提示來引導模型產生符合要求的輸出，以產生最終結果。

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

從表9 可以看出，多模態思考鏈提示的得分為72.9 分，比標準提示高出5.8 分：

微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務

#了解更多實驗內容，請參考原文。

以上是微軟多模態ChatGPT來了？ 16億參數搞定看圖答題、智商測驗等任務的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1328

PHP教程

1273

C# 教程

1253

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：