多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁-人工智慧-PHP中文網

一文摸清多模態大模型現狀

1、視覺理解

2、視覺生成

#3、統一視覺模型

4、LLM加持的多模態大模型

5、多模態agent

作者介紹

首頁

科技週邊

人工智慧

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

王林

Sep 25, 2023 pm 04:49 PM

數據研究

多模態大模型最全綜述來了！

由微軟7位華人研究員撰寫，足足119頁——

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

它從目前已經完善的和還處於最前沿的兩類多模態大模型研究方向出發，全面總結了五個具體研究主題：

視覺理解
視覺生成
統一視覺模型
LLM加持的多模態大模型
多模態agent

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

並且專注於一個現象：

多模態基礎模型已經從專用走向通用。

Ps. 這也是為什麼論文開頭作者就直接畫了一個哆啦A夢的圖像。

誰適合閱讀這份綜述（報告）？

用微軟的原話來說：

只要你有興趣學習多模態基礎模型的基礎知識和最新進展，無論你是專業研究員還是在校學生，這個內容都非常適合你

一起來看看～

一文摸清多模態大模型現狀

這五個具體主題中的前兩個是目前已經成熟的領域，而後三個則屬於前沿領域

1、視覺理解

這部分的核心問題是如何預訓練一個強大的圖像理解backbone。

如下圖所示，根據用於訓練模型的監督訊號的不同，我們可以將方法分為三類：
標籤監督、語言監督（以CLIP為代表）和只有影像的自監督。

其中最後一個表示監督訊號是從影像本身挖掘出來的，流行的方法包括對比學習、非對比學習和masked image建模。

除了這些方法之外，文章還進一步討論了多模態融合、區域級和像素級影像理解等類別的預訓練方法

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

#也列出了以上這些方法各自的代表作品。

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

2、視覺生成

這個主題是AIGC的核心，不限於影像生成，還包括影片、3D點雲圖等等。

而且它的用處不止於藝術、設計等領域——還非常有助於合成訓練數據，直接幫助我們實現多模態內容理解和生成的閉環。

在這部分，作者重點討論了產生與人類意圖嚴格一致的效果的重要性和方法（重點是圖像生成）。

具體則從空間可控生成、基於文本再編輯、更好地遵循文本提示和生成概念定制（concept customization）四個方面展開。

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

在本節的結尾，作者也分享了他們對目前研究趨勢和即將展開的研究方向的觀點

為了更好地遵循人類的意圖並使上述四個方向都能夠更加靈活和可替代，我們需要開發一個通用的文生成模型

列舉了四個方向的各自代表作如下：

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

#3、統一視覺模型

這部分內容探討了建構統一視覺模型所面臨的挑戰：

需要進行改寫的內容是：首先，輸入類型不同；

需要進行改寫的內容是：其次，不同的任務需要採用不同的細粒度，並且輸出也要求採用不同的格式；

#資料也面臨挑戰，除了建模之外

例如不同類型的標籤註釋成本差異很大，收集成本比文字資料高得多，這導致視覺資料的規模通常比文字語料庫小得多。

不過，儘管挑戰多多，作者指出：

CV領域對於開發通用、統一的視覺系統的興趣是越來越高漲，還衍生出來三類趨勢：

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

一是從閉集（closed-set）到開集（open-set），它可以更好地將文字和視覺匹配起來。

從特定任務到通用能力的轉變最重要的原因是為每個新任務開發一個新模型的成本太高

三是從靜態模型到可提示模型，LLM可以採用不同的語言和上下文提示作為輸入，並在不進行微調的情況下產生使用者想要的輸出。我們要打造的通用視覺模型應該具有相同的情境學習能力。

4、LLM加持的多模態大模型

本節全面探討多模態大模型。

先是深入研究背景和代表實例，並討論OpenAI的多模態研究進展，確定該領域現有的研究空白。

接下來作者詳細檢視了大語言模型中指令微調的重要性。

再接著，作者探討了多模態大模型中的指令微調工作，包括原理、意義和應用。

最後，我們還將涉及一些多模態模型領域中的高階主題，以便更深入地了解，其中包括：

更多超越視覺和語言的模態、多模態的上下文學習、參數高效訓練以及Benchmark等內容。

5、多模態agent

所謂多模態agent，就是一種將不同的多模態專家與LLM連結起來解決複雜多模態理解問題的辦法。

這部分，作者主要先帶大家回顧了這種模式的轉變，總結方法與傳統方法的根本差異。

以MM-REACT為例，我們將詳細介紹這種方法的具體運作方式

我們進一步總結瞭如何建構多模態代理的全面方法，以及它在多模態理解方面的新興能力。同時，我們也介紹瞭如何輕鬆地擴展這種能力，包括最新、最強大的LLM和潛在的數百萬種工具

當然，最後也是一些高階主題討論，包括如何改進/評估多多模態agent，由它建成的各種應用程式等。

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

作者介紹

這份報告共有7位作者

發起人和整體負責人為Chunyuan Li 。

他是微軟雷德蒙首席研究員，博士畢業於杜克大學，最近研究興趣為CV和NLP中的大規模預訓練。

他負責了開頭介紹和結尾總結以及「利用LLM訓練的多模態大模型」這章的撰寫。重寫後的內容：他負責撰寫了文章的開頭介紹和結尾總結，以及關於「利用LLM訓練的多模態大模型」這一章的部分

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

核心作者共有4位：

Zhe Gan

目前已進入Apple AI/ML工作，負責大規模視覺和多模態基礎模型研究。先前是Microsoft Azure AI的首席研究員，北大本碩畢業，杜克大學博士畢業。

Zhengyuan Yang

他是微軟的高級研究員，畢業於羅徹斯特大學並獲得了ACM SIGMM傑出博士獎等榮譽。他本科就讀於中國科學技術大學

Jianwei Yang

#微軟雷德蒙研究院深度學習小組首席研究員。佐治亞理工學院博士畢業。

Linjie Li（女）

#Microsoft Cloud & AI電腦視覺組研究員，普渡大學碩士畢業。

他們分別負責了剩下四個主題章節的撰寫。

綜述網址：https://arxiv.org/abs/2309.10020

以上是多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7456

CakePHP 教程

1376

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

使用ddrescue在Linux上恢復數據 Mar 20, 2024 pm 01:37 PM

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備，留下損壞的資料區塊，只移動好的資料區塊。 ddreasue是一種強大的恢復工具，完全自動化，因為它在恢復操作期間不需要任何干擾。此外，由於有了ddasue地圖文件，它可以隨時停止和恢復。 DDREASE的其他主要功能如下：它不會覆寫恢復的數據，但會在迭代恢復的情況下填補空白。但是，如果指示工具明確執行此操作，則可以將其截斷。將資料從多個檔案或區塊還原到單

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如何多條件使用Excel過濾功能 Feb 26, 2024 am 10:19 AM

如果您需要了解如何在Excel中使用具有多個條件的篩選功能，以下教學將引導您完成對應步驟，確保您可以有效地篩選資料和排序資料。 Excel的篩選功能是非常強大的，能夠幫助您從大量資料中提取所需的資訊。這個功能可以根據您設定的條件，過濾資料並只顯示符合條件的部分，讓資料的管理變得更有效率。透過使用篩選功能，您可以快速找到目標數據，節省了尋找和整理數據的時間。這個功能不僅可以應用在簡單的資料清單上，還可以根據多個條件進行篩選，幫助您更精準地定位所需資訊。總的來說，Excel的篩選功能是一個非常實用的

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂煉大模型，一網路的資料不夠用，根本不夠用。訓練模型搞得跟《飢餓遊戲》似的，全球AI研究者，都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中，這問題尤其突出。一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下，兩側都能產生高品質、多模態的新數據，對模型本身進行數據反哺。模型是啥？中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰？智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立，高

美國空軍高調展示首個AI戰鬥機！部長親自試駕全程未乾預，10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近，軍事圈被這個消息刷屏了：美軍的戰鬥機，已經能由AI完成全自動空戰了。是的，就在最近，美軍的AI戰鬥機首次公開，揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機（VISTA），由美空軍部長親自搭乘，模擬了一對一的空戰。 5月2日，美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意，在一小時的飛行中，所有飛行動作都由AI自主完成！ Kendall表示——在過去的幾十年中，我們一直在思考自主空對空作戰的無限潛力，但它始終顯得遙不可及。然而如今，

首個自主完成人類任務機器人出現，五指靈活速度超人，大模型加持虛擬空間訓練 Mar 11, 2024 pm 12:10 PM

這週，由OpenAI、微軟、貝佐斯和英偉達投資的機器人公司FigureAI宣布獲得接近7億美元的融資，計劃在未來一年內研發出可獨立行走的人形機器人。而特斯拉的擎天柱也屢屢傳出好消息。沒人懷疑，今年會是人形機器人爆發的一年。一家位於加拿大的機器人公司SanctuaryAI最近發布了一款全新的人形機器人Phoenix。官方號稱它能以和人類一樣的速率自主完成許多工作。世界上第一台能以人類速度自主完成任務的機器人Pheonix可以輕輕地抓取、移動並優雅地將每個物件放置在它的左右兩側。它能夠自主辨識物體的

See all articles

多模態大模型最全綜述來了！ 7位微軟研究員大力合作，5大主題，成文119頁

一文摸清多模態大模型現狀

1、視覺理解

2、視覺生成

#3、統一視覺模型

4、LLM加持的多模態大模型

5、多模態agent

作者介紹

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題