UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 04, 2023 pm 06:25 PM

理論 llava

僅靠視覺（像素）模型能走多遠？ UC 伯克利、約翰霍普金斯大學的新論文探討了這個問題，並展示了大型視覺模型（LVM）在多種 CV 任務上的應用潛力。

最近一段時間以來，GPT 和 LLaMA 等大型語言模型 (LLM) 已經風靡全球。

建立大型視覺模型 (LVM) 是一個備受關注的問題，我們需要什麼來實現它？

LLaVA 等視覺語言模型所提供的想法很有趣，也值得探索，但根據動物界的規律，我們已經知道視覺能力和語言能力二者並不相關。例如許多實驗都表明，非人類靈長類動物的視覺世界與人類的視覺世界非常相似，儘管它們和人類的語言體系「兩模兩樣」。

最新的一篇論文討論了另一個問題的答案，即我們僅靠像素本身能走多遠。該論文由加州大學柏克萊分校和約翰霍普金斯大學的研究人員撰寫

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

#論文連結：https://arxiv.org/ abs/2312.00785
計畫首頁：https://yutongbai.com/lvm.html

研究者試圖在LVM 中效法的LLM的關鍵特徵：1）根據資料的規模成長進行為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長，2）透過提示（上下文學習）靈活地指定任務。

他們指定了三個主要元件，分別是資料、架構和損失函數。

在資料上，研究者想要利用視覺資料中顯著的多樣性。首先只是未標註的原始影像和視頻，然後利用過去幾十年產生的各種標註視覺資料來源（包括語義分割、深度重建、關鍵點、多視圖 3D 物件等）。他們定義了一種通用格式 —— 「視覺句子」（visual sentence），用它來表徵這些不同的註釋，而不需要任何像素以外的元知識。訓練集的總大小為 16.4 億個影像 / 幀。

在架構上，研究者使用大型transformer 架構（30 億參數），在表示為token 序列的視覺資料上進行訓練，並使用學得的tokenizer 將每個影像對應到256 個向量量化的token 字串。

在損失函數上，研究者從自然語言社群汲取靈感，即掩碼 token 建模已經「讓位給了」序列自回歸預測方法。一旦影像、影片、標註影像都可以表示為序列，則訓練的模型可以在預測下一個 token 時最小化交叉熵損失。

透過這個極為簡單的設計，研究者呈現了以下一些值得注意的行為：

隨著模型尺寸和資料大小的增加，模型會自動展現適當的為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長行為
現在很多不同的視覺任務可以透過在測試時設計合適的 prompt 來解決。雖然不像客製化、專門訓練的模型那樣獲得高性能的結果，但單一視覺模型能夠解決如此多的任務這一事實非常令人鼓舞；
大量未經監督的數據對各種視覺任務的表現都有顯著的幫助
在處理分佈外數據和執行新任務時，已經出現了通用視覺推理能力存在的跡象，但仍需要進一步的研究

論文共同一作、約翰霍普金斯大學CS 四年級博士生、伯克利訪問博士生Yutong Bai 發推宣傳了她們的工作。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

^{原文圖來源來自推特帳號：https://twitter.com/YutongBAI1002/status/1731512110247473608}

########## ####在論文作者中，後三位都是UC 柏克萊在CV 領域的資深學者。 Trevor Darrell 教授是伯克利人工智慧研究實驗室 BAIR 創始聯合主任、Jitendra Malik 教授獲得 2019 年 IEEE 電腦先驅獎、 Alexei A. Efros 教授尤以最近鄰研究而聞名。 ###

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

^{由左至右依序為 Trevor Darrell、Jitendra Malik、Alexei A. Efros。}

方法介紹

文章使用兩階段方法：1）訓練一個大型視覺tokenizer（對單一影像進行操作），能夠將每個圖像轉換為一系列視覺token；2）在視覺句子上訓練自回歸transformer模型，每個句子都表示為一系列token。方法如圖2所示

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

圖片Token 化

為了將Transformer 模型套用至影像，典型的操作包括：將影像劃分為patch，並將其視為序列；或使用預先訓練的影像tokenizer，例如VQVAE 或VQGAN，將影像特徵聚集到離散token 網格中。本文採用後者方法，即用 VQGAN 模型產生語意 token。

LVM 框架包括編碼和解碼機制，還具有量化層，其中編碼器和解碼器是用卷積層建構的。編碼器配備了多個下採樣模組來收縮輸入的空間維度，而解碼器配備了一系列等效的上採樣模組以將圖像恢復到其初始大小。對於給定的圖像，VQGAN tokenizer 產生 256 個離散 token。

VQGAN 架構在本文中採用了 Chang 等人提出的實作細節，並遵循了他們的設定。具體而言，下取樣因子為 f=16，碼本大小為 8192。這表示對於大小為 256×256 的圖像，VQGAN tokenizer 會產生 16×16=256 個 token，每個 token 可以採用 8192 個不同的值。此外，本文在LAION 5B 資料集的1.5B 子集上進行了tokenizer 的訓練

視覺句子序列建模

使用VQGAN 將影像轉換為離散token後，本文透過將多個影像中的離散token 連接成一維序列，並將視覺句子視為統一序列。重要的是，所有視覺句子都沒有進行特殊處理 —— 即不使用任何特殊的 token 來指示特定的任務或格式。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

^{視覺句子的功能是將不同的視覺資料格式化成統一的影像序列結構}

實現細節。在將視覺句中的每個圖像 token 化為 256 個 token 後，本文將它們連接起來形成一個 1D token 序列。在視覺 token 序列上，本文的 Transformer 模型其實與自迴歸語言模型相同，因此他們採用 LLaMA 的 Transformer 架構。

本內容使用4096個token的上下文長度，與語言模型相似。在每個視覺句子的開頭添加一個[BOS]（句子開頭）token，末尾添加一個[EOS]（句子結尾）token，並在訓練期間使用序列拼接以提高效率

本文在整個UVDv1資料集（4,200 億個token）上訓練模型，總共訓練了4 個具有不同參數數量的模型：3 億、6 億、10 億和30 億。

實驗結果需要被重寫

該研究進行實驗評估了模型的為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長能力，以及理解和回答各種任務的能力。

為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長

根據圖3所示，該研究首先對不同尺寸的LVM進行了訓練損失的檢查

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

如下圖4 所示，較大的模型在所有任務中複雜度都是較低的，這表示模型的整體表現可以遷移到一系列下游任務。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

根據圖5所示，每個資料組件對下游任務有重要的影響。 LVM不僅可以從更大的資料中受益，還能隨著資料集的多樣性而改進

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

重寫內容，而不改變原意，需要將語言重寫為中文。應該出現原句

為了測試 LVM 對各種 prompt 的理解能力，研究首先在序列推理任務上對 LVM 進行評估實驗。其中，prompt 非常簡單：向模型提供7 張圖像的序列，要求它預測下一張圖像，實驗結果需要重寫如下圖6 所示：

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

研究也將給定類別的項目清單視為序列，讓LVM 預測同一類別的影像，實驗結果需要被重寫如下圖15 所示：

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

那麼，需要多少上下文（context）才能準確預測後續影格？

在這項研究中，我們對模型的幀生成困惑度進行了評估，這是透過給出不同長度（1 到 15 幀）的上下文 prompt 來實現的。結果顯示，困惑度隨著幀數的增加而逐漸改善。具體數據如下圖7 所示，困惑度從1 幀到11 幀有明顯的改善，之後趨於穩定（62.1 → 48.4）

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

Analogy Prompt

這項研究也測試了LVM的高階解釋能力，透過評估更複雜的提示結構，如類比提示

下圖8 顯示了對許多任務進行Analogy Prompt 的定性結果：

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

根據與視覺Prompting 的比較，可以看出序列LVM 在幾乎所有任務上都比以前的方法更優

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

合成任務。圖9顯示了使用單一提示將多個任務組合在一起的結果

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

#其他prompt

研究者試圖透過向模型提供它以往未見過的各種prompt，來觀察模型的為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長能力到底怎樣。下圖 10 展示了一些運作良好的此類 prompt。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

下圖 11 展示了一些用文字難以描述的 prompt，這些任務上 LVM 最終可能會勝過 LLM。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

在非語言人類IQ 測驗中，圖13 展示了典型視覺推理問題的初步定性結果

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

##閱讀原文，了解更多細節。

以上是UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7877

Java教學

1649

CakePHP 教程

1409

Laravel 教程

1301

PHP教程

1245

Related knowledge

$突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。$ 突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中，精準的缺陷檢測不僅是確保產品品質的關鍵，更是提升生產效率的核心。然而，現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性，導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題，由香港科技大學廣州和思謀科技組成的頂尖研究團隊，創新地開發了「DefectSpectrum」資料集，為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示，相較於其他工業資料集，「DefectSpectrum」資料集提供了最多的缺陷標註（5438張缺陷樣本），最細緻的缺陷分類（125個缺陷類別

英偉達對話模式ChatQA進化到2.0版本，上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是，相較於以GPT-4-Turbo為代表的專有大模型，開放模型在許多領域仍有明顯差距。在通用模型之外，也有一些專精關鍵領域的開放模型已被開發出來，例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

數百萬晶體資料訓練，解決晶體學相位問題，深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日，晶體學所測定的結構細節和精度，從簡單的金屬到大型膜蛋白，是任何其他方法都無法比擬的。然而，最大的挑戰——所謂的相位問題，仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員，開發了一種解決晶體相問題的深度學習方法PhAI，利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡，可以產生準確的電子密度圖。研究表明，這種基於深度學習的從頭算結構解決方案方法，可以以僅2埃的分辨率解決相位問題，該分辨率僅相當於原子分辨率可用數據的10%到20%，而傳統的從頭算方

GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說，奧數不再是問題了。本週四，GoogleDeepMind的人工智慧完成了一項壯舉：用AI做出了今年國際數學奧林匹克競賽IMO的真題，並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題，涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道，獲得28分，達到了銀牌水準。本月初，UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽（AIMO進步獎），沒想到7月還沒過，AI的做題水平就進步到了這種水平。 IMO上同步做題，做對了最難題IMO是歷史最悠久、規模最大、最負

PRO | 為什麼基於 MoE 的大模型更值得關注？ Aug 07, 2024 pm 07:08 PM

2023年，幾乎AI的每個領域都在以前所未有的速度進化，同時，AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下，Transformer作為AI大模型主流架構的局面是否會撼動？為何探索基於MoE（專家混合）架構的大模型成為業界新趨勢？大型視覺模型（LVM）能否成為通用視覺的新突破？ ……我們從過去的半年發布的2023年本站PRO會員通訊中，挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀，助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

準確率達60.8%，浙大基於Transformer的化學逆合成預測模型，登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務，AI越來越多地用於加快這一過程。現有AI方法性能不盡人意，多樣性有限。在實踐中，化學反應通常會引起局部分子變化，反應物和產物之間存在很大重疊。受此啟發，浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務，迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro，該模型可以實現高品質和多樣化的預測。大量實驗表明，模型在標準基準資料集USPTO-50 K上取得了出色的性能，top-1準確率達到60.8%。

Nature觀點，人工智慧在醫學上的測試一片混亂，該怎麼做？ Aug 22, 2024 pm 04:37 PM

編輯|ScienceAI基於有限的臨床數據，數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具，以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停，這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據，與同事們建立了一系列AI模型，用於提供潛在診斷和推薦測試。一項研究表明，這些模型可以加快22.3%的就診速度，將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而，人工智慧演算法在研究中的成功只是驗證此

See all articles

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題