人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧
最近,中國人民大學高瓴人工智慧學院盧志武教授、孫浩長聘副教授、以及院長文繼榮教授作為共同通訊作者在國際綜合期刊《自然·通訊》(英文名:Nature Communications,簡稱Nat Commun )上發表題為「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究論文,文章第一作者為博士生費楠益。該工作嘗試利用多模態基礎模型邁向通用人工智慧,並將對各種 AI 領域(如神經科學和醫療健康)產生廣泛的影響。本文是這篇論文的解讀。
- #論文連結:https://www.nature.com/articles /s41467-022-30761-2
- 程式碼連結:https://github.com/neilfei/brivl-nmi
#人工智慧的基本目標是模仿人類的核心認知活動,如知覺、記憶、推理等。雖然許多人工智慧演算法或模型在各個研究領域都取得了巨大的成功,但是受限於大量標註數據的獲取或是沒有足夠的計算資源支撐在大規模數據上的訓練,大多數的人工智能研究還是只局限於單一認知能力的習得。
為了克服這些限制並向通用人工智慧邁出一步,我們以人類大腦處理多模態資訊為靈感(如圖1a),開發了一個多模態(視覺語言)基礎模型,也即預訓練模型。此外,為了讓模型獲得強大的泛化能力,我們提出訓練資料中的圖片與文字應遵循弱語義相關假設(如圖1b),而不是圖片區域與單字的精細匹配(強語義相關),因為強語意相關假設將導致模型失去人們在為圖片配文時所隱含的複雜情緒和思考。
#圖 1:基於弱語意相關假設的 BriVL 模型。 a. 我們的 BriVL 模型和人腦在處理視覺語言訊息上的比較。 b. 建模弱語意相關資料和建模強語意相關資料的比較。
透過在爬取自網路的大規模圖文對資料上進行訓練,我們得到的多模態基礎模型展現出強大的泛化能力和想像能力。我們相信,我們的工作向通用人工智慧邁出了重要的一步(雖然可能很小),並將對各種 AI 領域(如神經科學和醫療健康)產生廣泛的影響。
方法
我們開發了一個大規模多模態基礎模型在海量的多模態資料上進行自監督訓練,並把它取名為BriVL (Bridging-Vision-and-Language)。
首先,我們使用了一個從網路建立的大規模多來源圖文資料集,稱為弱語意相關資料集(WSCD)。 WSCD 收集了來自網路上多個來源的中文圖像文字對,包括新聞、百科和社群媒體。我們只過濾掉了 WSCD 中的色情和敏感數據,沒有對原始數據進行任何形式的編輯和修改,以保持其自然的數據分佈。總的來說,WSCD 有大約 6.5 億個圖文對,涵蓋了許多主題,如運動、日常生活和電影。
其次,對於我們的網路架構,由於圖像和文字之間不一定存在細粒度的區域單字匹配,我們丟掉了耗時的目標偵測器,採用簡單的雙塔架構,因此能夠透過兩個獨立的編碼器對圖像和文字輸入進行編碼(如圖2)。雙塔結構在推理過程中具有明顯的效率優勢,因為候選集的特徵可以在查詢前計算和索引,滿足現實世界應用的即時要求。第三,隨著大規模分散式訓練技術和自監督學習的發展,用海量的未標註的多模態資料訓練模型成為可能。
具體來說,為了對圖文對的弱相關性進行建模,並學習一個統一的語義空間,我們基於單模態對比學習方法 MoCo 設計了一個跨模態對比學習演算法。如圖 2 所示,我們的 BriVL 模型使用了 momentum 機制,用來在不同的訓練批次中動態維護負樣本隊列。透過這種方式,我們會有一個比較大的負樣本數量(對比學習至關重要),同時使用一個相對較小的 batch 大小以減少 GPU 的記憶體佔用(即 GPU 資源節約)。
#圖 2:用於大規模多模態預訓練的 BriVL 模型示意圖。
主要結果
神經網路視覺化
#當我們聽到文字或描述性的句子時,腦海中就會出現一些場景。那對於我們的 BriVL,它在如此大量的弱相關圖文對上進行預訓練以後,我們就很好奇當給出文本時,它會想像到什麼。
具體來說,我們首先輸入一段文本,透過 BriVL 的文本編碼器獲得其文本嵌入。然後我們隨機初始化一個雜訊影像,並透過影像編碼器得到其特徵嵌入。由於輸入的影像是隨機初始化的,它的特徵與輸入文字的特徵必定不一致。因此,我們定義了匹配兩個特徵嵌入的目標,並透過反向傳播來更新輸入影像。最終得到的影像能清楚地顯示 BriVL 對輸入文字的想像。這裡我們不使用任何額外的模組或數據,預先訓練好的 BriVL 也在整個視覺化過程中被凍結。
我們先介紹 BriVL 對一些高階語意概念的想像能力(如圖 3)。可以看到,儘管這些概念非常抽象,但視覺化還是能夠顯示出它們的具體形態(例如,「自然」:像草一樣的植物;「時間」:鐘錶;「科學」:一張戴著眼鏡的臉和一個錐形瓶;「夢境」:雲,一座通往門的橋,以及夢境般的氛圍)。這種將抽象概念概括為一系列具體物體的能力表明了我們的多模態預訓練只使用弱語義相關資料的有效性。
#圖 3:BriVL 模型對抽象概念的想像。
在圖 4 中,我們展示了 BriVL 對句子的想像。 BriVL 對「烏雲背後有陽光」 的想像不僅從字面上體現了烏雲背後的陽光,而且似乎還顯示出海上的危險情況(左邊有船一樣的物體和波浪),表達了這句話的隱含意思。在 “生如夏花” 的視覺化中,我們可以看到一個花叢。接下來的兩個場景更複雜的文本輸入都來自中國古詩,其語法也與訓練集中的絕大多數文本完全不同。看起來BriVL 也能很好地理解它們:對於“竹外桃花三兩枝”,我們可以看到有竹子和粉紅色的花;對於“白日依山盡,黃河入海流”,我們可以看到山上的樹木遮掩著夕陽,前面河流上有一艘小船。總的來說,我們發現即使在複雜句子的提示下,BriVL 依然具有強大的想像能力。
#圖 4:BriVL 模型對中文句子的想像。
在圖 5 中,幾個類似的文本被用於 BriVL 的神經網路視覺化。對於“有森林的山脈”,圖像中有更多的綠色區域;對於“有石頭的山脈”,圖像中有更多的岩石;對於“有雪的山脈”,中間樹木周圍的地面都是白色或藍色;對於“有瀑布的山脈”,可以看到藍色的水落下來,甚至還有一些水蒸汽。這些視覺化結果證明了 BriVL 能對山脈的修飾詞進行準確的理解和想像。
#圖 5:BriVL 模型對 「有… 的山脈」 的想像。
文生成圖
神經網路視覺化非常直接,但有時會很難解釋。因此我們開發了另一種視覺化 / 可解釋性方法,使 BriVL 的想像內容可以更好地被我們人類理解。具體來說,我們利用 VQGAN 在 BriVL 的指導下來產生影像,因為在 ImageNet 資料集上預先訓練的 VQGAN 非常善於生成逼真的影像。我們首先隨機得到一個 token 序列,並從預先訓練好的 VQGAN 中獲得一個生成影像。接著,我們將產生的圖像輸入到 BriVL 的圖像編碼器中,同時將一段文字輸入到文字編碼器中。最後,我們定義圖像和文字嵌入之間需要匹配的目標,並透過反向傳播來更新初始的 token 序列。與神經網路視覺化一樣,VQGAN 和 BriVL 在生成過程中都被凍結。為了比較,我們也展示了 OpenAI 的 CLIP 模型取代 BriVL 來產生的圖像。
我們先選擇了四個文字輸入,分別在圖 6 和圖 7 展示了 CLIP 和我們 BriVL 的文生成圖結果。 CLIP 和 BriVL 都能很好地理解文本,然而我們也觀察到兩個主要的差異。第一,卡通風格的元素會在 CLIP 產生的影像中出現,而 BriVL 產生的影像則更真實自然。第二,CLIP 傾向於簡單地把元素放在一起,而 BriVL 產生的影像在全域上更統一。第一個差異可能是由於 CLIP 和 BriVL 使用的訓練資料不同。我們訓練資料中的圖像是從網路上抓取的(大部分是真實的照片),而在 CLIP 的訓練資料中可能有一定數量的卡通圖像。第二個差異可能是由於 CLIP 使用的圖文對具有很強的語意相關性(透過單字過濾),而我們使用的則是弱相關數據。這意味著在多模態預訓練期間,CLIP 更有可能學到具體物體和單字 / 詞組之間的對應關係,而 BriVL 則試圖將每張圖像與給定的文本作為一個整體來理解。
#圖6:CLIP(w/ ResNet-50x4)借助VQGAN 實作文生成圖的例子。
#圖7:我們的BriVL 借助VQGAN 實作文生成圖的例子。
我們也考慮了一個更具挑戰性的任務,即根據多個連貫的句子來產生一系列的影像。如圖 8 所示,雖然每張圖片都是獨立生成的,但我們可以看到,四張圖片在視覺上是連貫的,風格也是一樣的。這顯示了 BriVL 模型的另一個優點:儘管影像中的環境和背景很難在相關文本中明確提及,但在我們的大規模多模態預訓練中,它們並沒有被忽略。
#圖 8:我們的 BriVL 借助 VQGAN 進行一系列連貫內容生成的範例。
#在圖9 中,我們選擇了一些人類很少見到的概念/ 場景(如「熊熊燃燒的大海」 和「發光的森林」),甚至是那些在現實生活中不存在的概念/ 場景(如「賽博龐克風格的城市」 和「雲端的城堡」)。這證明了 BriVL 的優越性能不是來自於對預訓練資料的過擬合,因為這裡輸入的概念 / 場景在現實生活中甚至不存在(當然極大可能就不在預訓練資料集中)。此外,這些產生的例子再次驗證了在弱語義相關資料上預訓練 BriVL 的優勢(因為細粒度的區域單字對齊會損害 BriVL 的想像能力)。
#圖9:更多BriVL 的文生成圖結果,其中的概念/ 場景都是人類不常看到甚至是現實生活中不存在的。
此外,我們也將BriVL 應用於遙感影像零樣本分類、中文新聞零樣本分類、視覺問答等多個下游任務,均取得一些有趣的結果,具體請見我們的論文原文。
結論與討論
我們開發了一個名為BriVL 的大規模多模態基礎模型,該模型在6.5 億的弱語義相關圖文上進行了訓練。我們透過神經網路視覺化和文生成圖直觀地展示了對齊的圖文嵌入空間。此外,在其他下游任務上的實驗也顯示了 BriVL 的跨領域學習 / 遷移能力以及多模態學習相對於單模態學習的優勢。特別地,我們發現 BriVL 似乎獲得了一定地想像和推理能力。我們相信這些優勢主要來自於 BriVL 所遵循的弱語意相關假設。也就是說,透過挖掘弱相關圖文對中複雜的人類情感和思想,我們的 BriVL 變得更加認知。
我們相信,我們向通用人工智慧邁出的這一步,不僅會對人工智慧領域本身產生廣泛的影響,也會對各個 AI 領域產生影響。對於人工智慧的研究,基於我們 GPU 資源節約型的多模態預訓練框架,研究人員可以輕鬆地將 BriVL 擴展到更大的量級和更多的模態,以獲得更通用的基礎模型。在大規模多模態基礎模型的幫助下,研究人員也更容易探索新的任務(尤其是那些沒有足夠人類標註的樣本)。對於 AI 領域,由於其強大的泛化能力,基礎模型可以快速適應特定的工作環境。例如,在醫療保健領域,多模態基礎模型可以充分利用病例的多模態資料來提高診斷的準確性;在神經科學領域,多模態基礎模型甚至可能可以幫助找出多模態資訊如何在人腦中融合的機制,因為人工神經網路比人類大腦中的真實神經系統更容易研究。
儘管如此,多模態基礎模型仍面臨一些風險和挑戰。基礎模型可能會學到對某些事情的偏見和成見,這些問題應該在模型訓練前仔細處理,並在下游應用中進行監控和解決。此外,隨著基礎模型掌握越來越多的能力,也要小心它被心懷不軌的人濫用,避免對社會產生負面影響。此外,在基礎模型地未來研究上,也存在一些挑戰:如何發展更深入的模型可解釋性工具,如何用更多的模態建立預訓練資料集,以及如何用更有效的微調技術將基礎模型應用於各個下游任務。
本篇論文作者為:費楠益、盧志武、高一鑷、楊國興、霍宇琦、溫靜遠、盧浩宇、宋睿華、高欣、向滔、孫浩、文繼榮;共同通訊作者為人大高瓴人工智慧學院盧志武教授、孫浩長聘副教授、文繼榮教授。論文發表於國際綜合期刊《自然 · 通訊》(英文名:Nature Communications,簡稱 Nat Commun)。本篇論文由費楠益解讀。
以上是人大高瓴人工智慧學院Nature子刊嘗試利用多模態基礎模型邁向通用人工智慧的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
