GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力
GPT-5何時到來,會有什麼能力?
來自艾倫人工智慧研究所(Allen Institute for AI)的新模型告訴你答案。
艾倫人工智慧研究所推出的Unified-IO 2是第一個可以處理和產生文字、圖像、音訊、視訊和動作序列的模型。
這個高階AI模型使用數十億個資料點進行訓練,模型大小僅7B,卻展現出迄今最廣泛的多模態能力。
論文網址:https://arxiv.org/pdf/2312.17172.pdf
那麼,Unified-IO 2和GPT-5有什麼關係呢?
2022年6月,艾倫人工智慧研究所推出了首代Unified-IO,成為一種能夠同時處理影像和語言的多模態模型之一。
大約在同一時間,OpenAI正在內部測試GPT-4,並在2023年3月正式發布。
所以,Unified-IO可以看作是未來大規模AI模型的前瞻。
也就是說,OpenAI可能正在內部測試GPT-5,並將在幾個月後發布。
而本次Unified-IO 2向我們展現的能力,也將是我們在新的一年可以期待的內容:
GPT-5等新的AI模型可以處理更多模態,透過廣泛的學習以本地方式執行許多任務,並且對與物體和機器人的交互有基本的了解。
Unified-IO 2的訓練資料包括:10億個圖像-文字對、1 兆個文字標記、1.8億個影片剪輯、1.3億張有文字的圖像、300萬個3D資產和100萬個機器人代理運動序列。
研究團隊將總共120多個資料集組合成一個600 TB的包,涵蓋220個視覺、語言、聽覺和動作任務。
Unified-IO 2採用編碼器-解碼器架構,並進行了一些更改,以穩定訓練並有效利用多模態訊號。
模型可以回答問題、根據指令撰寫文字、以及分析文字內容。
模型還可以識別圖像內容,提供圖像描述,執行圖像處理任務,並根據文字描述建立新圖像。
它還可以根據描述或說明產生音樂或聲音,以及分析影片並回答有關影片的問題。
透過使用機器人資料進行訓練,Unified-IO 2還可以為機器人系統產生動作,例如將指令轉換為機器人的動作序列。
由於多模態訓練,它也可以處理不同的模態,例如,在影像上標記某個音軌使用的樂器。
Unified-IO 2在超過35個基準測試中表現良好,包括圖像生成和理解、自然語言理解、視訊和音訊理解以及機器人操作。
在大多數任務中,它能夠比肩專用模型,甚至更勝一籌。
在影像任務的GRIT基準測試中,Unified-IO 2獲得了目前的最高分(GRIT用於測試模型如何處理影像雜訊和其他問題)。
研究人員現在計劃進一步擴展Unified-IO 2,提高資料質量,並將編碼器-解碼器模型,轉換為行業標準的解碼器模型架構。
Unified-IO 2
Unified-IO 2是第一個能夠理解並產生影像、文字、音訊和動作的自迴歸多模態模型。
為了統一不同的模態,研究人員將輸入和輸出(圖像、文字、音訊、動作、邊界框等)標記到一個共享的語義空間中,然後使用單個編碼器-解碼器轉換器模型對其進行處理。
由於訓練模型所採用的資料量龐大,而且來自各種不同的模態,研究人員採取了一系列技術來改進整個訓練過程。
為了有效地促進跨多種模態的自監督學習訊號,研究人員開發了一種新型的去雜訊目標的多模態混合,結合了跨模態的去雜訊和生成。
也開發了動態打包,可將訓練吞吐量提高4倍,以處理高度可變的序列。
為了克服訓練中的穩定性和可擴展性問題,研究人員在感知器重採樣器上做了架構更改,包括2D旋轉嵌入、QK歸一化和縮放餘弦注意力機制。
對於指令調整,確保每個任務都有一個明確的提示,無論是使用現有任務還是製作新任務。另外還包括開放式任務,並為不太常見的模式創建合成任務,以增強任務和教學的多樣性。
統一任務表示
#將多模態資料編碼到共享表示空間中的標記序列,包括以下幾個面向:
文字、稀疏結構和操作
#文字輸入和輸出使用LLaMA中的位元組對編碼進行標記化,邊界框、關鍵點和相機姿勢等稀疏結構被離散化,然後使用添加到詞彙表中的1000個特殊標記進行編碼。
點使用兩個標記(x,y)進行編碼,盒子以四個標記(左上角和右下角)的序列進行編碼,3D長方體以12個標記表示(編碼投影中心、虛擬深度、對數歸一化框尺寸、和連續同心旋轉)。
對於具身任務,離散的機器人動作會產生為文字指令(例如,「向前移動」)。特殊標記用於對機器人的狀態進行編碼(例如位置和旋轉)。
圖像和密集結構
圖像使用預先訓練的視覺轉換器(ViT)進行編碼。將ViT的第二層和倒數第二層的補丁特徵連接起來,以捕捉低級和高級視覺資訊。
產生影像時,使用VQ-GAN將影像轉換為離散標記,這裡採用patch大小為8 × 8的密集預訓練VQ-GAN模型,將256 × 256的影像編碼為1024個token,碼本大小為16512。
然後將每個像素的標籤(包括深度、表面法線和二進位分割遮罩)表示為RGB影像。
音訊
U-IO 2將長達4.08秒的音訊編碼為頻譜圖,然後使用預先訓練的音訊頻譜圖轉換器(AST)對頻譜圖進行編碼,並透過連接AST的第二層和倒數第二層特徵並應用線性層來建立輸入嵌入,就像圖像ViT一樣。
產生音訊時,使用ViT-VQGAN將音訊轉換為離散的標記,模型的patch大小為8 × 8,將256 × 128的頻譜圖編碼為512個token,碼本大小為8196。
影像和音訊歷史記錄
模型最多允許提供四個額外的影像和音訊片段作為輸入,這些元素也使用ViT或AST進行編碼,隨後使用感知器重採樣器,進一步將特徵壓縮為較少數量(影像為32個,音訊為16個)。
這大大縮短了序列長度,並允許模型在使用歷史記錄中的元素作為上下文時,以高細節檢查影像或音訊片段。
稳定训练的模型架构和技术
研究人员观察到,随着我们集成其他模式,使用 U-IO 之后的标准实现会导致训练越来越不稳定。
如下图(a)和(b)所示,仅对图像生成(绿色曲线)进行训练会导致稳定的损失和梯度范数收敛。
与单一模态相比,引入图像和文本任务的组合(橙色曲线)略微增加了梯度范数,但保持稳定。然而,包含视频模态(蓝色曲线)会导致梯度范数的无限制升级。
如图中(c)和(d)所示,当模型的XXL版本在所有模态上训练时,损失在350k步后爆炸,下一个标记预测精度在400k步时显著下降。
为了解决这个问题,研究人员进行了各种架构更改:
在每个Transformer层应用旋转位置嵌入(RoPE)。对于非文本模态,将RoPE扩展到二维位置;当包括图像和音频模态时,将LayerNorm应用于点积注意力计算之前的Q和K。
另外,使用感知器重采样器,将每个图像帧和音频片段压缩成固定数量的标记,并使用缩放余弦注意力在感知者中应用更严格的归一化,这显著稳定了训练。
为了避免数值不稳定,还启用了float32注意力对数,并在预训练期间冻结ViT和 AST,并在指令调整结束时对其进行微调。
上图显示,尽管输入和输出模态存在异质性,但模型的预训练损失是稳定的。
多模态训练目标
本文遵循UL2范式。对于图像和音频目标,这里定义了两种类似的范式:
[R]:掩码去噪,随机屏蔽x%的输入图像或音频补丁特征,并让模型重新构建它;
[S]:要求模型在其他输入模态条件下生成目标模态。
在训练期间,用模态标记([Text]、[Image] 或 [Audio])和范式标记([R]、[S] 或 [X])作为输入文本的前缀,以指示任务,并使用动态遮罩进行自回归。
如上图所示,图像和音频屏蔽去噪的一个问题是解码器侧的信息泄漏。
这里的解决方案是在解码器中屏蔽token(除非在预测这个token),这不会干扰因果预测,同时又消除了数据泄漏。
效率优化
对大量多模态数据进行训练,会导致转换器输入和输出的序列长度高度可变。
这里使用打包来解决这个问题:多个示例的标记被打包到一个序列中,并屏蔽注意力以防止转换器在示例之间交叉参与。
在训练过程中,使用启发式算法来重新排列流式传输到模型的数据,以便将长样本与可以打包的短样本相匹配。本文的动态打包使训练吞吐量增加了近4倍。
指令调优
多模态指令调优是使模型具备各种模态的不同技能和能力,甚至适应新的和独特的指令的关键过程。
研究人员通过结合广泛的监督数据集和任务来构建多模态指令调优数据集。
指令調諧資料的分佈如上圖所示。整體而言,指令調優組合包括60%的提示資料、30%從預訓練繼承下來的資料(為了避免災難性的遺忘)、6%使用現有資料來源建構的任務增強資料、以及4%自由格式文字(以實現類似聊天的回應)。
以上是GPT-5前瞻!艾倫人工智慧研究所發布最強多模態模型,預測GPT-5新能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
