在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵
大型语言模型(LLM 或 LM)最初用于生成语言,但随着时间的推移,它们已经能够生成多种模态的内容,并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位
当然,LM 也能生成图像和视频。在此过程中,图像像素会被视觉 tokenizer 映射为一系列离散的 token。然后,这些 token 被送入 LM transformer,就像词汇一样被用于生成建模。尽管 LM 在视觉生成方面取得了显著进步,但 LM 的表现仍然不如扩散模型。例如,在图像生成的金标基准 —ImageNet 数据集上进行评估时,最佳语言模型的表现比扩散模型差了 48% 之多(以 256ˆ256 分辨率生成图像时,FID 为 3.41 对 1.79)。
为什么语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU 的研究者认为,主要原因是缺乏一个良好的视觉表示,类似于我们的自然语言系统,以有效地建模视觉世界。为了证实这一假设,他们进行了一项研究。
论文链接:https://arxiv.org/pdf/2310.05737.pdf
这项研究表明,在相同的训练数据、可比模型大小和训练预算条件下,利用良好的视觉 tokenizer,掩码语言模型在图像和视频基准的生成保真度和效率方面都超过了 SOTA 扩散模型。这是语言模型在标志性的 ImageNet 基准上击败扩散模型的首个证据。
需要强调的是,研究者的目的不是断言语言模型是否优于其他模型,而是促进 LLM 视觉 tokenization 方法的探索。LLM 与其他模型(如扩散模型)的根本区别在于,LLM 使用离散的潜在格式,即从可视化 tokenizer 获得的 token。这项研究表明,这些离散的视觉 token 的价值不应该被忽视,因为它们存在以下优势:
1、与 LLM 的兼容性。token 表示的主要优点是它与语言 token 共享相同的形式,从而可以直接利用社区多年来为开发 LLM 所做的优化,包括更快的训练和推理速度、模型基础设施的进步、扩展模型的方法以及 GPU/TPU 优化等创新。通过相同的 token 空间统一视觉和语言可以为真正的多模态 LLM 奠定基础,后者可以在我们的视觉环境中理解、生成和推理。
2、压缩表示。离散 token 可以为视频压缩提供一个新的视角。可视化 token 可以作为一种新的视频压缩格式,以减少数据在互联网传输过程中占用的磁盘存储和带宽。与压缩的 RGB 像素不同,这些 token 可以直接输入生成模型,绕过传统的解压缩和潜在编码步骤。这可以加快生成视频应用的处理速度,在边缘计算情况下尤其有益。
3、视觉理解优势。以前的研究表明,在自监督表示学习中,将离散的标记作为预训练目标是有价值的,就像BEiT和BEVT中所讨论的那样。此外,研究发现,将标记用作模型输入可以提高其鲁棒性和泛化性能
在这篇论文中,研究者提出了一个名为MAGVIT-v2的视频分词器,旨在将视频(和图像)转化为紧凑的离散标记
该内容的重写如下:该模型是基于VQ-VAE框架内的SOTA视频tokenizer——MAGVIT进行的改进。研究人员提出了两种新技术:1)一种创新的无查找(lookup-free)量化方法,使得可以学习大量词汇,从而提高语言模型的生成质量;2)通过广泛的实证分析,他们确定了对MAGVIT的修改方案,不仅提升了生成质量,还允许使用共享词汇表对图像和视频进行token化
实验结果显示,新模型在三个关键领域优于之前表现最好的视频分词器——MAGVIT。首先,新模型显著提高了MAGVIT的生成质量,在常见的图像和视频基准上刷新了最佳结果。其次,用户研究表明,它的压缩质量超过了MAGVIT和当前的视频压缩标准HEVC。此外,它与下一代视频编解码器VVC相当。最后,研究者表明,与MAGVIT相比,他们的新的分词在两个设置和三个数据集的视频理解任务中表现更强
方法介紹
本文引入了新的視訊tokenizer,旨在將視覺場景中的時間- 空間動態映射為適合語言模型的緊湊離散token 。此外,該方法建立在 MAGVIT 的基礎上。
隨後,研究重點介紹了兩種新穎的設計:無尋找量化(Lookup-Free Quantization ,LFQ)和 tokenizer 模型的增強功能。
無查找量化
#近期,VQ-VAE模型取得了巨大的進展,但是該方法存在一個問題,即重建品質的改進與後續生成品質之間的關係不明確。許多人錯誤地認為改進重建就等同於改進語言模型的生成,例如,擴大詞彙量可以提高重建品質。然而,這種改進只適用於詞彙量較小的生成,而當詞彙量非常大時,會損害語言模型的表現
本文將VQ-VAE codebook 嵌入維度縮減到0 ,即Codebook 被替換為整數集
,其中
。
與 VQ-VAE 模型不同的是,這種新設計完全消除了對嵌入查找的需要,因此稱為 LFQ。本文發現 LFQ 可以透過增加詞彙量,提升語言模型的生成品質。如圖 1 中的藍色曲線所示,隨著詞彙量的增加,重建和生成不斷改進 —— 這是目前 VQ-VAE 方法中未觀察到的特性。
到目前為止,可用的 LFQ 方法很多,但本文討論了一種簡單的變體。具體來說,LFQ 的潛在空間被分解為單維變數的笛卡爾積,即 。假定給定一個特徵向量
,量化表示 q (z) 的每個維度從以下得到:
關於LFQ,q( z)的令牌索引為:
除此之外,本文在訓練過程中也增加了熵懲罰:
##視覺tokenizer 模型的改進
#為了建立聯合圖像-視訊分詞器,需要重新設計。研究發現,與空間變換器相比,3D CNN的性能更優
本文探討了兩種可行的設計方案,如圖2b 將C-ViViT 與MAGVIT 結合;圖2c 使用時間因果3D 卷積來取代常規3D CNN。
表 5a 對圖 2 的設計進行了經驗比較,發現因果 3D CNN 表現最好。
本文在提升MAGVIT效能方面進行了其他架構的修改。除了使用因果3D CNN層外,本文還將編碼器下採樣器從平均池化改為跨步卷積,並在解碼器中每個分辨率的殘差塊之前添加了一個自適應組歸一化層等
實驗結果
本文透過三個部分的實驗驗證了所提出的分詞器的性能:視訊和圖像生成、視訊壓縮和動作識別。圖3直觀地比較了分詞器與先前研究結果的對比
影片生成。表 1 顯示了本文模型在兩個基準測試中都超越了所有現有技術,證明了良好的視覺 tokenizer 在使 LM 生成高品質影片方面發揮著重要作用。
以下是對圖4 的定性樣本的描述
透過對MAGVIT-v2的影像產生結果進行評估,本研究在標準的ImageNet類別條件設定下發現,我們的模型在取樣品質(ID和IS)以及推理時間效率(取樣步驟)方面都超過了最佳擴散模型的表現
圖5 為視覺化結果。
影片壓縮。結果如表 3 所示,本文模型在所有指標上都優於 MAGVIT,且在 LPIPS 上優於所有方法。
根據表4所示,MAGVIT-v2在這些評估中表現優於先前最好的MAGVIT
以上是在影像、影片生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,
