在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵-人工智慧-PHP中文網

方法介紹

##視覺tokenizer 模型的改進

實驗結果

首頁

科技週邊

人工智慧

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 11, 2023 pm 03:53 PM

模型訓練

大型语言模型（LLM 或 LM）最初用于生成语言，但随着时间的推移，它们已经能够生成多种模态的内容，并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位

当然，LM 也能生成图像和视频。在此过程中，图像像素会被视觉 tokenizer 映射为一系列离散的 token。然后，这些 token 被送入 LM transformer，就像词汇一样被用于生成建模。尽管 LM 在视觉生成方面取得了显著进步，但 LM 的表现仍然不如扩散模型。例如，在图像生成的金标基准 —ImageNet 数据集上进行评估时，最佳语言模型的表现比扩散模型差了 48% 之多（以 256ˆ256 分辨率生成图像时，FID 为 3.41 对 1.79）。

为什么语言模型在视觉生成方面落后于扩散模型？来自谷歌、CMU 的研究者认为，主要原因是缺乏一个良好的视觉表示，类似于我们的自然语言系统，以有效地建模视觉世界。为了证实这一假设，他们进行了一项研究。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

论文链接：https://arxiv.org/pdf/2310.05737.pdf

这项研究表明，在相同的训练数据、可比模型大小和训练预算条件下，利用良好的视觉 tokenizer，掩码语言模型在图像和视频基准的生成保真度和效率方面都超过了 SOTA 扩散模型。这是语言模型在标志性的 ImageNet 基准上击败扩散模型的首个证据。

需要强调的是，研究者的目的不是断言语言模型是否优于其他模型，而是促进 LLM 视觉 tokenization 方法的探索。LLM 与其他模型（如扩散模型）的根本区别在于，LLM 使用离散的潜在格式，即从可视化 tokenizer 获得的 token。这项研究表明，这些离散的视觉 token 的价值不应该被忽视，因为它们存在以下优势：

1、与 LLM 的兼容性。token 表示的主要优点是它与语言 token 共享相同的形式，从而可以直接利用社区多年来为开发 LLM 所做的优化，包括更快的训练和推理速度、模型基础设施的进步、扩展模型的方法以及 GPU/TPU 优化等创新。通过相同的 token 空间统一视觉和语言可以为真正的多模态 LLM 奠定基础，后者可以在我们的视觉环境中理解、生成和推理。

2、压缩表示。离散 token 可以为视频压缩提供一个新的视角。可视化 token 可以作为一种新的视频压缩格式，以减少数据在互联网传输过程中占用的磁盘存储和带宽。与压缩的 RGB 像素不同，这些 token 可以直接输入生成模型，绕过传统的解压缩和潜在编码步骤。这可以加快生成视频应用的处理速度，在边缘计算情况下尤其有益。

3、视觉理解优势。以前的研究表明，在自监督表示学习中，将离散的标记作为预训练目标是有价值的，就像BEiT和BEVT中所讨论的那样。此外，研究发现，将标记用作模型输入可以提高其鲁棒性和泛化性能

在这篇论文中，研究者提出了一个名为MAGVIT-v2的视频分词器，旨在将视频（和图像）转化为紧凑的离散标记

该内容的重写如下：该模型是基于VQ-VAE框架内的SOTA视频tokenizer——MAGVIT进行的改进。研究人员提出了两种新技术：1）一种创新的无查找（lookup-free）量化方法，使得可以学习大量词汇，从而提高语言模型的生成质量；2）通过广泛的实证分析，他们确定了对MAGVIT的修改方案，不仅提升了生成质量，还允许使用共享词汇表对图像和视频进行token化

实验结果显示，新模型在三个关键领域优于之前表现最好的视频分词器——MAGVIT。首先，新模型显著提高了MAGVIT的生成质量，在常见的图像和视频基准上刷新了最佳结果。其次，用户研究表明，它的压缩质量超过了MAGVIT和当前的视频压缩标准HEVC。此外，它与下一代视频编解码器VVC相当。最后，研究者表明，与MAGVIT相比，他们的新的分词在两个设置和三个数据集的视频理解任务中表现更强

方法介紹

本文引入了新的視訊tokenizer，旨在將視覺場景中的時間- 空間動態映射為適合語言模型的緊湊離散token 。此外，該方法建立在 MAGVIT 的基礎上。

隨後，研究重點介紹了兩種新穎的設計：無尋找量化（Lookup-Free Quantization ，LFQ）和 tokenizer 模型的增強功能。

無查找量化

#近期，VQ-VAE模型取得了巨大的進展，但是該方法存在一個問題，即重建品質的改進與後續生成品質之間的關係不明確。許多人錯誤地認為改進重建就等同於改進語言模型的生成，例如，擴大詞彙量可以提高重建品質。然而，這種改進只適用於詞彙量較小的生成，而當詞彙量非常大時，會損害語言模型的表現

本文將VQ-VAE codebook 嵌入維度縮減到0 ，即Codebook 在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵被替換為整數集，其中。

與 VQ-VAE 模型不同的是，這種新設計完全消除了對嵌入查找的需要，因此稱為 LFQ。本文發現 LFQ 可以透過增加詞彙量，提升語言模型的生成品質。如圖 1 中的藍色曲線所示，隨著詞彙量的增加，重建和生成不斷改進 —— 這是目前 VQ-VAE 方法中未觀察到的特性。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

到目前為止，可用的 LFQ 方法很多，但本文討論了一種簡單的變體。具體來說，LFQ 的潛在空間被分解為單維變數的笛卡爾積，即在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵。假定給定一個特徵向量，量化表示 q (z) 的每個維度從以下得到：

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

關於LFQ，q（ z）的令牌索引為：

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

除此之外，本文在訓練過程中也增加了熵懲罰：

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

##視覺tokenizer 模型的改進

#為了建立聯合圖像-視訊分詞器，需要重新設計。研究發現，與空間變換器相比，3D CNN的性能更優

本文探討了兩種可行的設計方案，如圖2b 將C-ViViT 與MAGVIT 結合；圖2c 使用時間因果3D 卷積來取代常規3D CNN。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

表 5a 對圖 2 的設計進行了經驗比較，發現因果 3D CNN 表現最好。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

本文在提升MAGVIT效能方面進行了其他架構的修改。除了使用因果3D CNN層外，本文還將編碼器下採樣器從平均池化改為跨步卷積，並在解碼器中每個分辨率的殘差塊之前添加了一個自適應組歸一化層等

實驗結果

本文透過三個部分的實驗驗證了所提出的分詞器的性能：視訊和圖像生成、視訊壓縮和動作識別。圖3直觀地比較了分詞器與先前研究結果的對比

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

影片生成。表 1 顯示了本文模型在兩個基準測試中都超越了所有現有技術，證明了良好的視覺 tokenizer 在使 LM 生成高品質影片方面發揮著重要作用。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

以下是對圖4 的定性樣本的描述

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

透過對MAGVIT-v2的影像產生結果進行評估，本研究在標準的ImageNet類別條件設定下發現，我們的模型在取樣品質（ID和IS）以及推理時間效率（取樣步驟）方面都超過了最佳擴散模型的表現

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

圖5 為視覺化結果。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

影片壓縮。結果如表 3 所示，本文模型在所有指標上都優於 MAGVIT，且在 LPIPS 上優於所有方法。

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

根據表4所示，MAGVIT-v2在這些評估中表現優於先前最好的MAGVIT

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

以上是在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1253

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

$牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24)$ 牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結：https://nianticlabs.github.io/mickey/給定兩張圖片，可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常，這些對應關係是二維到二維的，而我們估計的姿態在尺度上是不確定的。一些應用，例如隨時隨地實現即時增強現實，需要尺度度量的姿態估計，因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey，這是一個關鍵點匹配流程，能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配，我們能夠在沒有深度測試的情況下推斷度量相對

See all articles

在影像、影片生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

方法介紹

##視覺tokenizer 模型的改進

實驗結果

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題