字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-人工智能-PHP中文网

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

王林

发布： 2024-06-24 14:03:31

原创

1138 人浏览过

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间（latent space），使得生成高分辨率图像更有效率。

然而，现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵，这一设计隐式的限制了token与图像之间的映射关系，导致其很难有效的利用图像中的冗余信息（比如相邻的区域经常会有类似的特征）来获得一个更加有效的图像编码。

为了解决这一问题，字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer：TiTok，这一Tokenizer打破了2D Tokenizer的设计局限，可以将整个图片压缩至更为紧凑的Token序列。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

论文链接：https://arxiv.org/abs/2406.07550
项目链接：https://yucornetto.github.io/projects/titok.html
代码链接：https://github.com/bytedance/1d-tokenizer

对于256 x 256分辨率的图片，TiTok最少仅需32个Token就可以表达，比通常2D Tokenizer的256或1024个Token显著减少。对于512 x 512分辨率的图片，TiTok最少仅需64个Token，64倍小于Stable Diffusion的VAE Tokenizer。此外，在ImageNet图像生成这一任务上，使用TiTok作为Tokenizer的生成器在生成质量和生成速度上都有显著提高。

在256分辨率，TiTok获得了1.97的FID，显著超过使用同样生成器的MaskGIT 4.21。在512分辨率TiTok可以获得2.74的FID，不仅超过了DiT（3.04），并且相比DiT在图像生成上加速了惊人的410倍！TiTok的最好变种取得了2.13的FID，显著超过DiT的同时仍旧有着74倍的加速。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

^{TiTok仅用32个Token就可以完成高质量的图像重建与生成}

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

^{图像所需Token的显著减少带来了明显更快的生成速度，但是同时维持了高质量的图像生成。}

模型结构

TiTok的结构非常简单，编码器和解码器部分各自是一个ViT，在编码过程中，一组latent tokens会拼接在image patches后，在过完编码器后，仅保留latent tokens并进行quantization的过程。获得的quantized latent tokens将会与一组mask tokens拼接在一起，一并送入解码器，从mask token序列中重建出图像。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

1D Tokenization 性質研究

研究者進行了一系列實驗研究關於不同數量的用於表示圖像的token，不同的tokenizer大小，重建表現，生成表現，linear probing準確率，以及訓練和推理速度的比較。在這過程中，研究者發現（1）只需32個Token便能取得很好的重建與生成效果（2）透過增大Tokenizer的模型大小，研究者可以使用更少的Token來表示圖片（ 3）當圖片使用較少的Token來表示時，Tokenizer會學到更強的語意訊息（4）使用較少的Token來表示圖片時，訓練和推理速度都有了顯著的提升。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

此外，影片中展示了使用不同的Tokenizer大小以及Token數目時所重建出的圖片，可以看到更大的Tokenizer可以在有限的Token下重建出質量更好的圖像。此外，當僅有有限Token時，模型更傾向於保留顯著區域有更好的重建效果。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

實驗驗證

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上進行了與其他方法的比較。可以看到，儘管TiTok使用有限的Token數目，但是可以和其他使用更多Token的方法取得相當的重建效果（rFID），使用較少的Token數目讓TiTok在維持較高的生成圖片質量（gFID）的同時有著顯著快於其他方法的生成速度。

例如TiTok-L-32獲得了2.77的gFID score，同時可以以每秒101.6張圖片的速度進行圖片生成，這一速度顯著快於其他Diffusion Models （169倍快於DiT）或者Transformer Models （339倍快於ViT-VQGAN）.

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

TiTok使用較少Token的優勢在更高分辨率的圖像生成上更加明顯，其中TiTok-L-64僅使用64個Token就能完成高品質的512解析度影像的重建與生成，生成影像的品質不僅高於DiT (2.74 v.s. 3.04)，同時產生速度提高了近410倍。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

結論

在本文中，研究者專注於一個全新的1D Image Tokenizer，並提出了一種全新的風格來打破好的利用影像中的冗餘資訊。 TiTok僅需少量的Token（例如32個）來表示影像，同時仍舊能進行高品質的影像重建與生成。在ImageNet的256解析度和512解析度生成實驗中，TiTok不僅取得了超過Diffusion Models的生成質量，同時有著數百倍更快的生成速度。

關於豆包大模型團隊

字節跳動豆包大模型團隊於2023 年，致力於開發世界業界最先進的AI 位元組模型，成為世界一流模型的研究為科技和社會發展作出貢獻。

豆包大模型團隊在AI領域擁有長期願景與決心，研究方向涵蓋NLP、CV、語音等，在中國、新加坡、美國等地設有實驗室和研究職位。團隊依托平台充足的數據、運算等資源，在相關領域持續投入，已推出自研通用大模型，提供多模態能力，下游支援豆包、釦子、即夢等50+業務，並透過火山引擎開放給企業客戶。目前，豆包APP已成為中國市場用戶量最大的AIGC應用程式。

歡迎加入字節跳動豆包大模型團隊，點擊下方連結即可進入位元組跳動 Top Seed 計畫：

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27

以上是字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍的详细内容。更多信息请关注PHP中文网其他相关文章！