朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。
據悉 GPT-4 將於本週發布,多模態將成為其一大亮點。目前的大語言模型正在成為理解各種模態的通用接口,能夠根據不同模態資訊來給出回應文本,但大語言模型生成的內容也僅限於文本。另一方面,目前的擴散模型DALL・E 2、Imagen、Stable Diffusion 等在視覺創作上掀起一場革命,但這些模型僅僅支持文到圖的單一跨模態功能,離通用式生成模型還有一定距離。而多模態大模型將能打通各種模態能力,實現任意模態之間轉化,被認為是通用式生成模型的未來發展方向。
清華大學電腦系朱軍教授帶領的TSAIL 團隊近期公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先發布了對多模態生成式模型的一些探索工作,實現了任意模態之間的相互轉換。
#論文連結:https://ml.cs. tsinghua.edu.cn/diffusion/unidiffuser.pdf
開原始碼:https://github.com/thu-ml/unidiffuser
該論文提出了一個為多模態設計的機率建模框架UniDiffuser,並採用該團隊提出的基於transformer 的網路架構U-ViT,在開源的大規模圖文數據集LAION-5B 上訓練了一個十億參數量的模型,使得一個底層模型能夠高品質地完成多種生成任務(圖1)。簡單來講,除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,大幅提昇文圖內容的生產效率,也進一步提升了生成式模型的應用想像。
該論文一作鮑凡目前博士在讀,是此前Analytic-DPM 的提出者,憑藉在擴散模型方面的優秀工作榮獲ICLR 2022 的outstanding paper award(目前唯一一篇大陸單位獨立完成的獲獎論文)。
此外,機器之心先前也曾通報過 TSAIL 團隊提出的 DPM-Solver 快速演算法,目前仍是擴散模式最快的生成演算法。多模態大模型正是該團隊在深度機率模型的演算法和原理方面長期深入累積的一個集中展示。工作的合作者包括人民大學高瓴人工智慧學院的李崇軒、北京智源研究院的曹越等。
值得注意的是,該專案的論文和程式碼都已開源。
效果展示
如下的圖8 展示了UniDiffuser 在圖文共同產生的效果:
##如下的圖9 展示了UniDiffuser 在文到圖上的效果:
#
如下的圖12 展示了UniDiffuser 在影像改寫上的效果:
如下的圖15 展示了UniDiffuser 能夠實現圖文兩個模態之間的來回跳躍:
如下圖16 展示了UniDiffuser 能對真實的兩張圖像進行插值:
方法概覽
研究團隊將針對通用生成式模型的設計劃分成了兩個子問題:
- 機率建模框架:是否能尋找到一個機率建模框架,能同時建模出模態之間所有的分佈,例如圖文之間的邊緣分佈、條件分佈、聯合分佈等?
- 網路架構:是否能設計出一個統一的網路架構,來支援各種不同模態的輸入?
機率建模框架
#針對機率建模框架,研究團隊提出UniDiffuser,一個基於擴散模型的機率建模框架。 UniDiffuser 能夠顯示地建模多模態資料中包含邊緣分佈、條件分佈、聯合分佈在內的所有分佈。研究團隊發現,關於不同分佈的擴散模型學習都可以統一成一個視角:首先向兩個模態的資料分別加入某種大小的噪聲,然後再預測兩個模態資料上的噪聲。其中兩個模態資料上的雜訊大小決定了具體的分佈。例如,將文字的雜訊大小設為0,則對應了文生圖的條件分佈;將文字雜訊大小設為最大值,則對應了無條件影像產生的分佈;將圖文雜訊大小設為相同,則對應了圖文的聯合分佈。根據此統一的視角,UniDiffuser 只需要將原始擴散模型的訓練演算法做少許的修改,便能同時學習上述的所有分佈— 如下圖所示,UniDiffuser 同時向所有模態加噪而非單一模態,輸入所有模態對應的雜訊大小,以及預測所有模態上的雜訊。
以雙模態為例子,最終的訓練目標函數如下所示:
#其中
代表數據,
代表加入到兩個模態中的標準高斯噪聲,
#代表兩個模態加入雜訊的大小(即時間),兩者獨立的從{1,2,…,T} 取樣,
為雜訊預測網絡,同時預測兩個模態上的雜訊。
在訓練後,透過向雜訊預測網路設定兩個模態適當的時間,UniDiffuser 能夠實現無條件、條件以及聯合生成。例如將文字的時間設為 0,可以實現文到圖生成;將文字的時間設定為最大值,可以實現無條件圖像生成;將圖文時間設定為相同值,可以實現圖文聯合生成。
下面羅列了 UniDiffuser 的訓練和取樣演算法,可見這些演算法相對原始的擴散模型均只做了微小的改動,易於實現。
此外,由於UniDiffuser 同時建模了條件分佈和無條件分佈,因此UniDiffuser 天然地支援classifier-free guidance 。下面的圖3 展示了UniDiffuser 的條件生成和聯合生成在不同的guidance scale 下的效果:
針對網路架構,研究團隊提出使用基於transformer 的架構來參數化雜訊預測網路。具體地,研究團隊採用了最近提出的 U-ViT 架構。 U-ViT 將所有的輸入視為 token,並在 transformer 區塊之間加入了 U 型連接。研究團隊也採用了 Stable Diffusion 的策略,將不同模態的資料都轉換到了隱空間再進行擴散模型的建模。值得注意的是,U-ViT 架構同樣來自該研究團隊,並且已開源在 https://github.com/baofff/U-ViT。
實驗結果
UniDiffuser 首先和 Versatile Diffusion 進行了比較。 Versatile Diffusion 是過去的一個基於多任務框架的多模態擴散模型。首先 UniDiffuser 和 Versatile Diffusion 進行了文到圖上的效果比較。如下面的圖 5 所示,在不同的 classifier-free guidance scale 下,UniDiffuser 在 CLIP Score 和 FID 指標上均優於 Versatile Diffusion。
以上是朱軍團隊在清華開源了第一個基於Transformer的多模態擴散大型模型,經過文字和圖像改寫完成。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令,响应对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数

一、前言在过去的几年里,YOLOs由于其在计算成本和检测性能之间的有效平衡,已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等,取得了显著进展。同时,依赖非极大值抑制(NMS)进行后处理阻碍了YOLO的端到端部署,并对推理延迟产生不利影响。在YOLOs中,各种组件的设计缺乏全面彻底的检查,导致显著的计算冗余,限制了模型的能力。它提供了次优的效率,以及相对大的性能改进潜力。在这项工作中,目标是从后处理和模型架构两个方面进一步提高YOLO的性能效率边界。为此

目標偵測系統的標竿YOLO系列,再次獲得了重磅升級。自今年2月YOLOv9發布之後,YOLO(YouOnlyLookOnce)系列的接力棒傳到了清華大學研究人員的手上。上週末,YOLOv10推出的消息引發了AI界的關注。它被認為是電腦視覺領域的突破性框架,以其即時的端到端目標檢測能力而聞名,透過提供結合效率和準確性的強大解決方案,延續了YOLO系列的傳統。論文網址:https://arxiv.org/pdf/2405.14458專案網址:https://github.com/THU-MIG/yo

今年2月,Google上線了多模態大模型Gemini1.5,透過工程和基礎設施最佳化、MoE架構等策略大幅提升了效能和速度。擁有更長的上下文,更強推理能力,可以更好地處理跨模態內容。本週五,GoogleDeepMind正式發布了Gemini1.5的技術報告,內容涵蓋Flash版等最近升級,該文件長達153頁。技術報告連結:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf在本報告中,Google介紹了Gemini1

評估Java框架商業支援的性價比涉及以下步驟:確定所需的保障等級和服務等級協定(SLA)保證。研究支持團隊的經驗和專業知識。考慮附加服務,如昇級、故障排除和效能最佳化。權衡商業支援成本與風險緩解和提高效率。

写在前面&笔者的个人理解最近来,随着深度学习技术的发展和突破,大规模的基础模型(FoundationModels)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。通过对丰富的语言和视觉数据进行预训练,基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理,为驾驶决策和规划提供语言和动作命令。基础模型可以根据对驾驶场景的理解来实现数据增强,用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行

PHP框架的學習曲線取決於語言熟練度、框架複雜性、文件品質和社群支援。與Python框架相比,PHP框架的學習曲線較高,而與Ruby框架相比,則較低。與Java框架相比,PHP框架的學習曲線中等,但入門時間較短。

輕量級PHP框架透過小體積和低資源消耗提升應用程式效能。其特點包括:體積小,啟動快,記憶體佔用低提升響應速度和吞吐量,降低資源消耗實戰案例:SlimFramework創建RESTAPI,僅500KB,高響應性、高吞吐量
