推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」
10毫秒產生一張影像,1分鐘6000張影像,這是什麼概念?
下圖中,就可以深刻感受到AI的超能力。
圖片
甚至,當你在二次元小姐姐圖片產生的提示中,不斷加入新的元素,各種風格的圖片更迭也是瞬間閃過。
圖片
如此驚人的圖片即時產生速度,便是來自UC伯克利、日本筑波大學等研究人員提出StreamDiffusion帶來的結果。
這個全新的解決方案是一種擴散模型流程,能夠以超過100fps的速度,實現即時互動式影像生成。
圖片
論文網址:https://arxiv.org/abs/2312.12491
#StreamDiffusion開源後直接霸榜GitHub,狂攬3.7k顆星。
圖片
StreamDiffusion創新性採用了批次策略,而非序列去噪,比傳統方法快大約1.5倍。而作者提出的新型剩餘無分類器引導(RCFG)演算法能夠比傳統無分類引導快2.05倍。
最值得一提的是,新方法在RTX 4090上,影像到影像的產生速度可達91.07fps。
圖片
未來,在元宇宙、電玩遊戲圖形渲染、直播視訊串流等不同場景中,StreamDiffusion快速生成能夠滿足這些應用的高吞吐量的需求。
尤其,即時的影像生成,能夠為那些遊戲開發、影片渲染的打工人們,提供了強大的編輯和創作能力。
圖片
專為即時影像產生設計
目前,在各個領域中,擴散模型的應用需要具備高吞吐量和低延遲的擴散管道,以確保人機互動的高效性
一個典型的例子是,用擴散模型創建虛擬角色VTuber——能夠對使用者的輸入做出流暢的反應。
圖片
為了提高高吞吐量和即時互動能力,目前研究的方向主要集中在,減少去雜訊迭代次數,例如從50次迭代減少到幾次,甚至一次。
常見的策略是將多步驟擴散模型提煉成幾個步驟,用神經常微分方程(ODE)重新建構擴散過程。為提高效率,也有人對擴散模型進行了量化。
最新論文中,研究人員從正交方向(orthogonal direction)開始,引入了StreamDiffusion——一種實時擴散管道,專為互動式圖像生成的高吞吐量而設計。
現有的模型設計工作可以與StreamDiffusion集成,同時還可以使用N步驟去噪擴散模型,以保持高吞吐量,並為用戶提供更靈活的選擇
圖片
即時影像產生|第一列和第二列:AI輔助即時繪圖的範例,第三列:從3D頭像即時渲染2D插圖。第四列和第五列:即時相機濾鏡。 即時影像產生|第一列和第二列展示了AI輔助即時繪圖的範例,第三列展示了透過即時渲染3D頭像產生2D插圖的過程。第四列和第五列展示了即時相機濾鏡的效果
具體是如何實現的?
StreamDiffusion架構
StreamDiffusion是一種新的擴散管道,旨在提高吞吐量。
它由若干關鍵部分組成:
流批次策略、剩餘無分類器引導(RCFG)、輸入輸出佇列、隨機相似濾波(Stochastic Similarity Filter)、預計算程式、微型自動編碼器的模型加速工具。
批次去雜訊
在擴散模型中,去雜訊步驟是按順序進行的,這就導致了U-Net的處理時間,與步驟數成比例增加。
然而,為了產生高保真的圖像,就不得不增加步數。
為了解決互動式擴散中的高延遲產生的問題,研究人員提出了一種稱為Stream Batch的方法。
如下圖所示,在最新的方法中,在處理下一個輸入影像之前,不會等待單一影像完全去噪,而是在每個去噪步驟後接受下一個輸入影像。
這樣就形成了一個去雜訊批次,每個影像的去雜訊步驟交錯進行。
透過將這些交錯的去噪步驟串聯成一個批次,研究人員就能使用U-Net高效率地處理連續輸入的批次。
在時間步t處編碼的輸入影像在時間步t n處產生並解碼,其中n是去雜訊步驟的數目。
圖片
剩餘無分類器引導(RCFG)
常見的無分類器指導(CFG)是一種,透過在無條件或否定條件項和原條件項之間執行向量計算。來增強原條件的效果的演算法。
圖片
這可以帶來諸如加強提示的效果之類的好處。
然而,為了計算負條件剩餘噪聲,需要將每個輸入潛變數與負條件嵌入配對,並在每個推理時間將其傳遞給U-Net。
為了解決這個問題,作者引入了一種創新的剩餘無分類器引導(RCFG)
這種方法利用虛擬剩餘噪聲來逼近負條件,使得我們只需要在過程的初始階段就能夠計算負條件噪聲,從而顯著降低了負條件嵌入時額外的U-Net推理計算成本
輸入輸出佇列
將輸入影像轉換為管道可管理的張量資料格式,反過來,將解碼後的張量轉換回輸出影像,都需要不可忽略的額外處理時間。
為了避免將這些影像處理時間加入到神經網路推理流程中,我們將影像預處理和後處理分離到不同的執行緒中,從而實現並行處理。
此外,透過使用輸入張量佇列,還能應對因裝置故障或通訊錯誤造成的輸入影像暫時中斷,從而實現流暢的串流。
圖片
隨機相似濾波(Stochastic Similarity Filter)
如下圖是,核心擴散推理管道,包含VAE和U-Net。
透過引入去噪批次處理和預先計算的提示嵌入快取、取樣雜訊快取和調度器值緩存,提高了推理管線的速度,實現了即時影像產生。
隨機相似濾波(SSF)是為了節省GPU功耗而設計的,可以動態關閉擴散模型管道,進而實現了快速高效的即時推理。
圖片
預計算
U-Net架構既需要輸入潛在變量,也需要條件嵌入。
通常情況下,條件嵌入來自「提示嵌入」,在不同影格之間保持不變。
為了優化這一點,研究人員預先計算提示嵌入,並將其儲存在快取中。在互動或串流模式下,這個預先計算的提示嵌入快取會被召回。
在U-Net中,每一幀的鍵和值的計算是基於預先計算的提示嵌入實現的
因此,研究人員對U-Net進行修改,以儲存這些鍵和值對,使其可以重複使用。每當輸入提示更新時,研究人員都會在U-Net內重新計算和更新這些鍵和值對。
模型加速和微型自動編碼器
為了最佳化速度,我們將系統配置為使用靜態批次大小和固定輸入大小(高度和寬度)。
這種方法可確保計算圖和記憶體分配針對特定的輸入大小進行最佳化,從而加快處理速度。
然而,這表示如果需要處理不同形狀的圖像(即不同的高度和寬度),請使用不同的批次大小(包括去噪步驟的批次大小)。
實驗評估
去噪批的定量評估
圖8展示了批量去雜訊和原始順序U- Net循環的效率比較
在實施批次去雜訊策略時,研究人員發現處理時間有了顯著改善。與順序去噪步驟的傳統U-Net循環相比,減少了一半的時間。
即使應用了神經模組加速工具TensorRT,研究人員提出的串流批次在不同的去雜訊步驟中仍能大幅提高原始順序擴散管道的效率。
圖片
此外,研究人員也將最新方法與Huggingface Diffusers開發的AutoPipeline-ForImage2Image管道進行了比較。
平均推理時間比較見表1,最新管道顯示速度有了大幅提升。
在使用TensorRT時,StreamDiffusion能夠在執行10個去噪步驟時達到13倍的速度提升。而在只涉及單一去噪步驟的情況下,速度提升可達59.6倍
即使沒有TensorRT,StreamDiffusion在使用單步去噪時也比AutoPipeline提高了29.7倍,使用10步去雜訊時提高了8.3倍。
圖片
表2比較了使用RCFG和常規CFG的流擴散管道的推理時間。
在單步去噪的情況下,Onetime-Negative RCFG和傳統CFG的推理時間幾乎相同。
所以One-time RCFG和傳統CFG在單步驟去雜訊時推理時間差不多。但是隨著去噪步驟增加,從傳統CFG到RCFG的推理速度提升變得更明顯。
在第5步去噪時,Self-Negative RCFG比傳統CFG快2.05倍,Onetime-Negative RCFG比傳統CFG快1.79倍。
图片
图片
在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到
这些图展示了在输入视频中应用 SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式
对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显著降低GPU的使用率。
图片
消融研究
不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。
图片
定性结果
在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程
生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。
相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。
图片
最后,标准文本到图像生成结果的质量如图11所示。
使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。
当在 GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。
图片
网友上手,一大波二次元小姐姐来了
最新项目的代码已经开源,在Github已经收揽3.7k星。
图片
项目地址:https://github.com/cumulo-autumn/StreamDiffusion
许多网友已经开始生成自己的二次元老婆了。
图片
还有真人变实时动画。
图片
10倍速手绘生成。
圖片
圖片
參考資料:###############https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be####################################################################################### ###########https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133##########
以上是推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在2020年3月31日這天初音未來與曾經那位花了數百萬迎娶她的日本宅男正式「離婚」了,距今差不多也有快4年的時間了。其實當初兩人結婚的時候,許多人並不看好他們這一對,畢竟一個生活在三次元的人要和二次元的紙片人結婚,想想都覺得非常離譜。不過面對網友們的口誅筆伐,這位日本宅男近藤顯彥時不時並沒有退縮,最終他還是與初音未來舉辦了婚禮,從結婚後近藤顯彥時不時曬出的照片來看,他與初音未來的生活過得還挺不錯的,可惜兩人婚姻並沒有維持太長的時間,隨著初代初音模型的Gatebox版權到期,近藤顯彥的老婆初音未來也

通用矩陣乘法(GeneralMatrixMultiplication,GEMM)是許多應用程式和演算法中至關重要的一部分,也是評估電腦硬體效能的重要指標之一。透過深入研究和優化GEMM的實現,可以幫助我們更好地理解高效能運算以及軟硬體系統之間的關係。在電腦科學中,對GEMM進行有效的最佳化可以提高運算速度並節省資源,這對於提高電腦系統的整體效能至關重要。深入了解GEMM的工作原理和最佳化方法,有助於我們更好地利用現代計算硬體的潛力,並為各種複雜計算任務提供更有效率的解決方案。透過對GEMM性能的優

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为乾崑ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为乾崑ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

我們在使用淘寶的過程中會經常被推薦一些可能認識的好友,下面為大家介紹一下關閉此功能的方法,有興趣的朋友一起來看看吧。在手機上開啟“淘寶”APP後,點擊頁面右下角的“我的淘寶”,進入個人中心頁面,然後再點擊右上方的“設定”功能即可進入設定頁面。 2.來到設定頁面後,在其中找到“隱私”,並在這一項上面點擊進入。 3.在隱私權頁面裡有一個“向我推薦好友”,在它的後面顯示目前的狀態為“開啟”時,在上面點擊進入去關閉。 4.最後在彈出的視窗裡「向我推薦好友」的後面會顯示有一個開關按鈕,在上面點擊把按鈕設定為灰白色

4月11日,華為官方首次宣布HarmonyOS4.2百機升級計劃,此次共有180餘款設備參與升級,品類覆蓋手機、平板、手錶、耳機、智慧螢幕等設備。過去一個月,隨著HarmonyOS4.2百機升級計畫的穩定推進,包括華為Pocket2、華為MateX5系列、nova12系列、華為Pura系列等多款熱門機型也已紛紛展開升級適配,這意味著會有更多華為機型用戶享受到HarmonyOS帶來的常用常新體驗。從使用者回饋來看,華為Mate60系列機種在升級HarmonyOS4.2之後,體驗全方位躍升。尤其是華為M

從初學者到專家:五個必備的C語言編譯器推薦隨著電腦科學的發展,越來越多的人對程式語言充滿了興趣。而C語言作為一門廣泛應用於系統層級程式設計的高階語言,一直受到了程式設計師們的喜愛。為了寫出高效率、穩定的程式碼,選擇一款適合自己的C語言編譯器是很重要的。本文將介紹五個必備的C語言編譯器,供初學者和專家們參考選擇。 GCCGCC,即GNU編譯器集合,是最常用的C語言編譯器之一

蘋果16系統中版本最好的是iOS16.1.4,iOS16系統的最佳版本可能因人而異添加和日常使用體驗的提升也受到了很多用戶的好評。蘋果16系統哪個版本最好答:iOS16.1.4iOS16系統的最佳版本可能因人而異。根據公開的消息,2022年推出的iOS16被認為是一個非常穩定且性能優越的版本,用戶對其整體體驗也相當滿意。此外,iOS16中新功能的新增和日常使用體驗的提升也受到了許多用戶的好評。特別是在更新後的電池續航力、訊號表現和發熱控制方面,使用者的回饋都比較正面。然而,考慮到iPhone14

黃泉光錐能夠在戰鬥中有效的提升角色的爆擊傷害和攻擊力,黃泉推薦的光錐分別是行於流逝的岸、晚安與睡顏、雨一直下、只需等待、決心如汗珠般閃耀,以下小編會為大家帶來崩壞星穹鐵道黃泉光錐推薦。黃泉光錐推薦一、行於流逝的岸1、黃泉專武可以提升爆傷,攻擊敵方可使敵方陷入泡影負面狀態,造成的傷害提高,終結技傷害額外提高,既有負面狀態還有傷害提高,不得不說是專武。 2.專屬光錐在眾多虛無光錐裡很獨特直接對直傷進行加成,有高額的傷害和對暴傷屬性的提升。 3.不僅如此,光錐還提供了一個負面狀態效果,可以使得黃泉本身有反
