12秒內AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法
只要12秒,只憑手機自己的算力,就能拿Stable Diffusion生成一張圖片。
而且是完成了20次迭代的那種。
要知道,現在的擴散模型基本上都超過了10億參數,想要快速產生一張圖片,要嘛基於雲端運算,要嘛就是要本地硬體夠強大了。
而隨著大模型應用逐漸普及開來,在個人電腦、手機上跑大模型很可能是未來的新趨勢。
由此,Google的研究員們帶來了這篇新成果,名字就叫Speed is all you need:透過GPU優化加速大規模擴散模型在設備上的推理速度。
三步驟走最佳化加速
此方法是針對Stable Diffusion來做的最佳化,但同時也能適應其他擴散模型。面向的任務是從文字生成圖像。
具體優化可以分成三個部分:
- 設計專門的核心
- 提升Attention模型效率
- Winograd卷積加速
首先來看專門設計的內核,它包括了組歸一化和GELU激活函數。
群組歸一化是在整個UNet體系結構中實現,這種歸一化的工作原理是將特徵映射的通道劃分為更小的群組,並對每個群組獨立歸一,使組歸一化較少依賴於批次大小,並且能適應更大範圍的批次大小和網路架構。
研究人員以GPU著色器(shader)的形式設計了一個獨特的核,能在沒有任何中間張量的情況下,在單一GPU指令中執行所有核心。
GELU激活函數中,包含大量的數值計算,如懲罰、高斯誤差函數等。
透過一個專用著色器來整合這些數值計算以及伴隨的分割和乘法運算,使得這些計算能放在一個簡單的draw call裡。
Draw call是CPU呼叫影像程式接口,指令GPU進行渲染的操作。
接下來,到了提升Attention模型效率方面,論文介紹了兩種最佳化方法。
其一是部分融合softmax函數。
為了避免在大矩陣A上執行整個softmax計算,該研究設計了一個GPU著色器來計算L和S向量以減少計算,最終得到一個大小為N×2的張量。然後將softmax計算和矩陣V的矩陣乘法融合。
這種方法大幅減少了中間程式的記憶體佔用張量和整體延遲。
需要強調的是從A到L、S的計算映射的並行是有限的,因為結果張量中的元素比輸入張量A中的元素數量要少得多。
為了增加並行、進一步降低延遲,該研究將A中的元素組成block,將歸約操作(reduction operations)切分為多個部分進行。
然後在每個block上執行計算,然後將其簡化為最終結果。
利用精心設計的線程和記憶體快取管理,可以在多個部分實現使用單一GPU命令降低延遲。
另一種最佳化方法是FlashAttention。
這是去年火起來的IO感知精確注意力演算法,具體有兩種加速技術:按區塊遞增計算即平鋪、並在後向傳遞中重新計算注意力,將所有註意力操作融合到CUDA內核中。
相較於標準Attention,這種方法能減少HBM(高頻寬記憶體)訪問,並提高整體效率。
不過FlashAttention核心的快取器密集度非常高(register-intensive),所以該團隊是有選擇性地使用這一優化方法。
他們在註意力矩陣d=40的Adreno GPU和Apple GPU上使用FlashAttention,其他情況下則使用部分融合softmax函數。
第三部分是Winograd卷積加速。
它的原理簡單來說就是使用更多的加法計算來減少乘法計算,從而降低計算量。
但弊端也很明顯,將會帶來更多的顯存消耗和數值錯誤,尤其是在tile比較大的情況時。
Stable Diffusion的主幹非常依賴3×3卷積層,尤其是在影像解碼器方面,這裡90%的層都是由3×3卷積層構成的。
研究人員分析後發現,在使用4×4大小的tile時,是模型計算效率和顯存利用率的最佳平衡點。
實驗結果
為了評估提升效果,研究人員先在手機上進行了基準測試。
結果表明,兩部手機在使用了加速演算法後,生成圖片的速度都明顯提升。
其中三星S23 Ultra的延遲降低了52.2%,iPhone 14 Pro Max上的延遲降低了32.9%。
在三星S23 Ultra上端到端從文字產生一張512×512像素的圖片,迭代20次,耗時在12秒以內。
論文網址:https://www.php.cn/link/ba825ea8a40c385c33407ebe566fa1bc
以上是12秒內AI在手機上完成作畫!谷歌提出擴散模型推理加速新方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。
