第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素
隨著OpenAI發布DALL-E 2,自回歸和擴散模型一夜之間成為大規模生成模型的新標準,而在此之前,生成對抗網絡(GAN)一直都是主流選擇,並衍生出StyleGAN等技術。
AIGC爆火的背後,從技術的角度來看,是影像生成模型的架構發生了巨大的變化。
隨著OpenAI發布DALL-E 2,自回歸和擴散模型一夜之間成為大規模生成模型的新標準,而在此之前,生成對抗網路(GAN)一直都是主流選擇,並衍生出StyleGAN等技術。
從GAN切換到擴散模型的架構轉變也引出了一個問題:能否透過擴大GAN模型的規模,比如說在LAION 這樣的大型資料集中進一步提升效能嗎?
最近,針對增加StyleGAN架構容量會導致不穩定的問題,來自浦項科技大學(韓國)、卡內基美隆大學和Adobe研究院的研究人員提出了一種全新的生成對抗網路架構GigaGAN,打破了模型的規模限制,展示了GAN 仍然可以勝任文字到圖像合成模型。
論文連結:https://arxiv.org/abs/2303.05511
專案連結:https://mingukkang. github.io/GigaGAN/
GigaGAN有三大優勢。
1. 它在推理時速度更快,相比同量級參數的Stable Diffusion-v1.5,在512分辨率的生成速度從2.9秒縮短到0.13秒。
2. 可以合成高解析度的影像,例如,在3.66秒內合成1600萬像素的影像。
3. 支援各種潛空間編輯應用程序,如潛插值、樣式混合和向量算術運算等。
最近發布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,開創了影像生成的新時代,在影像品質和模型靈活性方面達到了前所未有的水平。
現在占主導地位的範式「擴散模型」和「自回歸模型」,都依賴於迭代推理這把雙刃劍,因為迭代方法能夠以簡單的目標進行穩定的訓練,但在推理過程中會產生更高的計算成本。
與此形成對比的是生成對抗網路(GAN),只需要一次forward pass即可生成影像,因此本質上是更有效率的。
雖然GAN模型主導了生成式建模的「前一個時代」,但由於訓練過程中的不穩定性,對GAN進行擴展需要仔細調整網路結構和訓練考慮,因此GANs雖然在為單一或多個物件類別建模方面表現出色,但擴展到複雜的資料集上(更不用說開放世界物體生成了),仍然具有挑戰性。
所以目前超大型的模型、資料和運算資源都主要集中在擴散和自迴歸模型上。
在這項工作中,研究人員主要解決以下問題:
#GAN能否繼續擴大規模並有可能從這些資源中受益?或者說GAN已經到達極限了?是什麼阻礙了GAN的進一步擴展?能否克服這些障礙?
研究人員首先用StyleGAN2進行實驗,觀察到簡單地擴展骨幹網會導致不穩定的訓練,在確定了幾個關鍵問題後,提出了在增加模型容量的同時穩定訓練的技術。
首先,透過保留一個濾波器庫(a bank of filters),並採取一個特定樣本的線性組合來有效地擴展生成器的容量。
改編了幾個在擴散模型上下文中常用的技術,並確認它們可以為GANs帶來了類似的性能提升,例如將自註意力機制(僅圖像)和交叉注意力(圖像-文字)與卷積層交織在一起可以提高性能。
此外,研究人員重新引入了多尺度訓練(multi-scaletraining),找到了一個新的方案可以改善圖像-文字對齊和產生輸出的低頻細節。
多尺度訓練可以讓基於GAN的生成器更有效地使用低解析度區塊中的參數,從而具有更好的影像-文字對齊和影像品質。
生成器
#GigaGAN的生成器由文字編碼分支(text encoding branch)、樣式映射網路(style mapping network)、多尺度綜合網路(multi-scale synthesis network)組成,並輔以穩定注意力(stable attention)和自適應核選擇(adaptive kernel selection)。
在文字編碼分支中,首先使用一個預先訓練好的CLIP 模型和一個學習的注意層T 來提取文字嵌入,然後將嵌入過程傳遞給樣式映射網路M,產生與StyleGAN 類似的樣式向量w
#合成網路採用樣式編碼作為modulation,以文字嵌入作為注意力來產生image pyramid,在此基礎上,引入樣本自適應核選擇演算法,實現了基於輸入文字條件的捲積核自適應選擇。
##4. 驗證了GigaGAN的上取樣器在有條件和無條件的超解析度任務中比其他上取樣器的優勢;
5. 結果顯示大規模GANs仍享有GANs的連續和分解潛伏空間的操作,實現了新的影像編輯模式。
經過調參,研究人員在大規模的資料集,如LAION2B-en上實現了穩定和可擴展的十億參數GAN(GigaGAN)的訓練。
並且該方法採用了多階段的方法,首先在64×64下生成,然後上取樣到512 ×512,這兩個網路是模組化的,而且足夠強大,能夠以即插即用的方式使用。
#######結果表明,儘管在訓練時從未見過擴散模型的圖像,但基於文字條件的GAN上採樣網路可以作為基礎擴散模型(如DALL-E 2)的高效、高品質的上採樣器。
這些成果加在一起,使得GigaGAN遠遠超過了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。
雖然GiGAN的10億參數量仍低於最近發布的最大合成模型,如Imagen(3B)、 DALL-E 2(5.5B)和Parti(20B),但目前還沒有觀察到關於模型大小的質量飽和度。
GigaGAN在COCO2014資料集上實作了9.09的zero-shot FID,低於DALL-E 2、Parti-750M和Stable Diffusion的FID
提示插值(Prompt interpolation)
#GigaGAN可以在提示之間平滑地插值,下圖中的四個角落是由同一潛碼生成,但有不同的文字提示。
解耦提示混合(Disentangled prompt mixing)
GigaGAN 保留了一個分離的潛空間,使得能夠將一個樣本的粗樣式與另一個樣本的精細樣式結合起來,並且GigaGAN 可以透過文字提示直接控制樣式。
粗到精風格交換(Coarse-to-fine sytle swapping)
#基於GAN 的模型架構保留了一個分離的潛在空間,使得能夠將一個樣本的粗樣式與另一個樣本的精樣式混合在一起。
參考資料:
https://mingukkang.github.io/GigaGAN/
以上是第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

1.檢查wifi密碼:確保自己輸入的wifi密碼是正確的,並注意區分大小寫。 2.確認wifi是否正常運作:檢查wifi路由器是否正常運作,可將其他裝置連接至相同路由器,以確定問題是否出在裝置上。 3.重新啟動設備和路由器:有時候,設備或路由器發生故障或網路問題,重新啟動設備和路由器可能會解決問題。 4.檢查設備設定:確保設備無線功能為開啟狀態,且未將wifi功能停用。

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
