隨著OpenAI發布DALL-E 2,自回歸和擴散模型一夜之間成為大規模生成模型的新標準,而在此之前,生成對抗網絡(GAN)一直都是主流選擇,並衍生出StyleGAN等技術。
AIGC爆火的背後,從技術的角度來看,是影像生成模型的架構發生了巨大的變化。
隨著OpenAI發布DALL-E 2,自回歸和擴散模型一夜之間成為大規模生成模型的新標準,而在此之前,生成對抗網路(GAN)一直都是主流選擇,並衍生出StyleGAN等技術。
從GAN切換到擴散模型的架構轉變也引出了一個問題:能否透過擴大GAN模型的規模,比如說在LAION 這樣的大型資料集中進一步提升效能嗎?
最近,針對增加StyleGAN架構容量會導致不穩定的問題,來自浦項科技大學(韓國)、卡內基美隆大學和Adobe研究院的研究人員提出了一種全新的生成對抗網路架構GigaGAN,打破了模型的規模限制,展示了GAN 仍然可以勝任文字到圖像合成模型。
論文連結:https://arxiv.org/abs/2303.05511
專案連結:https://mingukkang. github.io/GigaGAN/
GigaGAN有三大優勢。
1. 它在推理時速度更快,相比同量級參數的Stable Diffusion-v1.5,在512分辨率的生成速度從2.9秒縮短到0.13秒。
2. 可以合成高解析度的影像,例如,在3.66秒內合成1600萬像素的影像。
3. 支援各種潛空間編輯應用程序,如潛插值、樣式混合和向量算術運算等。
最近發布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,開創了影像生成的新時代,在影像品質和模型靈活性方面達到了前所未有的水平。
現在占主導地位的範式「擴散模型」和「自回歸模型」,都依賴於迭代推理這把雙刃劍,因為迭代方法能夠以簡單的目標進行穩定的訓練,但在推理過程中會產生更高的計算成本。
與此形成對比的是生成對抗網路(GAN),只需要一次forward pass即可生成影像,因此本質上是更有效率的。
雖然GAN模型主導了生成式建模的「前一個時代」,但由於訓練過程中的不穩定性,對GAN進行擴展需要仔細調整網路結構和訓練考慮,因此GANs雖然在為單一或多個物件類別建模方面表現出色,但擴展到複雜的資料集上(更不用說開放世界物體生成了),仍然具有挑戰性。
所以目前超大型的模型、資料和運算資源都主要集中在擴散和自迴歸模型上。
在這項工作中,研究人員主要解決以下問題:
#GAN能否繼續擴大規模並有可能從這些資源中受益?或者說GAN已經到達極限了?是什麼阻礙了GAN的進一步擴展?能否克服這些障礙?
研究人員首先用StyleGAN2進行實驗,觀察到簡單地擴展骨幹網會導致不穩定的訓練,在確定了幾個關鍵問題後,提出了在增加模型容量的同時穩定訓練的技術。
首先,透過保留一個濾波器庫(a bank of filters),並採取一個特定樣本的線性組合來有效地擴展生成器的容量。
改編了幾個在擴散模型上下文中常用的技術,並確認它們可以為GANs帶來了類似的性能提升,例如將自註意力機制(僅圖像)和交叉注意力(圖像-文字)與卷積層交織在一起可以提高性能。
此外,研究人員重新引入了多尺度訓練(multi-scaletraining),找到了一個新的方案可以改善圖像-文字對齊和產生輸出的低頻細節。
多尺度訓練可以讓基於GAN的生成器更有效地使用低解析度區塊中的參數,從而具有更好的影像-文字對齊和影像品質。
生成器
#GigaGAN的生成器由文字編碼分支(text encoding branch)、樣式映射網路(style mapping network)、多尺度綜合網路(multi-scale synthesis network)組成,並輔以穩定注意力(stable attention)和自適應核選擇(adaptive kernel selection)。
在文字編碼分支中,首先使用一個預先訓練好的CLIP 模型和一個學習的注意層T 來提取文字嵌入,然後將嵌入過程傳遞給樣式映射網路M,產生與StyleGAN 類似的樣式向量w
#合成網路採用樣式編碼作為modulation,以文字嵌入作為注意力來產生image pyramid,在此基礎上,引入樣本自適應核選擇演算法,實現了基於輸入文字條件的捲積核自適應選擇。
與生成器類似,GigaGAN的判別器由兩個分支組成,分別用於處理影像和文字條件。 文字分支處理類似生成器的文字分支;影像分支接收一個image pyramid作為輸入並對每個影像尺度進行獨立的預測。 在公式中引入了多個額外的損失函數以促進快速收斂。##4. 驗證了GigaGAN的上取樣器在有條件和無條件的超解析度任務中比其他上取樣器的優勢;
5. 結果顯示大規模GANs仍享有GANs的連續和分解潛伏空間的操作,實現了新的影像編輯模式。
經過調參,研究人員在大規模的資料集,如LAION2B-en上實現了穩定和可擴展的十億參數GAN(GigaGAN)的訓練。
並且該方法採用了多階段的方法,首先在64×64下生成,然後上取樣到512 ×512,這兩個網路是模組化的,而且足夠強大,能夠以即插即用的方式使用。
#######結果表明,儘管在訓練時從未見過擴散模型的圖像,但基於文字條件的GAN上採樣網路可以作為基礎擴散模型(如DALL-E 2)的高效、高品質的上採樣器。
這些成果加在一起,使得GigaGAN遠遠超過了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。
雖然GiGAN的10億參數量仍低於最近發布的最大合成模型,如Imagen(3B)、 DALL-E 2(5.5B)和Parti(20B),但目前還沒有觀察到關於模型大小的質量飽和度。
GigaGAN在COCO2014資料集上實作了9.09的zero-shot FID,低於DALL-E 2、Parti-750M和Stable Diffusion的FID
提示插值(Prompt interpolation)
#GigaGAN可以在提示之間平滑地插值,下圖中的四個角落是由同一潛碼生成,但有不同的文字提示。
解耦提示混合(Disentangled prompt mixing)
GigaGAN 保留了一個分離的潛空間,使得能夠將一個樣本的粗樣式與另一個樣本的精細樣式結合起來,並且GigaGAN 可以透過文字提示直接控制樣式。
粗到精風格交換(Coarse-to-fine sytle swapping)
#基於GAN 的模型架構保留了一個分離的潛在空間,使得能夠將一個樣本的粗樣式與另一個樣本的精樣式混合在一起。
參考資料:
https://mingukkang.github.io/GigaGAN/
以上是第一個超大規模GAN模型!生成速度比Diffusion快20+倍,0.13秒出圖,最高支援1600萬像素的詳細內容。更多資訊請關注PHP中文網其他相關文章!