GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion
影像生成是目前 AIGC 領域最熱門的方向之一。近期發布的影像生成模型如 DALL・E 2、Imagen、Stable Diffusion 等等,開創了影像生成的新時代,實現了前所未有的影像品質和模型靈活性水準。擴散模型也成為目前主導的典範。然而,擴散模型依賴迭代推理,這是一把雙刃劍,因為迭代方法可以實現具有簡單目標的穩定訓練,但推理過程需要高昂的計算成本。
在擴散模型之前,生成對抗網路(GAN)是影像生成模型中常用的基礎架構。相較於擴散模型,GAN 透過單一前向傳遞產生影像,因此本質上是更有效率的,但由於訓練過程的不穩定性,擴展 GAN 需要仔細調整網路架構和訓練因素。因此,GAN 擅長對單一或多個物件類別進行建模,但擴展到複雜資料集(更不用說現實世界)則極具挑戰性。因此,超大型模型、數據和計算資源現在都專用於擴散模型和自回歸模型。
但作為一種高效的生成方法,許多研究者並沒有完全放棄 GAN 方法。例如,最近英偉達提出了 StyleGAN-T 模型;港中文等用基於 GAN 的方法生成流暢視頻,這些都是 CV 研究者在 GAN 上做的進一步嘗試。
現在,在一篇CVPR 2023 論文中,來自POSTECH、卡內基美隆大學和Adobe 研究院的研究者們共同探討了關於GAN 的幾個重要問題,包括:
- #GAN 能否繼續擴大規模並從大量資源中受益,GAN 遇到瓶頸了嗎?
- 是什麼阻止了 GAN 的進一步擴展,我們能否克服這些障礙?
- #論文連結:https://arxiv.org/abs/2303.05511
- 專案連結:https://mingukkang.github.io/GigaGAN/
# #值得注意的是,CycleGAN 的主要作者、曾獲2018 年ACM SIGGRAPH 最佳博士論文獎的朱俊彥是這篇CVPR 論文的第二作者。
該研究首先使用 StyleGAN2 進行實驗,並觀察到簡單地擴展主幹網路會導致訓練不穩定。基於此,研究者確定了幾個關鍵問題,並提出了一種在增加模型容量的同時穩定訓練的技術。
首先,該研究透過保留一組濾波器(filter)並採用特定於樣本的線性組合來有效地擴展生成器的容量。該研究也採用了擴散上下文(diffusion context)中常用的幾種技術,並證實它們為 GAN 帶來了類似的好處。例如,將自註意力(僅圖像)和交叉注意力(圖像 - 文字)與卷積層交織在一起可以提高模型性能。
該研究還重新引入了多尺度訓練,並提出一種新方案來改進圖像 - 文字對齊和生成輸出的低頻細節。多尺度訓練允許基於 GAN 的生成器更有效地使用低解析度區塊中的參數,從而實現了更好的影像 - 文字對齊和影像品質。經過仔細調整後,研究提出了十億參數的新模型 GigaGAN,並在大型資料集(例如 LAION2B-en)上實現了穩定且可擴展的訓練,實驗結果如下圖 1 所示。
此外,研究也採用了多階段方法[14, 104],首先以64 × 64 的低解析度產生影像,然後再上取樣到512 × 512 解析度。這兩個網路是模組化的,而且足夠強大,能夠以即插即用的方式使用。
該研究表明,基於文字條件的 GAN 上採樣網路可以用作基礎擴散模型的高效且更高品質的上採樣器,如下圖 2 和圖 3 所示。
上述改進使GigaGAN 遠遠超越了以前的GAN:比StyleGAN2 大36 倍,比StyleGAN-XL 和XMC-GAN 大6 倍。雖然GigaGAN 十億(1B)的參數量仍然低於近期的大型合成模型,例如Imagen (3.0B)、DALL・E 2 (5.5B) 和Parti (20B),但研究者表示他們尚未觀察到關於模型大小的質量飽和。
GigaGAN 在 COCO2014 資料集上實作了 9.09 的零樣本 FID,低於 DALL・E 2、Parti-750M 和 Stable Diffusion。
此外,與擴散模型和自回歸模型相比,GigaGAN 具有三大實用優勢。首先,它的速度快了幾十倍,在 0.13 秒內產生了 512 像素的影像(圖 1)。其次,它可以在 3.66 秒內合成 4k 解析度的超高解析度影像。第三,它具有可控的潛在向量空間,適用於經過充分研究的可控影像合成應用,例如風格混合(圖 6)、prompt 插值(圖 7)和 prompt 混合(圖 8)。
該研究成功地在數十億現實世界圖像上訓練了基於GAN 的十億參數規模模型GigaGAN。這表明 GAN 仍然是文字到圖像合成的可行選擇,研究人員應考慮將其用於未來的積極擴展。
方法概覽
研究者訓練了一個生成器G (z, c),在給定一個潛在編碼z∼N (0, 1)∈R ^128 和文字調節訊號c 的情況下,預測一個影像x∈R^(H×W×3)。他們使用一個判別器 D (x, c) 來判斷生成的圖像的真實性,與訓練資料庫 D 中的樣本相比較,後者包含圖像 - 文字對。
儘管 GAN 可以成功地在單類別和多類別資料集上產生真實的影像,但在網路影像上進行開放式文字條件合成仍然面臨挑戰。研究者假設,目前的限制源自於其對卷積層的依賴。也就是說,同樣的捲積濾波器被用來為圖像所有位置上的所有文字條件進行通用圖像合成函數建模,這是一個挑戰。有鑑於此,研究者試圖透過根據輸入條件動態選擇卷積濾波器,並透過注意力機制捕捉長程依賴,為參數化注入更多的表現力。
GigaGAN 高容量文字 - 影像產生器如下圖 4 所示。首先,研究者使用預先訓練的 CLIP 模型和學習過的編碼器 T 來提取文本嵌入。使用交叉注意力將局部文字描述符提供給生成器。全域文字描述符,連同潛在編碼 z,被送入風格映射網路 M 以產生風格碼 w。風格碼使用論文中的風格 - 自適應內核選擇調節主生成器,如右側所示。
生成器透過將中間特徵轉換為 RGB 影像來輸出一個影像金字塔。為了達到更高的容量,研究者在每個尺度上使用多個注意力層和卷積層(附錄 A2)。他們還使用了一個單獨的上採樣器模型,該模型未在此圖中顯示。
判別器由兩個分支組成,用於處理影像和文字調節 t_D。文字分支對文字的處理與生成器類似(圖 4)。影像分支接收一個影像金字塔,並對每個影像尺度進行獨立預測。此外,預測是在下採樣層的所有後續尺度上進行的,這使得它成為一個多尺度輸入、多尺度輸出(MS-I/O)的判別器。
在論文中,作者記錄了五個不同的實驗。
在第一個實驗中,他們透過逐一納入每個技術組件來展示所提方法的有效性。
在第二個實驗中,他們測試了模型文生圖的能力,結果顯示,GigaGAN 表現出與Stable Diffusion(SD-v1.5)相當的FID,同時產生的結果比擴散或自迴歸模型快得多。
在第三個實驗中,他們將GigaGAN 與基於蒸餾的擴散模型進行比較,結果顯示,GigaGAN 能比基於蒸餾的擴散模型更快合成更高品質的圖像。
在第四個實驗中,他們驗證了GigaGAN 的上取樣器在有條件和無條件的超分辨率任務中相比其他上採樣器的優勢。
#最後,他們展示了自己提出的大規模GAN 模型仍然享受GAN 的連續和解糾纏的潛在空間操作,從而實現了新的圖像編輯模式。圖表請參考上文中的圖 6 和圖 8。
以上是GAN的反擊:朱俊彥CVPR新作GigaGAN,出圖速度秒殺Stable Diffusion的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
