目錄
方法介紹
實驗
結論
首頁 科技週邊 人工智慧 無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

Apr 08, 2024 pm 04:52 PM
ai 訓練

近期,擴散模型憑藉其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇。基於擴散模型的文字轉影像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現了生成高品質影像的驚人能力。通常,這些模型在特定解析度下進行訓練,以確保在現有硬體上實現高效處理和精確的模型訓練。

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

圖 1 : 採用不同方法在 SDXL 1.0 下產生 2048×2048 影像的比較。 [1]

在這些擴散模型中,經常會出現模式重複和嚴重的人工偽影(artifacts)問題。例如圖1最左側所示。超出訓練解析度時,這些問題尤其突出。

來自香港中文大學商湯科技聯合實驗室等機構的研究人員在一篇論文中深入研究了擴散模型中常用的UNet結構的捲積層,並從頻域分析的角度提出了FouriScale,如圖2所示。

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

圖 2 FouriScale 的流程(橘色線)示意圖,目的是確保跨解析度的一致性。

透過引入空洞卷積操作和低通濾波操作來取代預訓練擴散模型中的原始卷積層,能夠在實現不同解析度下的結構和尺度一致性。搭配「填滿然後裁剪」策略,該方法能夠靈活產生符合不同尺寸和長寬比的影像。此外,借助FouriScale作為指導,該方法在生成任意尺寸的高解析度影像時,能夠保證完整的影像結構和卓越的影像品質。 FouriScale 無需任何離線預測運算,具有良好的相容性和可擴充性。

定量和定性實驗結果表明,FouriScale 在利用預訓練擴散模型生成高解析度影像方面取得了顯著提升。

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由


  • #論文網址:https://arxiv.org/abs/2403.12963
  • 開源程式碼:https://github.com/LeonHLJ/FouriScale
  • 論文標題:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

方法介紹

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

##1、空洞卷積保證跨解析度下的結構一致性無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

#擴散模型的去噪網路通常是在特定解析度的在影像或潛在空間上訓練的,這個網路通常採用U-Net 結構。作者的目標是在推理階段使用去噪網路的參數產生解析度更高的圖像,而無需重新訓練。為了避免推理解析度下的結構失真,作者嘗試在預設解析度和高解析度之間建立結構一致性。對於U-Net 中的捲積層,結構一致性可表述為:

#############其中k 是原本的捲積核,k' 是為更大解析度客製化的新卷積核。根據空間下取樣的頻域表示,如下:######################可以將公式(3)寫成:########## ############這個公式顯示了理想卷積核k' 的傅立葉頻譜應該是由s×s 個卷積核k 的傅立葉頻譜拼接而成的。換句話說,k' 的傅立葉頻譜應該有週期性重複,而這個重複模式是 k 的傅立葉頻譜。 ############廣泛使用的空洞卷積正好滿足這個要求。空洞卷積的頻域週期性可以用下式表示:######

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

當利用預訓練擴散模型(訓練解析度為(h,w))產生(H,W) 的高解析度影像時,空洞卷積的參數使用原始卷積核,擴張因子為(H/h, W/w),是理想的捲積核k'。

2、低通濾波保證跨解析度下的尺度一致性

然而,只利用空洞卷積無法完美解決問題,如圖3 左上角所示,只使用空洞卷積仍然在細節上存在模式重複的現象。作者認為這是因為空間下取樣的頻率混疊現象改變了頻域分量,導致了不同解析度下頻域分佈的差異。為了確保跨解析度下的尺度一致性,他們引入了低通濾波來過濾掉高頻分量,以去除空間下取樣後的頻率混疊問題。從圖 3 右側對比曲線可以看到,在使用低通濾波後,高低解析度下的頻率分佈更接近,從而保證了尺度一致。從圖 3 左下角圖看到,使用低通濾波後,細節的模式重複現像有明顯地改善。

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

圖 3 (a) 是否採用低通濾波的視覺對比。 (b)不採用低通濾波的傅立葉相對對數幅值曲線。 (c) 採用低通濾波的傅立葉相對對數振幅曲線。

3、適應任意尺寸的圖片產生

以上的方式只能適應於生成解析度與預設推理解析度的長寬比一致時,為了使FouriScale 適應於任意尺寸的圖像生成,作者採用了一種「填充然後裁剪」的方式,方法1 中展示了結合了該策略的FouriScale 的偽代碼.

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

4、FouriScale 引導

由於FouriScale 中的頻域操作,不可避免的使生成的影像出現了細節缺失與不期望的偽影問題。為了解決這個問題,如圖 4,作者提出了將 FouriScale 作為引導的方式。具體來說,在原本的條件產生估計值以及無條件產生估計的基礎上,他們引入一個額外的條件生成估計。這個額外的條件產生估計的生成過程同樣採用空洞卷積,但是使用更溫和的低通濾波,從而確保細節不會丟失。同時他們將利用FouriScale 輸出的條件生成估計中的注意力分數替換掉這一額外的條件生成估計中的注意力分數,由於注意力分數包含著生成圖像中的結構信息,這一操作將FouriScale 中正確的影像結構資訊引入,同時保證了影像品質。

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

圖 4 (a) FouriScale 引導示意圖。 (b)不採用 FouriScale 作為引導的生成影像,有明顯的偽影和細節錯誤。 (c) 採用 FouriScale 作為引導的生成影像。

實驗

1. 量化試驗結果

作者遵循[1] 的方法,測試了三個文生圖模型(包括SD 1.5,SD 2.1 和SDXL 1.0),產生四種更高解析度的圖像。測試的解析度是它們各自訓練解析度的 4 倍、6.25 倍、8 倍和 16 倍像素數量。在Laion-5B 上隨機取樣30000/10000 個圖文對測試的結果如表1 所示:

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

表1 不同的無訓練方法的量化結果比較

他們的方法在各個預訓練模型,不同解析度下都獲得了最優的結果。

2.定性試驗結果

#如圖5 所示,他們的方法在各個預訓練模型,不同解析度下都能夠確保影像產生品質與一致的結構。

無需訓練,這個新方法實現了生成圖像尺寸、解析度自由

圖5 不同的無訓練方法的生成圖像比較

結論

本文提出了FouriScale 用於增強預訓練擴散模型產生高解析度影像的能力。 FouriScale 從頻域分析出來,透過空洞卷積和低通濾波操作改善了不同解析度下的結構和尺度一致性,解決了重複模式和結構失真等關鍵挑戰。採用「填充然後裁剪」策略並利用 FouriScale 作為指導,增強了文字到圖像生成的靈活性和生成質量,同時適應了不同的長寬比生成。定量和定性的實驗對比表明,FouriScale 能夠在不同預訓練模型,不同解析度下都能夠保證更高的影像產生品質。

以上是無需訓練,這個新方法實現了生成圖像尺寸、解析度自由的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

幣圈行情實時數據免費平台推薦前十名發布 幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

okx在線  okx交易所官網在線 okx在線 okx交易所官網在線 Apr 22, 2025 am 06:45 AM

OKX 交易所的詳細介紹如下:1) 發展歷程:2017 年創辦,2022 年更名為 OKX;2) 總部位於塞舌爾;3) 業務範圍涵蓋多種交易產品,支持 350 多種加密貨幣;4) 用戶遍布 200 餘個國家,千萬級用戶量;5) 採用多重安全措施保障用戶資產;6) 交易費用基於做市商模式,費率隨交易量增加而降低;7) 曾獲多項榮譽,如“年度加密貨幣交易所”等。

各大虛擬貨幣交易平台的特色服務一覽 各大虛擬貨幣交易平台的特色服務一覽 Apr 22, 2025 am 08:09 AM

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase,啟用多重驗證,資產自託管可減少依賴:1. 選擇有監管牌照的交易所;2. 開啟2FA和提幣白名單;3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易app容易上手的推薦top10(025年最新排名) 數字貨幣交易app容易上手的推薦top10(025年最新排名) Apr 22, 2025 am 07:45 AM

gate.io(全球版)核心優勢是界面極簡,支持中文,法幣交易流程直觀;幣安(簡版)核心優勢是全球交易量第一,簡版模式僅保留現貨交易;OKX(香港版)核心優勢是界面簡潔,支持粵語/普通話,衍生品交易門檻低;火幣全球站(香港版)核心優勢是老牌交易所,推出元宇宙交易終端;KuCoin(中文社區版)核心優勢是支持800 幣種,界面採用微信式交互;Kraken(香港版)核心優勢是美國老牌交易所,持有香港SVF牌照,界面簡潔;HashKey Exchange(香港持牌)核心優勢是香港知名持牌交易所,支持法

幣圈十大行情網站的使用技巧與推薦2025 幣圈十大行情網站的使用技巧與推薦2025 Apr 22, 2025 am 08:03 AM

國內用戶適配方案包括合規渠道和本地化工具。 1. 合規渠道:通過OTC平台如Circle Trade進行法幣兌換,境內需通過香港或海外平台。 2. 本地化工具:使用幣圈網獲取中文資訊,火幣全球站提供元宇宙交易終端。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

See all articles