傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性
- 論文網址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
- 作者單位:中國科學院計算技術研究所、上海交通大學、之江實驗室
研究背景及研究任務
生成對抗網路( GAN)已經在生成高解析度影像方面取得了巨大成功,而關於其可解釋性的研究也在近年來引起了廣泛關注。
在這一領域,如何令 GAN 學習出一個解耦的表徵仍是一項重大挑戰。所謂 GAN 的解耦表徵,即該表徵每個部分只影響生成圖像的特定方面。先前關於 GAN 解耦表徵的研究關注於不同的角度。
例如,在下圖 1 中,方法 1 解耦了圖像的結構和風格。方法 2 學習了影像中局部物件的特徵。方法 3 學習了圖像中屬性的解耦特徵,例如人臉圖像的年齡屬性和性別屬性。然而,這些研究未能在 GAN 中為不同的視覺概念(例如人臉的眼睛、鼻子和嘴巴等部分)提供一個清晰且符號化的表徵。
#圖1:與其他GAN 解耦表徵方法的視覺對比
為此,研究者提出了一種將傳統GAN 修改為可解釋GAN 的通用方法,該方法確保生成器中間層中的捲積核可以學習到解耦的局部視覺概念。具體地,如下圖2 所示,與傳統GAN 相比,可解釋GAN 中間層中的每個卷積核在生成不同圖像時始終代表一個特定的視覺概念,不同的捲積核則代表不同的視覺概念。
圖2:可解釋GAN 與傳統GAN 編碼表徵的視覺對比
#建模方法
可解釋GAN 的學習應滿足以下兩個目標:卷積核的可解釋性和產生圖像的真實性。
- 卷積核的可解釋性:研究者希望中間層的捲積核能夠自動學習有意義的視覺概念,而無需對任何視覺概念進行人工標註。具體來說,每個卷積核在生成不同影像時都應該穩定地產生對應於相同視覺概念的影像區域。不同的捲積核則應該產生對應於不同視覺概念的影像區域;
- 產生影像的真實性:可解釋 GAN 的生成器仍能產生逼真的影像。
為了確保目標層中卷積核的可解釋性,研究者註意到當多個卷積核產生與某個視覺概念對應的相似區域時,它們通常聯合代表了這個視覺概念。
因此,他們使用一組卷積核來共同表示一個特定的視覺概念,並使用不同組的捲積核來分別表示不同的視覺概念。
為了同時確保生成影像的真實性,研究者設計下述損失函數來將傳統的 GAN 修改為可解釋的 GAN。
#- 傳統GAN 的損失#:此損失用於確保產生影像的真實性;
- #卷積核分割損失:給定產生器,該損失用於找到卷積核的分割方式,使得同一組中的捲積核產生相似的影像區域。具體地,他們使用高斯混合模型(GMM) 來學習卷積核的劃分方式,以確保每組中卷積核的特徵圖具有相似的神經激活;
- ##能量模型真實性損失:給定目標層卷積核的劃分方式,強制同一組中的每個卷積核生成相同的視覺概念可能會降低生成圖像的質量。為了進一步確保生成影像的真實性,他們使用能量模型來輸出目標層中特徵圖的真實性機率,並採用極大似然估計來學習能量模型的參數;
- 卷積核可解釋性損失:給定目標層的捲積核分割方式,此損失用於進一步提升卷積核的可解釋性。具體地,該損失會使得同一組中的每個卷積核唯一地產生相同的影像區域,而不同組的捲積核則分別負責產生不同的影像區域。
在實驗中,研究者分別定性和定量地評估了他們的可解釋 GAN。
對於定性分析,他們將每個卷積核的特徵圖視覺化,以評估卷積核在不同影像上所所表示的視覺概念的一致性。如下圖 3 所示,在可解釋 GAN 中,每個卷積核在生成不同影像時始終會產生對應於相同視覺概念的影像區域,而不同的捲積核生成對應於不同視覺概念的影像區域。
#圖3:可解釋GAN 中特徵圖的視覺化
實驗中也比較了每組卷積核的組別中心和卷積核之間的感受野的區別,如下圖4(a)所示。圖 4(b)給出了可解釋 GAN 中不同視覺概念對應卷積核的數目比例。圖 4(c)則表示,當選擇劃分的捲積核組數不同時,組數越多的可解釋 GAN 學習到的視覺概念越詳盡。
圖4:可解釋GAN 的定性評估
可解釋GAN 也支援修改生成影像上特定的視覺概念。例如,可以透過交換可解釋層中相應的特徵圖,來實現圖像之間特定視覺概念的交互,即完成局部 / 全局換臉。
下圖 5 給出了在成對影像之間交換嘴、頭髮和鼻子的結果。最後一列給出了修改後的圖像和原始圖像之間的差異。此結果表明,研究者的方法只修改了局部的視覺概念,而沒有改變其他不相關的區域。
#圖5:交換產生圖片的特定視覺概念
#此外,下圖6 也給了他們的#方法在交換整張人臉時的效果# 。
#
圖6:交換產生圖片的整張臉人臉
#對於定量分析,研究者採用人臉驗證實驗來評估人臉交換結果的準確性。具體而言,給定一對人臉圖像,將原始圖像的人臉替換為來源圖像的人臉以產生修改後的圖像。然後,測試修改後影像的人臉和來源影像的人臉是否具有相同的身份。
下表1 給出了不同方法人臉驗證結果的準確性,他們的方法在身份保持方面優於其他的臉部交換方法。
#表1:換臉身分的準確度評估
#此外,實驗中也評估了方法在修改特定視覺概念時的局部性。具體來說,研究者計算了RGB 空間中原始影像和修改後影像之間的均方誤差(MSE),並以特定視覺概念的區域外MSE 和區域內MSE 的比值,作為局部性評估的實驗指標。
結果如下表2 所示,研究者的修改方法具有更好的局部性,即所修改視覺概念以外的圖片區域變化較少。
#表2:修改視覺概念的局部性評估
#更多的實驗結果參考論文。
總結
本工作提出了一種通用方法,可以在無需任何視覺概念的人工標註下,將傳統的 GAN 修改為可解釋的 GAN。在可解釋的 GAN 中,生成器中間層中的每個卷積核在生成不同影像時可以穩定地產生相同的視覺概念。
實驗表明,可解釋 GAN 也使得人們能夠在生成的圖像上修改特定的視覺概念,為 GAN 生成圖像的可控編輯方法提供了一個新的角度。
以上是傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi
