生成對抗網路( GAN)已經在生成高解析度影像方面取得了巨大成功,而關於其可解釋性的研究也在近年來引起了廣泛關注。
在這一領域,如何令 GAN 學習出一個解耦的表徵仍是一項重大挑戰。所謂 GAN 的解耦表徵,即該表徵每個部分只影響生成圖像的特定方面。先前關於 GAN 解耦表徵的研究關注於不同的角度。
例如,在下圖 1 中,方法 1 解耦了圖像的結構和風格。方法 2 學習了影像中局部物件的特徵。方法 3 學習了圖像中屬性的解耦特徵,例如人臉圖像的年齡屬性和性別屬性。然而,這些研究未能在 GAN 中為不同的視覺概念(例如人臉的眼睛、鼻子和嘴巴等部分)提供一個清晰且符號化的表徵。
#圖1:與其他GAN 解耦表徵方法的視覺對比
為此,研究者提出了一種將傳統GAN 修改為可解釋GAN 的通用方法,該方法確保生成器中間層中的捲積核可以學習到解耦的局部視覺概念。具體地,如下圖2 所示,與傳統GAN 相比,可解釋GAN 中間層中的每個卷積核在生成不同圖像時始終代表一個特定的視覺概念,不同的捲積核則代表不同的視覺概念。
圖2:可解釋GAN 與傳統GAN 編碼表徵的視覺對比
可解釋GAN 的學習應滿足以下兩個目標:卷積核的可解釋性和產生圖像的真實性。
為了確保目標層中卷積核的可解釋性,研究者註意到當多個卷積核產生與某個視覺概念對應的相似區域時,它們通常聯合代表了這個視覺概念。
因此,他們使用一組卷積核來共同表示一個特定的視覺概念,並使用不同組的捲積核來分別表示不同的視覺概念。
為了同時確保生成影像的真實性,研究者設計下述損失函數來將傳統的 GAN 修改為可解釋的 GAN。
#在實驗中,研究者分別定性和定量地評估了他們的可解釋 GAN。
對於定性分析,他們將每個卷積核的特徵圖視覺化,以評估卷積核在不同影像上所所表示的視覺概念的一致性。如下圖 3 所示,在可解釋 GAN 中,每個卷積核在生成不同影像時始終會產生對應於相同視覺概念的影像區域,而不同的捲積核生成對應於不同視覺概念的影像區域。
#圖3:可解釋GAN 中特徵圖的視覺化
實驗中也比較了每組卷積核的組別中心和卷積核之間的感受野的區別,如下圖4(a)所示。圖 4(b)給出了可解釋 GAN 中不同視覺概念對應卷積核的數目比例。圖 4(c)則表示,當選擇劃分的捲積核組數不同時,組數越多的可解釋 GAN 學習到的視覺概念越詳盡。
圖4:可解釋GAN 的定性評估
可解釋GAN 也支援修改生成影像上特定的視覺概念。例如,可以透過交換可解釋層中相應的特徵圖,來實現圖像之間特定視覺概念的交互,即完成局部 / 全局換臉。
下圖 5 給出了在成對影像之間交換嘴、頭髮和鼻子的結果。最後一列給出了修改後的圖像和原始圖像之間的差異。此結果表明,研究者的方法只修改了局部的視覺概念,而沒有改變其他不相關的區域。
#圖5:交換產生圖片的特定視覺概念
#此外,下圖6 也給了他們的#方法在交換整張人臉時的效果# 。
#
圖6:交換產生圖片的整張臉人臉
#對於定量分析,研究者採用人臉驗證實驗來評估人臉交換結果的準確性。具體而言,給定一對人臉圖像,將原始圖像的人臉替換為來源圖像的人臉以產生修改後的圖像。然後,測試修改後影像的人臉和來源影像的人臉是否具有相同的身份。
下表1 給出了不同方法人臉驗證結果的準確性,他們的方法在身份保持方面優於其他的臉部交換方法。
#表1:換臉身分的準確度評估
#此外,實驗中也評估了方法在修改特定視覺概念時的局部性。具體來說,研究者計算了RGB 空間中原始影像和修改後影像之間的均方誤差(MSE),並以特定視覺概念的區域外MSE 和區域內MSE 的比值,作為局部性評估的實驗指標。
結果如下表2 所示,研究者的修改方法具有更好的局部性,即所修改視覺概念以外的圖片區域變化較少。
#表2:修改視覺概念的局部性評估
#更多的實驗結果參考論文。
本工作提出了一種通用方法,可以在無需任何視覺概念的人工標註下,將傳統的 GAN 修改為可解釋的 GAN。在可解釋的 GAN 中,生成器中間層中的每個卷積核在生成不同影像時可以穩定地產生相同的視覺概念。
實驗表明,可解釋 GAN 也使得人們能夠在生成的圖像上修改特定的視覺概念,為 GAN 生成圖像的可控編輯方法提供了一個新的角度。
以上是傳統GAN修改後可解釋,並確保卷積核可解釋性和生成影像真實性的詳細內容。更多資訊請關注PHP中文網其他相關文章!