ACM MM 2023 | DiffBFR: 美圖&國科大聯合提出的噪音抑制人臉修復方法
盲人臉恢復(Blind Face Restoration, BFR)的目標是從低品質的人臉影像中恢復高品質的人臉影像。這是電腦視覺和圖形學領域的一項重要任務,在監控影像修復、舊照片修復和人臉影像超解析度等多種場景中得到廣泛應用
然而,這個任務非常具有挑戰性,因為不確定性的退化會損害影像的質量,甚至會導致影像資訊的遺失,例如模糊、雜訊、下取樣和壓縮偽影等問題。先前的BFR方法通常依賴生成對抗網路(GAN),透過設計各種特定於人臉的先驗來解決這些問題,包括生成先驗、參考先驗和幾何先驗。儘管這些方法已經達到了最先進的水平,但仍然無法完全實現在恢復細節的同時獲得逼真紋理的目標
在圖像修復過程中,人臉圖像的數據集通常分散在高維空間中,且分佈的特徵維度呈現長尾分佈形式。與影像分類任務的長尾分佈不同,影像修復中的長尾區域特徵指的是對身分認同影響較小,而對視覺效果影響很大的屬性,例如痣、皺紋和色調等等
#根據圖1所示的簡單為了不改變原始意義,需要將實驗結果重寫為中文,我們可以發現過去基於GAN的方法在同時處理長尾分佈頭部和尾部樣本時存在明顯的問題,修復圖像時會出現過度平滑和細節消失的情況。而基於擴散機率模型(Diffusion Probistic Models, DPM)的方法則能夠更好地擬合長尾分佈,並在擬合真實資料分佈的同時保留尾部特徵
需要進行重寫的內容是:在長尾問題上進行的GAN-based和DPM-based的測試
美圖影像研究院(MT Lab)與中國科學院大學的研究者合作提出了一種新的盲人臉影像修復方法DiffBFR,該方法基於DPM技術,成功實現了盲人臉影像的恢復,將低品質(LQ)的人臉影像修復為高品質(HQ)的清晰圖像
需要重新寫作的內容是:論文連結:https://arxiv.org/abs/2305.04517
這項研究探索了生成對抗網路(GAN)和深度部分模型(DPM)兩種生成式模型在處理長尾問題時的適應性。透過設計適當的人臉修復模組,可以獲得更準確的細節訊息,從而減少生成式方法中可能出現的臉部過度平滑現象,提高修復的精確度和準確性。研究論文已被ACM MM 2023 接收
基於DPM 的盲臉影像修復方法- DiffBFR
研究發現,擴散模型在避免訓練模式崩潰和擬合產生長尾分佈方面優於GAN 方法。因此,DiffBFR選擇利用擴散機率模型來增強人臉先驗資訊的嵌入,並以此為基本框架選擇DPM作為解決方案。這是因為擴散模型具有在任意分佈範圍內產生高品質影像的強大能力
為了解決論文中發現的人臉資料集上的特徵長尾分佈以及過去基於GAN 方法的過平滑問題,該研究探討了合理的設計來更好地擬合近似長尾分佈,並克服修復過程中的過平滑問題。透過在MNIST 資料集上進行了相同參數大小的GAN 和DPM 的簡單實驗(如圖1),研究發現DPM 方法能夠合理地擬合長尾分佈,而GAN 則過度關注頭部特徵而忽略尾部特徵,導致尾部特徵無法生成。因此,選擇 DPM 作為 BFR 的一種解決方案
透過引入兩個中間變量,DiffBFR 提出了兩個特定的修復模組。設計採用兩階段的方式,首先從LQ影像中恢復身份訊息,然後根據真實人臉的分佈增強紋理細節。這個設計由兩個關鍵部分組成:
(1)身分恢復模組(Identity Restoration Module, IRM):
這個模組的目的是保留結果中的人臉細節。同時,提出了一種截斷取樣方法,透過向低品質影像中加入部分噪聲,取代了在反向過程中使用純高斯隨機分佈去噪的方法。論文從理論上證明了這種變化縮小了DPM的理論證據下界(ELBO),從而恢復了更多原始細節。基於理論證明,引入了兩個級聯條件擴散模型,這些模型具有不同的輸入大小,以增強取樣效果,並降低直接產生高解析度影像的訓練難度。同時進一步證明,條件輸入的品質越高,越接近真實資料分佈,恢復的影像越準確。這也是DiffBFR首先恢復低解析度影像的原因
(2)紋理增強模組(Texture Enhancement Module, TEM):
#用於紋理打磨影像的方法是引入一個無條件擴散模型。這個模型與低品質影像完全無關,進一步使得恢復的結果更接近真實影像資料。論文從理論上證明了在純高品質影像上訓練的無條件擴散模型有助於在像素級空間中輸出影像的正確分佈。也就是說,使用這個模型後,修復影像的分佈的 FID 比使用之前的 FID 更低,整體上與高品質影像的分佈更相似。具體來說,就是透過時間步長截斷採樣來保留身份信息,並對像素級紋理進行打磨
DiffBFR的採樣推理步驟如圖2所示,採樣推理過程示意圖如圖3所示
需要進行改寫的內容是:圖2展示了DiffBFR方法的取樣推理步驟
需要進行改寫的內容是:圖3 展示了DiffBFR 方法的取樣推理過程示意圖
為了不改變原始意義,需要將實驗結果重寫為中文
比較了基於GAN的BFR方法和基於DPM的方法的視覺化效果,如圖4所示
對於圖5,對於BFR 的SOTA 方法的性能進行了比較
##BFR方法的視覺化效果比較如圖6所示
在模型中,我們可以透過視覺化來比較IRM和TEM的效能
在模型中,對IRM和TEM進行了效能比較,如圖8所示
需要進行改寫的內容是:比較不同參數下的圖9的IRM效能
#對於圖10,我們需要比較不同參數的效能
#需要重新寫的內容是:圖11顯示了DiffBFR各個模組的參數設定
總結是將訊息或觀點以簡潔明了的方式重新表達的過程。它不改變原始意思,而是透過使用不同的詞彙和句子結構來呈現相同的思想。總結的目的是提供更清晰、更簡潔的表達方式,使讀者更容易理解和消化所傳達的訊息。總結在各種場合都有用處,無論是在學術論文中、商業報告中或日常交流中,都可以透過總結來傳達重要的觀點和結論。總之,總結是一種重要的溝通工具,能夠幫助我們更有效地傳達和理解訊息
本論文提出了一種基於擴散模型的盲退化人臉圖像恢復模型DiffBFR,以解決以往基於GAN方法的訓練模式崩潰和長尾消失問題。透過將先驗知識嵌入到擴散模型中,能夠從隨機嚴重退化的人臉影像中產生高品質、清晰的恢復影像。具體來說,本研究提出了IRM和TEM兩個模組,分別用於恢復真實感和細節還原。透過理論推導和實驗圖像演示,證明了該模型的優越性,並與現有的最先進方法進行了定性和定量比較需要重寫的內容是:研究團隊
這篇論文是由美圖影像研究院(MT Lab)和中國科學院大學的研究者們共同提出的。美圖影像研究院(MT Lab)成立於2010年,是美圖公司專注於電腦視覺、深度學習、擴增實境等領域演算法研究、工程開發和產品化落地的團隊。自成立以來,該團隊一直致力於電腦視覺領域的探索研究,並於2013年開始佈局深度學習,為美圖旗下的軟硬體產品提供技術支援。同時,他們也為影像產業內的多個垂直領域提供針對性的SaaS服務,透過前沿的影像技術推動美圖的人工智慧產品生態發展。他們曾參與CVPR、ICCV、ECCV等國際頂尖賽事,並獲得了十餘項冠軍和亞軍,發表了超過48篇國際頂尖學術會議論文。美圖影像研究院(MT Lab)長期致力於影像領域的研發,已經累積了豐富的技術儲備,在圖片、影片、設計和數位人領域具有豐富的技術落地經驗
以上是ACM MM 2023 | DiffBFR: 美圖&國科大聯合提出的噪音抑制人臉修復方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为乾崑ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为乾崑ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

上個月,一加發布了首款搭載驍龍8Gen3的平板電腦:一加平板Pro,現據最新消息,這款平板的"換娃"版本OPPOPad3也即將發布。上圖為OPPOPad2據數位閒聊站透露:OPPOPad3外觀配置與一加平板Pro完全一致配色:金色、藍色(區別於一加的綠色和深灰)存儲版本:8/12/16GB+512GB發布日期:今年第四季(10-12月)同期新品:FindX8系列旗艦ColorOS15EncoX3作為補充:一加平板Pro主要配置:螢幕:12.1英寸,3200*2120分辨率,

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

全新蔚來NIOPhone(NIOPhone2)將於7月27日發表。隨著發佈時間逐漸臨近,7月24日,蔚來汽車科技(安徽)有限公司副總裁白劍,回答了網友關於NIOPhone關心的最多的兩個問題。 NIOPhone"蔚來為什麼要堅持做手機?"類似的問題,幾乎穩定出現在所有和全新NIOPhone相關的內容評論區。白劍回應稱,做手機這件事,蔚來很早就開始思考和佈局了,並不是一時興起,更不是像某些人所說,因為一些手機品牌都開始做車了。白劍爆料全新NIOPhone"智慧型汽車與手機
