2D影像腦補3D人體,衣服隨便搭,還能改動作
得益於 NeRF 提供的可微渲染,近期的三維生成模型已經在靜止物體上達到了很驚豔的效果。但是在人體這種更複雜且可形變的類別上,三維生成依舊有很大的挑戰。本文提出了一個高效的組合的人體 NeRF 表達,實現了高分辨率(512x256)的三維人體生成,並且沒有使用超分模型。 EVA3D 在四個大型人體資料集上都大幅超越了現有方案,程式碼已開源。
- 論文名稱:EVA3D: Compositional 3D Human Generation from 2D image Collections
- 論文網址:https://arxiv.org/abs/2210.04888
- 專案首頁:https://hongfz16.github.io/projects/EVA3D.html
- 程式碼開源:https://github.com/hongfz16/EVA3D
- Colab Demo:https://colab.research.google. com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb
- Hugging Face Demo:https://huggingface.co/spaces/hongfz16/EVA3D
背景
利用NeRF 提供的可微渲染演算法,三維產生演算法,例如EG3D、StyleSDF,在靜態物件類別的生成上已經有了非常好的效果。但是人體相較於人臉或 CAD 模型等類別,在外觀和幾何上有更大的複雜度,並且人體是可形變的,因此從二維圖片中學習三維人體生成仍然是非常困難的任務。研究人員在這個任務上已經有了一些嘗試,例如 ENARF-GAN、GNARF,但是受限於低效的人體表達,他們無法實現高分辨率的生成,因此生成質量也非常低。
為了解決這個問題,本文提出了高效的組合的三維人體 NeRF 表示,用以實現高分辨率的(512x256)三維人體 GAN 訓練與生成。以下將介紹本文提出的人體 NeRF 表示,以及三維人體 GAN 訓練框架。
高效的人體 NeRF 表示
本文提出的人體 NeRF 是基於參數化人體模型 SMPL,它提供了方便的人體姿勢以及形狀的控制。進行 NeRF 建模時,如下圖所示,本文將人體分為 16 個部分。每一個部分對應於一個小的 NeRF 網路進行局部的建模。在渲染每一個局部的時候,本文只需要推理局部 NeRF。這種稀疏的渲染方式,在較低的運算資源下,也可以實現原生高解析度的渲染。
例如,渲染體型動作參數分別為的人體時,首先根據相機參數採樣光線;光線上的採樣點根據與SMPL 模型的相對關係進行反向蒙皮操作( inverse linear blend skinning),將posed 空間中的取樣點轉換到canonical 空間。接著計算Canonical 空間的取樣點屬於某個或某幾個局部NeRF 的bounding box 中,再進行NeRF 模型的推理,得到每個取樣點對應的顏色與密度;當某個取樣點落到多個局部NeRF的重疊區域,則會對每個NeRF 模型進行推理,將多個結果用window function 進行插值;最後這些資訊被用於光線的積分,得到最終的渲染圖。
三維人體 GAN 框架
基於提出的高效能的人體 NeRF 表達,本文實現了三維人體 GAN 訓練框架。在每一次訓練迭代中,本文首先從資料集中取樣一個 SMPL 的參數以及相機參數,並隨機產生一個高斯雜訊 z。利用本文所提出的人體 NeRF,本文可以將採樣的參數渲染成一張二維人體圖片,作為假樣本。再利用資料集中的真實樣本,本文進行 GAN 的對抗訓練。
極度不平衡的資料集
二維人體資料集,例如DeepFashion,通常是為二維視覺任務準備的,因此人體的姿態多樣性非常受限。為了量化不平衡的程度,本文統計了 DeepFashion 中模特兒臉部朝向的頻率。如下圖所示,橙色的線代表了 DeepFashion 中人臉朝向的分佈,可見是極度不平衡的,對於學習三維人體表徵造成了困難。為了緩解這個問題,我們提出了由人體姿態指導的採樣方式,將分佈曲線拉平,如下圖中其他顏色的線所示。這可以讓訓練過程中的模型看到更多樣化以及更大角度的人體圖片,從而幫助三維人體幾何的學習。我們對採樣參數進行了實驗分析,從下面的表格中可見,加上人體姿態指導的採樣方式後,雖然影像品質(FID)會有些微下降,但學出的三維幾何(Depth)顯著變好。
高品質的生成結果
下圖展示了一些EVA3D 的生成結果,EVA3D 可以隨機採樣人體樣貌,並可控制渲染相機參數,人體姿勢以及體型。
本文在四個大規模人體資料集上進行了實驗,分別是DeepFashion,SHHQ,UBCFashion,AIST 。該研究比較了最先進的靜態三維物體生成演算法 EG3D 與 StyleSDF。同時研究者也比較了專門針對三維人產生的演算法 ENARF-GAN。在指標的選擇上,本文兼顧渲染品質的評估(FID/KID)、人體控制的準確度(PCK)以及幾何生成的品質(Depth)。如下圖所示,本文在所有資料集,所有指標上均大幅超越先前的方案。
應用潛力
最後,本文也展現了 EVA3D 的一些應用潛力。首先,研究測試了在隱空間中進行差值。如下圖所示,本文能夠在兩個三維人之間進行平滑的變化,且中間結果都保持較高的品質。此外,本文也進行了 GAN inversion 的實驗,研究者使用二維 GAN inversion 中常用的演算法 Pivotal Tuning Inversion。如下面右圖所示,此方法可以較好的還原重建目標的外觀,但是幾何部分失去了許多細節。可見,三維 GAN 的 inversion 仍然是一個很有挑戰性的任務。
結語
#本文提出了首個高清三維人體NeRF 產生演算法EVA3D,並且僅需使用二維人體圖像資料即可訓練。 EVA3D 在多個大規模人體資料集上表現達到最佳,並且展現出了在下游任務上進行應用的潛力。 EVA3D 的訓練與測試程式碼都已經開源,歡迎大家去試用!
以上是2D影像腦補3D人體,衣服隨便搭,還能改動作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

<p>Windows 11 改進了系統中的個人化功能,這使用戶可以查看先前所做的桌面背景變更的近期歷史記錄。當您進入windows系統設定應用程式中的個人化部分時,您可以看到各種選項,而更改背景桌布也是其中之一。但是現在可以看到您系統上設置的背景壁紙的最新歷史。如果您不喜歡看到此內容並想清除或刪除此最近的歷史記錄,請繼續閱讀這篇文章,它將幫助您詳細了解如何使用註冊表編輯器進行操作。 </p><h2>如何使用登錄編輯

窗戶從來不是一個忽視美學的人。從XP的田園綠場到Windows11的藍色漩渦設計,預設桌面桌布多年來一直是用戶愉悅的來源。借助WindowsSpotlight,您現在每天都可以直接存取鎖定螢幕和桌面桌布的美麗、令人敬畏的圖像。不幸的是,這些圖像並沒有閒逛。如果您愛上了Windows聚光燈圖像之一,那麼您將想知道如何下載它們,以便將它們作為背景保留一段時間。以下是您需要了解的所有資訊。什麼是WindowsSpotlight?窗口聚光燈是一個自動壁紙更新程序,可以從“設定”應用中的“個性化>

隨著人工智慧技術的不斷發展,影像語意分割技術已成為影像分析領域的熱門研究方向。在影像語意分割中,我們將一張影像中的不同區域進行分割,並對每個區域進行分類,從而達到對這張影像的全面理解。 Python是一種著名的程式語言,其強大的資料分析和資料視覺化能力使其成為了人工智慧技術研究領域的首選。本文將介紹如何在Python中使用影像語意分割技術。一、前置知識在深入

那些必須每天處理圖像檔案的人經常不得不調整它們的大小以適應他們的專案和工作的需求。但是,如果要處理的圖像太多,則單獨調整它們的大小會消耗大量時間和精力。在這種情況下,像PowerToys這樣的工具可以派上用場,除此之外,可以使用其影像調整大小器實用程式批次調整影像檔案的大小。以下是設定影像調整器設定並開始使用PowerToys批次調整影像大小的方法。如何使用PowerToys批次調整影像大小PowerToys是一個多合一的程序,具有各種實用程式和功能,可協助您加快日常任務。它的實用程式之一是圖像

透過iOS17照片應用,Apple可以更輕鬆地根據您的規格裁剪照片。繼續閱讀以了解如何操作。以前在iOS16中,在「照片」應用程式中裁剪圖像涉及幾個步驟:點擊編輯介面,選擇裁剪工具,然後透過捏合縮放手勢或拖曳裁剪工具的角落來調整裁剪。在iOS17中,值得慶幸的是,蘋果簡化了這個過程,這樣當你放大照片庫中任何選定的照片時,一個新的「裁剪」按鈕會自動出現在螢幕的右上角。點擊它會彈出完整的裁剪介面,其中包含您選擇的縮放級別,因此您可以裁剪到您喜歡的圖像部分,旋轉圖像,反轉圖像,或應用螢幕比例,或使用標記

由於 NeRF 提供的可微渲染,近期的三維生成模型已經在靜止物體上達到了令人驚豔的效果。但是在人體這種更複雜且可形變的類別上,三維生成依舊有很大的挑戰。本文提出了一個高效的組合的人體 NeRF 表達,實現了高分辨率(512x256)的三維人體生成,並且沒有使用超分模型。 EVA3D 在四個大型人體資料集上都大幅超越了現有方案,程式碼已開源。論文名稱:EVA3D: Compositional 3D Human Generation from 2D image Collections論文地址:http

新視角影像生成(NVS)是電腦視覺的一個應用領域,在1998年SuperBowl的比賽,CMU的RI曾展示過給定多攝像頭立體視覺(MVS)的NVS,當時這個技術曾轉讓給美國一家體育電視台,但最終沒有商業化;英國BBC廣播公司為此做過研發投入,但是沒有真正產品化。在基於影像渲染(IBR)領域,NVS應用有一個分支,即基於深度影像的渲染(DBIR)。另外,在2010年曾經很火熱的3D TV,也是需要從單眼影片中得到雙眼立體,但是由於技術的不成熟,最終沒有流行起來。當時基於機器學習的方法已經開始研究,比

行動攝影從根本上改變了我們捕捉和分享生活瞬間的方法。智慧型手機的出現,尤其是iPhone,在這一轉變中發揮了關鍵作用。 iPhone以其先進的相機技術和用戶友好的編輯功能而聞名,已成為業餘和經驗豐富的攝影師的首選。 iOS17的推出標誌著這趟旅程中的一個重要里程碑。 Apple的最新更新帶來了一套增強的照片編輯功能,為用戶提供了一個更強大的工具包,將他們的日常快照變成視覺上引人入勝且藝術豐富的圖像。這種技術的發展不僅簡化了攝影過程,還為創意表達開闢了新的途徑,使用戶能夠毫不費力地為他們的照片注入專業氣息
