一句話讓三維模型生成逼真外觀風格,精細到照片級細節
根據給定輸入建立 3D 內容(例如,根據文字提示、圖像或 3D 形狀)在電腦視覺和圖形領域具有重要應用。然而這個問題是具有挑戰性的,現實中通常需要專業藝術家(Technical Artist)耗費大量的時間成本來創作 3D 內容。同時,許多網路上的三維模型庫中的資源通常是沒有任何材質的裸露三維模型,要想將他們應用到現階段的渲染引擎中,需要Technical Artist 為它們創作高品質的材質,燈光和法向貼圖。因此,如果有辦法可以實現自動化、多樣化和逼真的三維模型資產生成,將會是很有前景的。
因此,華南理工大學、香港理工大學、跨維智能、鵬城實驗室等機構的研究團隊提出了一種基於文本驅動的三維模型風格化方法-TANGO,該方法對於給定的三維模型和文本,可以自動產生更具真實性的SVBRDF 材質,法向貼圖和燈光,並且對低品質三維模型有更好的穩健性。該研究已被 NeurIPS 2022 接收。
#專案首頁:https://cyw-3d.github.io/tango/
模型效果
對於給定的文字輸入和三維模型,TANGO 可以產生精細程度較高的具有照片級真實感的細節,並且不會在三維模型表面產生自交問題。如下圖1 所示, TANGO 不僅在光滑的材料(如金,銀等材質)上呈現出了逼真的反射效果,而且對於不平整的材質(例如磚塊等)也能通過逐點法線的估計渲染出凹凸不平的效果。
圖1. TANGO 的風格化結果
TANGO 能夠生成真實渲染結果的關鍵在於能夠精準地把著色模型中的每一個部件(SVBRDF,法向貼圖,燈光)拆分開,並分別學習,最後這些拆分的部件再通過球高斯可微分渲染器輸出圖片,並送到CLIP 中和輸入文字計算loss。為了展現解耦部件的合理性,該研究對每個部件都進行了視覺化。圖2 (a)展示了「一雙磚塊做成的鞋子」 的風格化結果,(b)展示了三維模型原本的法向,(c)是TANGO 對三維模型上每個點預測的法向, (d)(e)(f)分別表示SVBRDF 中的漫反射,粗糙度和鏡面反射參數,(g)是TANGO預測的用球高斯函數表達的環境光。
#圖2 解耦的渲染元件視覺化
同時,該研究也可以對TANGO 輸出的結果進行編輯。例如在圖 3 中,研究可以換用其他的光照貼圖對 TANGO 的結果進行重新打光;在圖 4 中,可以對粗糙度和鏡面反射度參數進行編輯,實現對物體表面反射程度的改變。
#圖3 對TANGO 風格化結果重新打光
圖4 對物件材質進行編輯
另外,由於 TANGO 採用預測法來為貼圖的方式增添物體表面細節,因此對於頂點數較少的三維模型也有很好的穩健性。如圖 5 所示,原始的 lamp 和 alien 模型分別有 41160 和 68430 個面,研究人員對原始模型進行了降採樣,得到了只有 5000 個面的模型。可以看到 TANGO 在原始模型和降採樣模型上的表現基本上相似,而 Text2Mesh 則在低品質的模型上出現了較為嚴重的自交現象。
#圖5 穩健性測試
原理方法
TANGO 主要著重於由文字引導三維物體風格化的方法。這一領域目前最相關的工作是 Text2Mesh,它使用了預訓練模型 CLIP 作為指導,預測三維模型表面頂點的顏色和位置偏移,從而實現風格化。然而簡單地預測表面頂點顏色通常會產生不真實的渲染效果,且不規則的頂點偏移會造成嚴重的自交。因此,研究借鑒傳統的基於物理的渲染管線,將整個渲染過程解耦為 SVBRDF 材質,法向貼圖和燈光的預測過程,並分別用球高斯函數表達解耦的元素。這種基於物理的解耦方式使得 TANGO 可以正確產生具有真實感的渲染效果,並且具有很好的穩健性。
圖6 TANGO 流程圖
圖6 展示了TANGO 的工作流程。給定一個三維模型和文字(例如圖中的「一個金子做成的鞋子」),該研究先把這個三維模型縮放到一個單位球內,接著在三維模型的附近採樣相機位置,在這個相機位置發射射線找到與三維模型的交點 xp 與該交點的法線方向 n#p。接下來,xp 和 np 會被送入SVBRDF網路和Normal 網路中,預測該點的材質參數和法線方向,同時,用多個球高斯函數來表達場景中的光照。對於每一次訓練迭代,研究使用可微分的球高斯渲染器渲染影像,然後使用 CLIP 模型的影像編碼器對增強影像進行編碼,最後 CLIP 模型反向傳播梯度更新所有可學習的參數。
總結
本文提出了 TANGO,一種根據輸入文字對三維模型產生逼真外觀風格,對低品質模型具有魯棒性的新方法。透過將外觀風格解耦 SVBRDF,局部幾何變化(逐點法向)和光照條件,並將這些用球高斯函數表示並渲染,能夠用 CLIP 作為 loss 監督並進行學習。
與現有方法相比,即使對於低品質的三維模型,TANGO 也可以具有很好的穩健性。然而,逐點法向提供幾何細節的方式在避免產生自交的同時,也會使得能表達的材質表面凹凸程度略微降低,該研究認為TANGO 和基於頂點偏移的Text2Mesh 在各自的方向上都進行了很好的初步嘗試,會啟發更多的後續研究。
以上是一句話讓三維模型生成逼真外觀風格,精細到照片級細節的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
