3D資產生成領域福音:自動化所、北郵團隊聯合打造材質生成新典範

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在今天的數位化時代,3D 資產在元宇宙的建構、數位孿生的實現以及虛擬實境和擴增實境的應用中扮演著重要角色,促進了技術創新和使用者體驗的提升。
現有的3D資產產生方法通常利用生成式模型基於空間變化雙向反射分佈函數(SVBRDF, Spatially Varying Bidirectional Reflectance Distribution Function)在預設光照條件下推斷表面位置的材質屬性。然而,這些方法很少考慮到人們對身邊常見物體的表面材質認知構建出的強大且豐富的先驗知識(例如汽車輪胎應為外緣的橡膠胎麵包裹著金屬輪轂),且忽略了材質應該與物體本身的RGB 色彩進行解耦。 Without changing the original meaning, the existing 3D asset generation methods often utilize generative models based on spatially varying bidirectional reflectance distribution function (SVBRDF) to infer material prosurfaces formh. take into account the strong and rich prior knowledge that people have in constructing the surface materials of common objects around us (such as the fact that car tires should have rubber tread covering metal rims on the outer edge), and the dem edge of the GB the 集), and the dem edge 是), and the dem part them the unyion and the de the 集), of the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the de the 集), and the dem edge of the leh. objects themselves.
因此,如何將人類對物體表面材質的先驗知識有效地融入到材質生成過程中,從而提高現有3D資產的整體質量,成為了當前研究的重要課題。

對於這個問題,近日,中國科學院自動化研究所、北京郵電大學及香港理工大學等京港兩地的研究團隊發布了名為《MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets》的論文,建構了首個針對多種類複雜材質物體的2D 材質分割資料集MIO,其中包含了多種語意類別下的、單一物體的、各個相機角度的像素級材質標籤。該研究提出了一種能夠利用 2D 語意先驗在 UV 空間中推斷出 3D 資產表面材質的材質生成方案 —— MaterialSeg3D。
論文:https://arxiv.org/pdf/2404.13923
程式碼位址:https ://github.com/PROPHETE-pro/MaterialSeg3D_
##3D 建模師通常根據生活常識或真實世界的物件原型來定義資產表面的材質。相較之下,基於生成式模型建立 3D 資產的方法使用 SVBRDF 來推斷材質訊息,但由於缺乏準確的高品質 3D 資產樣本,這些方法難以產生高泛化性和高保真度的物理材質通道資訊。此外,這類方法也未能利用公開網站中的海量 Web Image 資料來豐富物件表面材質資訊的先驗知識。
因此,本文聚焦在如何將 2D 圖片中關於材質的先驗知識引入解決 3D 資產材質資訊定義的任務中。
MIO 資料集
這篇論文首先嘗試從現有 3D 資產資料集中提取材質分類的先驗知識,但由於資料集樣本過少且風格單一,分割模型難以學習到正確的先驗知識。
比起 3D 資產,2D 圖像則更為廣泛地存在於公開網站或資料集上。然而,現有的註釋 2D 影像資料集與 3D 資產渲染圖的分佈有較大差距,無法直接提供足夠的材質先驗知識。
因此,本文建構了一個客製化資料集MIO(Materialized Individual Objects),是目前最大的多類別單一複雜材質資產的2D 材質分割資料集,包含了從各種相機角度採樣的影像,並由專業團隊精確註解。
作用中與 PBR 中視覺化範例中使用圖的視覺範例。
在建構此資料集時,本文遵循以下規則:
每張取樣影像中只包含一個突出的前景物件
收集類似數量的真實場景2D 圖片和3D 資產渲染圖
收集各個相機角度的影像樣本,包括頂視圖和仰視圖等特殊視角
MIO 資料集的獨特之處在於,它不僅建構了每個材質類別的像素級標籤,還單獨建構了每個材質類別與PBR 材質取值間的一一映射關係。這些映射關係是由 9 位專業 3D 建模師經過討論後確定的。本文從公共材質庫收集了超過1000 個真實的PBR 材質球作為備選材質,並依據建模師的專業知識進行篩選與指定,最終確定了14 個材質類別並將其與PBR 材質的映射關係作為資料集的標註空間。
MIO 資料集共包含23,062 張單一複雜物體的多視角影像,分為5 個大的元類:家具、汽車、建築、樂器和植物,具體又可以分為20 種具體的類別,特別值得一提的是,MIO 資料集中包含大約4000 張俯視圖影像,提供了在現有2D 資料集中很少出現的獨特視角。
MaterialSeg3D
有了MIO 資料集作為可靠的材質資訊先驗知識來源,這篇論文隨後提出了名為MaterialSeg3D 的全新3D 資產表面材質預測新範式,為給定的資產表面生成合理的PBR 材質,從而能夠真實地模擬物體的物理特性,包括光照、陰影和反射,使3D 物件在各種環境下都表現出高度的真實性和一致性,為現有3D 資產缺乏材質資訊的問題提出有效解決方案。
MaterialSeg3D 整個處理流程中包含三個部分:3D 資產的多重視圖渲染、多重視圖下的材質預測和 3D 材質 UV 產生。在多視圖渲染階段,確定了俯視圖、側視圖和 12 個環繞角度的相機姿勢,以及隨機的俯仰角度,產生 2D 渲染影像。在材質預測階段,利用基於 MIO 資料集訓練的材質分割模型,對多視角渲染圖進行像素級的材質標籤預測。在材質 UV 生成階段,將材質預測結果映射到臨時 UV 圖上,透過加權投票機制處理得到最終的材質標籤 UV,並轉化為 PBR 材質貼圖。
視覺化的效果與實驗
为评估 MaterialSeg3D 的有效性,本文进行了与近期相似工作的定量与定性实验分析,重点关注单图像到 3D 资产的生成方法、纹理生成以及公共 3D 资产三个方面。对于单图像到 3D 资产的生成方法,与 Wonder3D、TripoSR 和 OpenLRM 进行了比较,这些方法将资产的某一参照视图作为输入,直接生成具有纹理特征的 3D 对象。通过可视化图片观察到,MaterialSeg3D 处理后的资产在渲染的真实性方面相较之前的工作有显著改善。论文还比较了现有的纹理生成方法,如 Fantasia3D、Text2Tex 以及 Meshy 网站提供的在线功能,这些方法可以根据文本提示信息生成纹理结果。
在此基础上,MaterialSeg3D 在不同的光照条件下能够生成精确的 PBR 材质信息,使渲染效果更加真实。
定量实验采用 CLIP Similarity、PSNR、SSIM 作为评价指标,选择 Objaverse-1.0 数据集中的资产作为测试样本,并随机选择三个相机角度作为新视图。
这些实验证明了 MaterialSeg3D 的有效性。其能够生成公共 3D 资产缺失的 PBR 材质信息,为建模师和后续的研究工作提供更多优质资产。
总结与展望
这篇论文针对 3D 资产表面材质生成问题进行了探索,构建了定制的 2D 材质分割数据集 MIO。在这一可靠数据集的支持下,提出了新的 3D 资产表面材质生成范式 MaterialSeg3D,能够为单个 3D 资产生成可解耦的独立 PBR 材质信息,显著增强了现有 3D 资产在不同光照条件下的渲染真实性和合理性。
作者指出,未来的研究将专注于扩展数据集中物体元类的数量、通过生成伪标签扩大数据集规模以及对材质分割模型进行自训练,以便该生成范式能够直接应用于绝大多数种类的 3D 资产。
以上是3D資產生成領域福音:自動化所、北郵團隊聯合打造材質生成新典範的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序
