三維場景產生:無需任何神經網路訓練,從單一範例產生多元結果
多樣高質的三維場景產生結果
- ##論文網址: https://arxiv.org/abs/2304.12670
- 專案首頁:http://weiyuli.xyz/Sin3DGen/
使用人工智慧輔助內容生成(AIGC)在圖像生成領域湧現出大量的工作,從早期的變分自編碼器(VAE),到生成對抗網路(GAN),再到最近大紅大紫的擴散模型(Diffusion Model),模型的生成能力飛速提升。以 Stable Diffusion,Midjourney 等為代表的模型在產生具有高真實感影像方面取得了前所未有的成果。同時,在影片生成領域,最近也湧現出許多優秀的工作,如 Runway 公司的生成模型能夠產生充滿想像力的影片片段。這些應用程式大大降低了內容創作門檻,使得每個人都可以輕易地將自己天馬行空的想法變成現實。
但是隨著承載內容的媒介越來越豐富,人們漸漸不滿足於圖文、影片這些二維的圖形影像內容。隨著互動式電子遊戲技術的不斷發展,特別是虛擬和擴增實境等應用的逐步成熟,人們越來越希望能身臨其境地從三維視角與場景和物體進行互動,這帶來了對三維內容生成的更大訴求。
如何快速地產生高品質且具有精細幾何結構和高度真實感外觀的三維內容,一直以來都是電腦圖形社群研究者們重點探索的問題。透過電腦智慧地進行三維內容生成,在實際生產應用中可以輔助遊戲、影視製作中重要數位資產的生產,大大減少了美術製作人員的開發時間,大幅降低資產獲取成本,並縮短整體的製作週期,也為使用者帶來千人千面的個人化視覺體驗提供了技術可能。而對於一般使用者來說,快速又方便的立體內容創作工具的出現,結合如桌上型三維印表機等應用,未來將為一般消費者的文娛生活帶來更無限的想像空間。
目前,雖然普通用戶可以透過便攜式相機等設備輕鬆地創建圖像和視頻等二維內容,甚至可以對三維場景進行建模掃描,但總體來說,高品質三維內容的創作往往需要有經驗的專業人員使用如3ds Max、Maya、Blender 等軟體手動建模和渲染,但這些有很高的學習成本和陡峭的成長曲線。
其中一大主要原因是,三維內容的表達十分複雜,如幾何模型、紋理貼圖或角色骨骼動畫等。即使就幾何表達而言,就可以有點雲、體素和網格等多種形式。三維表達的複雜性極大地限制了後續資料收集和演算法設計。
另一方面,三維資料自然具有稀缺性,資料擷取的成本高昂,往往需要昂貴的設備和複雜的擷取流程,且難以大量收集某種統一格式的三維數據。這使得大多數資料驅動的深度生成模型難有用武之地。
在演算法層面,如何將收集到的三維資料送入計算模型,也是難以解決的問題。三維資料處理的算力開銷,比二維資料有著指數級的成長。暴力地將二維生成演算法拓展到三維,即使是最先進的平行計算處理器也難以在可接受的時間內處理。
上述原因導致了目前三維內容產生的工作大多只限於某一特定類別或只能產生較低解析度的內容,難以應用於真實的生產流程。
為了解決上述問題,北京大學陳寶權團隊聯合山東大學和騰訊AI Lab 的研究人員,提出了首個基於單樣例場景無需訓練便可產生多樣高品質三維場景的方法。演算法具有以下優點:
1,無需大規模的同類訓練資料和長時間的訓練,僅使用單一樣本便可快速產生高品質三維場景;
2,使用了基於神經輻射場的 Plenoxels 作為三維表達,場景具有高真實感外觀,能渲染出照片般真實的多視角圖片。生成的場景也完美的保留了樣本中的所有特徵,如水面的反光隨視角變化的效果等;
3,支持多種應用製作場景,如三維場景的編輯、尺寸重定向、場景結構類比和更換場景外觀等。
方法介紹
研究人員提出了一個多尺度的漸進式產生框架,如下圖所示。演算法核心思想是將樣本場景拆散為多個區塊,透過引入高斯噪聲,然後以類似拼積木的方式將其重新組合成類似的新場景。
作者使用座標映射場這種和樣本異構的表達來表示生成的場景,使得高品質的生成變得可行。為了讓演算法的最佳化過程更加穩健,該研究還提出了一種基於值和座標混合的最佳化方法。同時,為了解決三維計算的大量資源消耗問題,研究使用了精確到近似的最佳化策略,使得能在沒有任何訓練的情況下,在分鐘級的時間產生高品質的新場景。更多的技術細節請參考原始論文。
隨機場景產生
透過如左側框內的單一三維樣本場景,可以快速地產生具有複雜幾何結構和真實外觀的新場景。該方法可以處理具有複雜拓撲結構的物體,如仙人掌,拱門和石凳等,生成的場景完美地保留了樣本場景的精細幾何和高品質外觀。目前沒有任何基於神經網路的生成模型能做到相似的品質和多樣性。 高解析度大場景產生
#此方法能有效率地產生極高解析度的三維內容。如上所示,我們可以透過輸入單一左上角解析度為512 x 512 x 200 的三維“千里江山圖” 的一部分,產生1328 x 512 x 200 解析度的“萬裡江山圖”,並渲染出4096 x 1024解析度的二維多視角圖。
真實世界無邊界場景產生
#作者在真實的自然場景上也驗證了所提出的生成方法。透過採用與 NeRF 類似的處理方法,明確的將前景和天空等背景分開後,單獨對前景內容進行生成,便可在真實世界的無邊界場景中生成新場景。
其他應用程式場景#場景編輯
使用相同的生成演算法框架,透過加入人為指定限制,可以對三維場景內的物件進行刪除,複製和修改等編輯操作。如圖所示,可以移除場景中的山並自動補全孔洞,複製生成三座山峰或使山變得更大。
尺寸重定向此方法也可以對三維物體進行拉伸或壓縮的同時,保持其局部的形狀。圖中綠色框線內為原始的樣本場景,將一列三維火車進行拉長的同時保持住窗戶的局部尺寸。
結構類比產生
和影像風格遷移類似,給定兩個場景A 和B,我們可以建立一個擁有A 的外觀和幾何特徵,但結構與B 相似的新場景。如我們可以參考一座雪山將另一座山變為三維雪山。
更換樣本場景
#由於該方法對生成場景採用了異質表達,透過簡單地修改其映射的樣本場景,便可產生更多樣化的新場景。如使用同一個生成場景映射場 S,映射不同時間或季節的場景,得到了更豐富的生成結果。
總結
這項工作面向三維內容生成領域,首次提出了一種基於單一樣本的三維自然場景生成模型,嘗試解決當前三維生成方法中數據需求大、算力開銷多、生成品質差等問題。這項工作聚焦於更普遍的、語意訊息較弱的自然場景,更多的關註生成內容的多樣性和品質。演算法主要受傳統電腦圖形學中與紋理影像生成相關的技術,結合近期的神經輻射場,能快速地產生高品質三維場景,並展示了多種實際應用。
未來展望
該工作有較強的通用性,不僅能結合當前的神經表達,也適用於傳統的渲染管線幾何表達,如多邊形網格(Mesh)。我們在關注大型數據和模型的同時,也應該不時回顧傳統的圖形學工具。研究人員相信,不久的未來,在3D AIGC 領域,傳統的圖形學工具結合高品質的神經表達以及強力的生成模型,將會碰撞出更絢爛的火花,進一步推進三維內容生成的質量和速度,解放人們的創造力。
這項研究得到了廣大網友的討論:
#有網友表示:(這項研究)對於遊戲開發來說十分棒,只需要建模單一模型就能產生許多新的版本。
對於上述觀點,有人表示完全同意,遊戲開發者、個人和小型公司可以從這類模型中得到幫助。
以上是三維場景產生:無需任何神經網路訓練,從單一範例產生多元結果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

在去年4月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究者們共同發布了LLaVA(LargeLanguageandVisionAssistant)。儘管LLaVA只是用一個小的多模態指令資料集進行訓練,但在一些樣本上展現了與GPT-4非常相似的推理結果。然後在10月,他們推出了LLaVA-1.5,透過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結果非常令人振奮,為多模態AI助理領域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
