蘋果開發'AI 建築師”GAUDI:根據文本生成超逼真 3D 場景!
如今,每隔一段時間就有新的文字生成圖像模型釋出,個個效果都很強大,每每驚艷眾人,這個領域已經是卷上天了。不過,像 OpenAI 的 DALL-E 2 或Google 的 Imagen 等 AI 系統,都只能產生二維影像,如果文字也能變成三維場景,那帶來視覺體驗勢必加倍提升。現在,來自蘋果的 AI 團隊推出了 3D 場景產生的最新神經架構— GAUDI 。
它可以捕捉複雜且逼真的3D 場景分佈,從移動攝影機中進行沉浸式渲染,還能根據文字提示來創建3D 場景!該模型以 Antoni Gaudi 命名,他是西班牙著名的建築大師 。
#論文網址:https://arxiv.org/pdf/2207.13751.pdf
#1 基於 NeRFs 的 3D 渲染
神經渲染(nerual rendering)將電腦圖形與人工智慧結合起來,已經產生了很多從2D 圖像生成3D 模型的系統。例如最近 Nvidia 開發的 3D MoMa 可以在一小時內從不到 100 張的照片中創造出 3D 模型。 Google也依靠神經輻射場(NeRFs )在Google地圖中將 2D 衛星和街景影像組合成 3D 場景,實現了沉浸式視圖。谷歌的 HumanNeRF 還可以從影片中渲染出 3D 人體。
目前,NeRFs 主要還是用作 3D 模型和 3D 場景的一種神經儲存介質,可以從不同的相機視角進行渲染。 NeRFs 也已經開始被用於虛擬實境體驗。
那麼,NeRFs 這種從不同攝影機角度逼真地渲染影像的強大能力,能不能用於生成式 AI 呢?當然可以,已經有研究團隊嘗試了3D 場景的生成,如Google在去年首次推出了AI 系統Dream Fields,它將NeRF 生成3D 視圖的能力與OpenAI 的CLIP 評估圖像內容的能力相結合,最終實現了能夠產生符合文字描述的NeRF。
圖註:GoogleDream Fields
但是,Google的Dream Fields 只能產生針對單一物件的3D 視圖,要將它擴展到完全不受約束的3D 場景還存在許多困難。最大的困難就在於攝影機的位置有很大的限制,對於單個對象,每個可能的、合理的攝影機位置都可以映射到一個圓頂,但在3D 場景中,攝影機的位置會受到對象和牆壁等障礙物的限制。如果在場景生成時不考慮這些因素,那就很難產生 3D 場景。
2 3D 渲染專家GAUDI
#對於上述攝影機位置受限的問題,蘋果的GAUDI 模型拿出了三個專門的網絡來輕鬆搞定:GAUDI 有一個相機姿態解碼器,它將攝影機姿態與場景的3D 幾何和外觀分離開來,可以預測攝影機的可能位置,並確保輸出是3D 場景架構的有效位置。
圖註:解碼器模型架構針對場景的場景解碼器則可以預測三維平面的表示,這種表示是一種3D 畫布。
然後,輻射場解碼器會在這塊畫布上使用體積渲染方程式來繪製後續的影像。
GAUDI 的 3D 產生包含兩個階段:
#一是潛在和網路參數的最佳化:學習對數千條軌蹟的 3D 輻射場和相應相機姿態進行編碼的潛在表示。與針對單一物件不同,有效相機姿態隨著場景的變化而不同,所以需要對每個場景有效的相機姿態進行編碼。
二是使用擴散模型在潛在表示上學習生成模型,從而能夠在有條件和無條件的推理任務中都能很好地建模。前者是根據文字或影像提示來產生 3D 場景,後者則是根據攝影機軌跡來產生 3D場景。
透過 3D 室內場景,GAUDI 可以產生新的攝影機運動。如在下面一些範例中,文字描述包含有關場景和導航路徑的資訊。這裡研究團隊採用了預先訓練的基於RoBERTa 的文本編碼器,並使用其中間表示來調節擴散模型,生成效果如下:文本提示:走進廚房
文字提示:上樓
#文字提示:穿過走廊
另外,使用預訓練的ResNet-18 作為影像編碼器,GAUDI 能夠對從隨機視點觀察給定影像的輻射場進行取樣,從而從影像提示中建立3D 場景。圖像提示:
產生3D 場景:
##圖片提示:
#產生3D 場景:
GAUDI 的出現不僅會對許多電腦視覺任務上產生影響,而且其3D 場景的生成能力也將有利於基於模型的強化學習和規劃、SLAM 以及3D 內容的製作等研究領域。
就目前來看,GAUDI 產生的影片品質還不算高,可以看出有很多偽影。不過,這個系統或許可以為蘋果正在進行的渲染 3D 物件和場景的 AI 系統,這是一個好的開始和基礎,據說 GAUDI 也將被應用到蘋果的 XR 耳機中,用於產生數位化位置。可以期待一下~
以上是蘋果開發'AI 建築師”GAUDI:根據文本生成超逼真 3D 場景!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。
