4K畫質3D合成影片不再卡成投影片,新方法將渲染速度提高了30倍
當 4K 畫質、60 幀影片在某些 APP 上還只能開會員觀看時,AI 研究者已經把 3D 動態合成影片做到了 4K 級別,而且畫面相當流暢。
在現實生活中,我們接觸的大多數影片都是 2D 的。在觀看這種影片時,我們是沒有辦法選擇觀看視角的,例如走到演員中間,或是走到空間的某個角落。 VR、AR 設備的出現彌補了這一缺陷,它們提供的 3D 影片允許我們變換視角、甚至隨意走動,沉浸感大大提升。
但是,這種 3D 動態場景的合成一直是個難點,無論是在畫質上還是流暢度上。
最近,來自浙江大學、像衍科技和螞蟻集團的研究者對這個問題發起了挑戰。在一篇題為「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的論文中,他們提出了一種名為4K4D的點雲表示方法,大大提升了高解析度3D動態場景合成的渲染速度。具體來說,使用 RTX 4090 GPU,他們的方法能以 4K 解析度進行渲染,幀率可達80 FPS;以1080p解析度進行渲染時,幀率可達400FPS。整體來看,它的速度是以前方法的30多倍,而且渲染品質達到了SOTA。
以下是論文簡介。
論文概覽
- ##論文連結:https://arxiv.org/pdf/2310.11448.pdf
專案連結:https://zju3dv.github.io/4k4d/
動態視圖合成旨在從捕獲的影片中重建動態3D 場景,並建立沉浸式虛擬回放,這是電腦視覺和電腦圖形學中長期研究的問題。這種技術實用性的關鍵在於它能夠以高保真度即時渲染,使其能夠應用於 VR/AR、體育廣播和藝術表演捕捉。傳統方法將動態 3D 場景表示為紋理網格序列,並使用複雜的硬體進行重建。因此,它們通常僅限於受控環境。
最近,隱式神經表示在透過可微渲染從 RGB 視訊重建動態 3D 場景方面取得了巨大成功。例如《Neural 3d video synthesis from multi-view video》將目標場景建模為動態輻射場,利用體渲染合成影像,並與輸入影像進行對比最佳化。儘管動態視圖合成結果令人印象深刻,但由於網路評估昂貴,現有方法通常需要幾秒鐘甚至幾分鐘才能以 1080p 解析度渲染一張影像。
作者表示,他們的核心創新在於 4D 點雲表示和混合外觀模型。具體而言,對於動態場景,他們使用空間雕刻演算法來獲得粗點雲序列,並將每個點的位置建模為可學習向量。他們還引入 4D 特徵網格,為每個點分配特徵向量,並將其輸入 MLP 網絡,以預測點的半徑、密度和球諧函數(SH)係數。 4D 特徵網格自然地在點雲上應用了空間正則化,使得最佳化更加穩健。基於 4K4D,研究者開發了一種可微深度剝離演算法,利用硬體光柵化實現前所未有的渲染速度。
研究者發現,基於 MLP 的 SH 模型難以表示動態場景的外觀。為了緩解這個問題,他們還引入了一個影像混合模型來與 SH 模型結合,以表示場景的外觀。一個重要的設計是,他們使圖像混合網路獨立於觀看方向,因此可以在訓練後預先計算,以提高渲染速度。作為一把雙刃劍,該策略使影像混合模型沿著觀看方向離散。使用連續 SH 模型可以彌補這個問題。與僅使用 SH 模型的 3D Gaussian Splatting 相比,研究者提出的混合外觀模型充分利用了輸入影像擷取的信息,從而有效地提高了渲染品質。
為了驗證新方法的有效性,研究者在多個廣泛使用的多視圖動態新視圖合成資料集上評估了4K4D,包括NHR、ENeRF-Outdoo、DNA- Rendering 和Neural3DV。廣泛的實驗表明,4K4D 不僅渲染速度快了幾個數量級,而且在渲染品質方面也明顯優於 SOTA 技術。使用 RTX 4090 GPU,新方法在 DNA-Rendering 資料集上達到 400 FPS,解析度為 1080p;在 ENeRF-Outdoor 資料集上達到 80 FPS,解析度為 4k。
方法介紹
給定捕獲動態 3D 場景的多視圖視頻,本文旨在重建目標場景並即時地進行視圖合成。模型架構圖如圖2 所示:
接著文中介紹了用點雲建模動態場景的相關知識,他們從4D 嵌入、幾何模型以及外觀模型等角度展開。
4D 嵌入:給定目標場景的粗點雲,本文使用神經網路和特徵網格表示其動態幾何和外觀。具體來說,本文首先定義了六個特徵平面θ_xy、θ_xz、θ_yz、θ_tx、θ_ty 和θ_tz,並採用K-Planes 策略,利用這六個平面來建模一個4D 特徵場Θ(x, t):
幾何模型:基於粗點雲,動態場景幾何結構透過學習每個點上的三個屬性( entries)來表示,即位置p ∈ R^3 、半徑r ∈ R 和密度σ ∈ R。然後藉助這些點,計算空間點 x 的體積密度。點位置 p 被建模為可最佳化的向量。透過將 Eq.(1) 中的特徵向量 f 饋送到 MLP 網路中來預測半徑 r 和密度 σ。
外觀模型:如圖2c 所示,本文使用影像混合技術和球諧函數(SH)模型來建立混合外觀模型,其中影像混合技術表示離散視圖外觀c_ibr, SH 模型表示連續的依賴視圖的外觀c_sh。對於第t 訊框處的點x,其在視圖方向d 上的顏色為:
可微深度剝離
本文提出的動態場景表示借助深度剝離演算法可以渲染成影像。
研究者開發了一個自訂著色器來實現由 K 個渲染通道組成的深度剝離演算法。即對於一個特定的像素 u,研究者進行了多步驟處理,最後,經過 K 次渲染後,像素 u 得到一組排序點 {x_k|k = 1, ..., K}。
基於這些點{x_k|k = 1, ..., K},得到體渲染中像素u 的顏色表示為:
在訓練過程中,給定渲染的像素顏色C (u),本文將其與真實像素顏色C_gt (u) 進行比較,並使用以下損失函數以端到端的方式優化模型:
除此之外,本文也應用了知覺損失:
##以及掩碼損失:
最終的損失函數定義為:
實驗及結果
本文在DNA-Rendering、ENeRF-Outdoor、 NHR 以及Neural3DV 資料集評估了4K4D 方法。
在DNA-Rendering 資料集上的結果如表1 所示,結果顯示,4K4D 渲染速度比具有SOTA 效能的ENeRF 快30 倍,並且渲染品質更好。
在DNA-Rendering 資料集上的定性結果如圖5 所示,KPlanes 無法對4D 動態場景下的詳細外觀和幾何形狀進行恢復,而其他基於圖像的方法產生了高品質的外觀。然而,這些方法往往會在遮蔽和邊緣周圍產生模糊的結果,導致視覺品質下降,相反,4K4D 可以在超過 200 FPS 的情況下產生更高保真度的渲染。
接下來,實驗展示了不同方法在 ENeRFOutdoor 資料集上的定性和定量結果。如表 2 所示,4K4D 在以超過 140 FPS 的速度進行渲染時仍然取得了明顯更好的結果。
而其他方法,如ENeRF 產生了模糊的結果;IBRNet 的渲染結果包含影像邊緣周圍的黑色偽影,如圖3 所示;K-Planse 無法重建動態人體以及不同的背景區域。
表 6 展示了可微深度剝離演算法的有效性,4K4D 比基於 CUDA 的方法快 7 倍以上。
本文也在表 7 中報告了 4K4D 在不同解析度的不同硬體(RTX 3060、3090 和 4090)上的渲染速度。
更多細節請參考原論文。
以上是4K畫質3D合成影片不再卡成投影片,新方法將渲染速度提高了30倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。
