목차
논문 개요
방법 소개
기술 주변기기 일체 포함 4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

Oct 19, 2023 pm 02:21 PM
ai 모델

4K 화질, 60프레임 동영상은 일부 앱에서 회원만 볼 수 있지만 AI 연구자들은 이미 4K 수준의 3D 동적 합성 동영상을 달성했으며 영상이 매우 매끄럽습니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

실생활에서 우리가 접하는 대부분의 영상은 2D입니다. 이런 영상을 볼 때 우리는 배우들 사이를 걷거나 공간의 한구석으로 걸어가는 등 보는 각도를 선택할 수가 없다. VR과 AR 기기의 등장으로 이러한 단점이 보완되었습니다. 3D 영상을 통해 관점을 바꿀 수 있고 마음대로 움직일 수도 있어 몰입도가 크게 향상되었습니다.

그러나 이런 종류의 3D 다이나믹 장면을 합성하는 것은 화질과 부드러움 측면에서 항상 어려움이 있었습니다.

최근 저장대학교, Xiangyan Technology 및 Ant Group의 연구원들이 이 문제에 도전했습니다. "4K4D: 4K 해상도의 실시간 4D 뷰 합성"이라는 논문에서 그들은 고해상도 3D 동적 장면 합성의 렌더링 속도를 크게 향상시키는 4K4D라는 포인트 클라우드 표현 방법을 제안했습니다. 특히 RTX 4090 GPU를 사용하면 최대 80FPS의 프레임 속도에서 4K 해상도, 최대 400FPS의 프레임 속도에서 1080p 해상도로 렌더링할 수 있습니다. 전체적으로 이전 방식보다 30배 이상 빠르며, 렌더링 품질도 SOTA에 이른다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

다음은 논문 소개입니다.

논문 개요

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.


  • 논문 링크: https://arxiv.org/pdf/2310.11448.pdf
  • https ://z ju3dv. github .io/4k4d/

동적 뷰 합성은 캡처된 비디오에서 동적 3D 장면을 재구성하고 몰입형 가상 재생을 만드는 것을 목표로 합니다. 이는 컴퓨터 비전 및 컴퓨터 그래픽의 장기적인 연구 문제입니다. 이 기술의 유용성의 핵심은 높은 충실도로 실시간 렌더링이 가능하여 VR/AR, 스포츠 방송, 예술적인 퍼포먼스 캡처에 사용할 수 있다는 것입니다. 기존 접근 방식은 동적 3D 장면을 질감이 있는 메시의 시퀀스로 표현하고 복잡한 하드웨어를 사용하여 이를 재구성합니다. 따라서 일반적으로 통제된 환경으로 제한됩니다.

최근 암시적 신경 표현은 미분 렌더링을 통해 RGB 비디오에서 동적 3D 장면을 재구성하는 데 큰 성공을 거두었습니다. 예를 들어, "다시점 비디오의 신경 3D 비디오 합성"은 대상 장면을 동적 방사장으로 모델링하고 볼륨 렌더링을 사용하여 이미지를 합성하고 이를 입력 이미지와 비교 및 ​​최적화합니다. 인상적인 동적 뷰 합성 결과에도 불구하고 기존 방법은 값비싼 네트워크 평가로 인해 1080p 해상도로 이미지를 렌더링하는 데 몇 초 또는 몇 분이 걸리는 경우가 많습니다.

정적 뷰 합성 방법에서 영감을 받은 일부 동적 뷰 합성 방법은 비용이나 네트워크 평가 횟수를 줄여 렌더링 속도를 향상시킵니다. 이러한 전략을 통해 MLP 맵은 41.7fps로 전경 동적 수치를 렌더링할 수 있습니다. 그러나 MLP 맵의 실시간 성능은 중간 해상도(384×512)의 이미지를 합성할 때만 달성할 수 있으므로 렌더링 속도 문제는 여전히 남아 있습니다. 4K 해상도 이미지를 렌더링할 때 속도가 1.3FPS로 느려졌습니다.

이 논문에서 연구원들은 동적 3D 장면을 모델링하고 렌더링하기 위한 새로운 신경 표현인 4K4D를 제안합니다. 그림 1에서 볼 수 있듯이 4K4D는 렌더링 속도에서 이전 동적 뷰 합성 방법보다 훨씬 뛰어나며 렌더링 품질에서도 경쟁력이 있습니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

저자는 핵심 혁신이 4D 포인트 클라우드 표현과 하이브리드 외관 모델에 있다고 밝혔습니다. 특히 동적 장면의 경우 공간 조각 알고리즘을 사용하여 거친 포인트 클라우드 시퀀스를 얻고 각 포인트의 위치를 ​​학습 가능한 벡터로 모델링합니다. 또한 4D 형상 그리드를 도입하여 각 점에 특징 벡터를 할당하고 이를 MLP 네트워크에 입력하여 점의 반경, 밀도 및 SH(구형 고조파) 계수를 예측했습니다. 4D 특징 메쉬는 포인트 클라우드에 공간 정규화를 자연스럽게 적용하여 최적화를 더욱 강력하게 만듭니다. 연구원들은 4K4D를 기반으로 하드웨어 래스터화를 사용하여 전례 없는 렌더링 속도를 달성하는 차별화 가능한 깊이 필링 알고리즘을 개발했습니다.

연구원들은 MLP 기반 SH 모델이 역동적인 장면의 모습을 표현하기 어렵다는 것을 발견했습니다. 이러한 문제를 완화하기 위해 SH 모델과 결합하여 장면의 모습을 표현하는 이미지 혼합 모델도 도입했습니다. 중요한 디자인은 이미지 블렌딩 네트워크를 보는 방향과 독립적으로 만들어 훈련 후에 미리 계산하여 렌더링 속도를 향상시킬 수 있다는 것입니다. 양날의 검인 이 전략은 이미지 혼합 모델을 보는 방향을 따라 분리되게 만듭니다. 이 문제는 연속 SH 모델을 사용하여 해결될 수 있습니다. 연구진이 제안한 하이브리드 외관 모델은 SH 모델만 사용하는 3D Gaussian Splatting에 비해 입력 영상에서 캡처한 정보를 최대한 활용하여 렌더링 품질을 효과적으로 향상시킵니다.

새로운 방법의 효과를 검증하기 위해 연구원들은 NHR, ENeRF-Outdoo, DNA-Rendering 및 Neural3DV를 포함하여 널리 사용되는 여러 다중 뷰 동적 새 뷰 합성 데이터 세트에서 4K4D를 평가했습니다. 광범위한 실험에 따르면 4K4D는 렌더링 속도가 훨씬 더 빠를 뿐만 아니라 렌더링 품질 측면에서도 SOTA 기술보다 훨씬 뛰어납니다. RTX 4090 GPU를 사용하는 새로운 방법은 1080p 해상도의 DNA 렌더링 데이터세트에서 400FPS를 달성하고 4K 해상도의 ENeRF-Outdoor 데이터세트에서 80FPS를 달성합니다.

방법 소개

다이내믹한 3D 장면을 포착한 멀티뷰 영상을 바탕으로 본 논문에서는 대상 장면을 재구성하고 실시간으로 뷰 합성을 수행하는 것을 목표로 합니다. 모델 아키텍처 다이어그램은 그림 2에 나와 있습니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

그런 다음 이 기사에서는 포인트 클라우드를 사용하여 동적 장면을 모델링하는 관련 지식을 소개합니다. 이는 4D 임베딩, 기하학적 모델 및 외관 모델의 관점에서 시작됩니다.

4D 임베딩: 대상 장면의 대략적인 포인트 클라우드가 주어지면 이 논문에서는 신경망과 기능 메시를 사용하여 동적 기하학과 모양을 표현합니다. 특히 이 기사에서는 먼저 6개의 특징 평면 θ_xy, θ_xz, θ_yz, θ_tx, θ_ty 및 θ_tz를 정의하고 K-평면 전략을 사용하여 이 6개 평면을 사용하여 4D 특징 필드 Θ(x, t)를 모델링합니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

기하학 모델: 거친 포인트 클라우드를 기반으로 동적 장면 기하학은 각 점의 세 가지 속성(항목), 즉 위치 p ∈ R^3, 반경 r ∈ R 및 밀도 σ ∈ R을 학습하여 표현됩니다. 그런 다음 이 점을 사용하여 공간에서 점 x의 부피 밀도가 계산됩니다. 점 위치 p는 최적화 가능한 벡터로 모델링됩니다. 반경 r과 밀도 σ는 식(1)의 특징 벡터 f를 MLP 네트워크에 공급하여 예측됩니다.

외관 모델: 그림 2c에서 볼 수 있듯이 이 논문에서는 이미지 블렌딩 기술과 SH(구면 조화 함수) 모델을 사용하여 하이브리드 외관 모델을 구축합니다. 여기서 이미지 블렌딩 기술은 이산 뷰 외관 c_ibr을 나타내고 SH 모델은 연속적인 뷰 종속 모양을 나타냅니다. c_sh의 모양입니다. t번째 프레임의 점 x에 대해 뷰 방향 d의 색상은 다음과 같습니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

차별화 가능한 깊이 필링

이 기사에서 제안한 동적 장면 표현은 다음과 같이 렌더링할 수 있습니다. 깊이 필링 알고리즘을 사용하여 이미지를 생성합니다.

연구원들은 K 렌더링 패스로 구성된 깊이 필링 알고리즘을 구현하기 위해 맞춤형 셰이더를 개발했습니다. 즉, 연구원은 특정 픽셀 u에 대해 다단계 처리를 수행했습니다. 마지막으로 K개의 렌더링 후에 픽셀 u는 정렬 지점 세트 {x_k|k = 1, ..., K}를 얻었습니다.

이 점 {x_k|k = 1, ..., K}을 기반으로 볼륨 렌더링에서 픽셀 u의 색상은 다음과 같이 표현됩니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

학습 과정에서 렌더링된 픽셀 색상 C(u)가 주어지면 이 논문에서는 이를 실제 픽셀 색상 C_gt(u)와 비교하고 다음 손실 함수를 사용하여 엔드투엔드 방식으로 모델을 최적화합니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

또한 이 문서에서는 지각 손실:

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

및 마스크 손실:

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

최종 손실 함수는 다음과 같이 정의됩니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

실험하고 결과

이 문서에서는 DNA 렌더링, ENeRF-Outdoor, NHR 및 Neural3DV 데이터세트에 대한 4K4D 방법을 평가합니다. DNA-Rendering 데이터 세트에 대한

결과는 표 1에 나와 있습니다. 결과는 4K4D 렌더링 속도가 SOTA 성능을 갖춘 ENeRF보다 30배 이상 빠르며 렌더링 품질이 더 우수하다는 것을 보여줍니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

DNA 렌더링 데이터 세트의 질적 결과는 그림 5에 나와 있습니다. KPlanes는 4D 동적 장면의 상세한 모양과 형상을 복구할 수 없지만 다른 이미지 기반 방법은 고품질 외관을 생성합니다. 그러나 이러한 방법은 폐색 및 가장자리 주변에 흐릿한 결과를 생성하여 시각적 품질을 저하시키는 경향이 있는 반면, 4K4D는 200FPS 이상의 정확도 높은 렌더링을 생성할 수 있습니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

다음 실험에서는 ENeRFOutdoor 데이터세트에 대한 다양한 방법의 정성적, 정량적 결과를 보여줍니다. 표 2에서 볼 수 있듯이 4K4D는 140FPS 이상으로 렌더링할 때 여전히 훨씬 더 나은 결과를 얻었습니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

ENeRF와 같은 다른 방법은 흐릿한 결과를 생성하는 반면, K-Planse는 그림 3과 같이 이미지 가장자리 주위에 검은색 아티팩트를 포함합니다. 동적 인체와 다양한 배경 영역을 재구성할 수 없습니다. .

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

표 6은 미분 깊이 필링 알고리즘의 효율성을 보여 주며, 4K4D는 CUDA 기반 방법보다 7배 이상 빠릅니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

이 기사에서는 표 7의 다양한 해상도에서 다양한 하드웨어(RTX 3060, 3090 및 4090)에서의 4K4D 렌더링 속도도 보고합니다.

4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.

자세한 내용은 원본을 확인해주세요.

위 내용은 4K 품질의 3D 합성 비디오는 더 이상 슬라이드쇼에서 정지되지 않으며, 새로운 방법으로 렌더링 속도가 30배 이상 향상됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

C 언어로 Char Array를 사용하는 방법 C 언어로 Char Array를 사용하는 방법 Apr 03, 2025 pm 03:24 PM

char 어레이는 문자 시퀀스를 C 언어로 저장하고 char array_name [size]로 선언됩니다. 액세스 요소는 첨자 연산자를 통해 전달되며 요소는 문자열의 끝점을 나타내는 널 터미네이터 '\ 0'으로 끝납니다. C 언어는 strlen (), strcpy (), strcat () 및 strcmp ()와 같은 다양한 문자열 조작 함수를 제공합니다.

C 스위치 문에서 기본적으로 발생하는 오류를 피하십시오 C 스위치 문에서 기본적으로 발생하는 오류를 피하십시오 Apr 03, 2025 pm 03:45 PM

C 스위치 문에서 기본적으로 발생하는 오류를 피하기위한 전략 : 상수 대신 열거를 사용하여 사례 문의 값을 열거의 유효한 멤버로 제한합니다. 마지막 사례 명령문에서 러프를 사용하여 프로그램이 다음 코드를 계속 실행할 수 있도록하십시오. 스위치가없는 스위치 문의 경우 항상 오류 처리에 대한 기본 문을 추가하거나 기본 동작을 제공하십시오.

C 언어 합계의 기능은 무엇입니까? C 언어 합계의 기능은 무엇입니까? Apr 03, 2025 pm 02:21 PM

C 언어에는 내장 합계 기능이 없으므로 직접 작성해야합니다. 합계는 배열 및 축적 요소를 가로 질러 달성 할 수 있습니다. 루프 버전 : 루프 및 배열 길이를 사용하여 계산됩니다. 포인터 버전 : 포인터를 사용하여 배열 요소를 가리키며 효율적인 합계는 자체 증가 포인터를 통해 달성됩니다. 동적으로 배열 버전을 할당 : 배열을 동적으로 할당하고 메모리를 직접 관리하여 메모리 누출을 방지하기 위해 할당 된 메모리가 해제되도록합니다.

스위치 케이스 명령문 (C 언어)에서 기본값의 중요성 스위치 케이스 명령문 (C 언어)에서 기본값의 중요성 Apr 03, 2025 pm 03:57 PM

기본 문은 변수 값이 CASE 문과 일치하지 않을 때 코드 블록이 실행되도록하는 기본 처리 경로를 제공하기 때문에 Switch Case 문에 중요합니다. 이것은 예기치 않은 동작이나 오류를 방지하고 코드의 견고성을 향상시킵니다.

C 언어 기능의 반환 값 유형은 무엇입니까? C 언어 기능의 반환 값 유형 요약? C 언어 기능의 반환 값 유형은 무엇입니까? C 언어 기능의 반환 값 유형 요약? Apr 03, 2025 pm 11:18 PM

C 언어 기능의 반환 값 유형에는 int, float, double, char, void 및 포인터 유형이 포함됩니다. INT는 정수를 반환하는 데 사용되며 플로트 및 더블은 플로트를 반환하는 데 사용되며 Char는 문자를 반환합니다. 무효는 함수가 값을 반환하지 않음을 의미합니다. 포인터 유형은 메모리 주소를 반환하고 메모리 누출을 피하기 위해주의하십시오. 구조 또는 컨소시엄은 여러 관련 데이터를 반환 할 수 있습니다.

C 언어로 된 숯의 값 범위는 얼마입니까? C 언어로 된 숯의 값 범위는 얼마입니까? Apr 03, 2025 pm 03:39 PM

C 언어의 char의 값 범위는 구현 방법에 따라 다릅니다. 서명 된 char : -128 ~ 127 부호없는 char : 0 ~ 255 특정 범위는 컴퓨터 아키텍처 및 컴파일러 옵션의 영향을받습니다. 기본적으로 Char는 서명 된 유형으로 설정됩니다.

C 언어 기능의 개념 C 언어 기능의 개념 Apr 03, 2025 pm 10:09 PM

C 언어 기능은 재사용 가능한 코드 블록입니다. 입력, 작업을 수행하며 결과를 반환하여 모듈 식 재사성을 향상시키고 복잡성을 줄입니다. 기능의 내부 메커니즘에는 매개 변수 전달, 함수 실행 및 리턴 값이 포함됩니다. 전체 프로세스에는 기능이 인라인과 같은 최적화가 포함됩니다. 좋은 기능은 단일 책임, 소수의 매개 변수, 이름 지정 사양 및 오류 처리 원칙에 따라 작성됩니다. 함수와 결합 된 포인터는 외부 변수 값 수정과 같은보다 강력한 기능을 달성 할 수 있습니다. 함수 포인터는 함수를 매개 변수 또는 저장 주소로 전달하며 함수에 대한 동적 호출을 구현하는 데 사용됩니다. 기능 기능과 기술을 이해하는 것은 효율적이고 유지 가능하며 이해하기 쉬운 C 프로그램을 작성하는 데 핵심입니다.

이해하는 방법! x는? 이해하는 방법! x는? Apr 03, 2025 pm 02:33 PM

! x 이해! x는 C 언어로 된 논리적 비 운영자입니다. 그것은 x의 값, 즉 실제 변경, 거짓, 잘못된 변경 사항을 부수합니다. 그러나 C의 진실과 거짓은 부울 유형보다는 숫자 값으로 표시되며, 0이 아닌 것은 참으로 간주되며 0만이 거짓으로 간주됩니다. 따라서! x는 음수를 양수와 동일하게 처리하며 사실로 간주됩니다.

See all articles