한 줄의 텍스트로 3D 얼굴 변화를 구현하세요! UC Berkeley, 단 한 문장으로 블록버스터급 렌더링 완성하는 'Chat-NeRF' 제안
신경 3D 재구성 기술의 발전 덕분에 실제 3D 장면의 특징 표현을 캡처하는 것이 그 어느 때보다 쉬워졌습니다.
그러나 이보다 더 간단하고 효과적인 3D 장면 편집 솔루션은 없었습니다.
최근 UC 버클리 연구진은 이전 작업인 InstructPix2Pix를 기반으로 텍스트 지침을 사용하여 NeRF 장면을 편집하는 방법인 Instruct-NeRF2NeRF를 제안했습니다.
논문 주소: https://arxiv.org/abs/2303.12789
Instruct-NeRF2NeRF를 사용하면 단 한 문장으로 대규모의 실제 장면을 편집할 수 있으며, 이전 작품보다 더 현실적이고 목표가 뚜렷합니다.
예를 들어, 수염을 기르고 싶다면 얼굴에 수염 뭉치가 나타날 것입니다!
아니면 머리를 바꿔 몇 초 만에 아인슈타인이 되어보세요.
또한 모델은 새로운 편집 이미지로 데이터 세트를 지속적으로 업데이트할 수 있으므로 장면의 재구성 효과가 점차 향상됩니다.
NeRF + InstructPix2Pix = Instruct-NeRF2NeRF
구체적으로 인간에게는 입력 이미지가 제공되고 모델에 수행할 작업을 알려주는 서면 지침이 제공되며 모델은 이러한 지침에 따라 이미지를 편집합니다.
구현 단계는 다음과 같습니다.
- 훈련 관점에서 장면의 이미지를 렌더링합니다.
- InstructPix2Pix 모델을 사용하여 전역 텍스트 지침에 따라 이 이미지를 편집하세요.
- 훈련 데이터 세트의 원본 이미지를 편집된 이미지로 바꿉니다.
- NeRF 모델은 평소와 같이 훈련을 계속합니다.
구현 방법
기존의 3차원 편집과 비교하여 NeRF2NeRF는 새로운 3차원 장면 편집 방법입니다. 가장 큰 특징은 "반복 데이터 세트 업데이트"를 사용한다는 것입니다. 기술.
편집은 3D 장면에서 이루어지지만, 3D 생성 모델을 훈련하는 데 사용되는 데이터가 매우 제한되어 있기 때문에 논문에서는 3D 확산 모델이 아닌 2D를 사용하여 형태 및 모양 사전 추출을 수행합니다.
이 2D 확산 모델은 연구팀이 최근 개발한 InstructPix2Pix로, 명령어 텍스트 기반의 2D 이미지 편집 모델로, 이미지와 텍스트 명령어를 입력하면 편집된 이미지를 출력할 수 있습니다.
그러나 이 2D 모델은 장면의 다양한 각도에서 고르지 않은 변화를 일으킬 수 있습니다. 따라서 "반복적 데이터 세트 업데이트"가 등장했습니다. 이 기술은 NeRF의 "입력 이미지 데이터 세트"를 교대로 수정하고 기본 3D 표현을 업데이트합니다.
이는 텍스트 기반 확산 모델(InstructPix2Pix)이 지침에 따라 새로운 이미지 변형을 생성하고 이러한 새로운 이미지를 NeRF 모델 교육을 위한 입력으로 사용한다는 의미입니다. 따라서 재구성된 3D 장면은 새로운 텍스트 안내 편집을 기반으로 합니다.
초기 반복에서 InstructPix2Pix는 다양한 시야각에서 일관된 편집을 수행하지 못하는 경우가 많았습니다. 그러나 NeRF 재렌더링 및 업데이트 과정에서는 전 세계적으로 일관된 장면으로 수렴됩니다.
요약하자면, NeRF2NeRF 방법은 이미지 콘텐츠를 반복적으로 업데이트하고 이러한 업데이트된 콘텐츠를 3D 장면에 통합하는 동시에 장면의 일관성과 사실성을 유지함으로써 3D 장면의 편집 효율성을 향상시킵니다.
UC Berkeley 연구팀의 이번 작업은 이전 InstructPix2Pix의 확장 버전이라고 할 수 있습니다. NeRF와 InstructPix2Pix를 결합하고 "반복적 데이터 세트 업데이트"를 결합하면 원클릭 편집이 계속 가능합니다. 3D 장면!
여전히 한계가 있지만 결함이 숨겨지지는 않습니다
그러나 Instruct-NeRF2NeRF는 이전 InstructPix2Pix를 기반으로 하기 때문에 대규모 공간 작업을 수행할 수 없는 등 후자의 많은 한계를 상속받습니다.
또한 DreamFusion과 마찬가지로 Instruct-NeRF2NeRF는 한 번에 하나의 뷰에서만 확산 모델을 사용할 수 있으므로 유사한 아티팩트 문제가 발생할 수도 있습니다.
아래 그림은 두 가지 유형의 실패 사례를 보여줍니다.
(1) Pix2Pix는 2D에서 편집을 수행할 수 없으므로 NeRF2NeRF도 3D에서 실패합니다.
(2) Pix2Pix 2D 편집이 가능합니다. , 그러나 3D에서는 큰 불일치가 있었기 때문에 NeRF2NeRF도 성공하지 못했습니다.
또 다른 예는 아래의 "판다"입니다. 매우 사납게 보일 뿐만 아니라(원형 조각상은 매우 사납습니다), 털 색깔도 약간 이상하고, 눈도 그렇습니다. 화면에서 이동할 때 분명히 "교차"되었습니다.
ChatGPT, Diffusion, NeRF가 각광을 받은 만큼, 이 글은 "AI가 한 문장으로 그리기"에서 "AI 편집"으로 발전해 이 세 가지의 장점을 최대한 발휘했다고 할 수 있습니다. 한 문장으로 된 3D 장면" ".
이 방법에는 몇 가지 제한 사항이 있지만 여전히 결함이 있으며 3D 형상 편집을 위한 간단하고 실행 가능한 솔루션을 제공하며 이는 NeRF 개발의 이정표가 될 것으로 예상됩니다.
한 문장으로 3D 장면 편집
마지막으로 작가가 공개한 효과를 살펴보겠습니다.
이 원클릭 PS 3D 장면 편집 아티팩트가 명령 이해 능력과 이미지 현실성 측면에서 기대에 더 부합한다는 것을 보는 것은 어렵지 않습니다. 앞으로 학계의 "새로운 인기"가 될 수 있습니다. ChatGPT에 이어 Chat-NeRF가 생성되었습니다.
이미지의 환경 배경, 사계절 특성, 날씨를 마음대로 변경하더라도 새로운 이미지는 현실 논리와 완벽하게 일치합니다.
원본 사진:
가을:
눈오는 날:
사막:폭풍:
참조: https://www.php.cn/link/ebeb300882677f350ea818c8f333f5b9
위 내용은 한 줄의 텍스트로 3D 얼굴 변화를 구현하세요! UC Berkeley, 단 한 문장으로 블록버스터급 렌더링 완성하는 'Chat-NeRF' 제안의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

T-Mobile 사용자는 전화기 화면의 네트워크 아이콘에 때때로 5GUC가 표시되는 반면 다른 이동통신사는 5GUW가 표시되는 것을 발견하기 시작했습니다. 이는 오타가 아니며, 다른 유형의 5G 네트워크를 나타냅니다. 실제로 통신사는 5G 네트워크 범위를 지속적으로 확장하고 있습니다. 이번 주제에서는 T-Mobile 스마트폰에 표시되는 5GUC, 5GUW 아이콘의 의미에 대해 살펴보겠습니다. 두 로고는 각각 고유한 특징과 장점을 지닌 서로 다른 5G 기술을 나타냅니다. 이러한 표시가 무엇을 의미하는지 이해함으로써 사용자는 자신이 연결된 5G 네트워크 유형을 더 잘 이해하고 자신의 요구에 가장 적합한 네트워크 서비스를 선택할 수 있습니다. T의 5GUCVS5GUW 아이콘

특히 Teams 사용자라면 Microsoft가 업무 중심 화상 회의 앱에 새로운 3DFluent 이모티콘을 추가했다는 사실을 기억해야 합니다. Microsoft가 작년에 Teams 및 Windows용 3D 이모티콘을 발표한 후 실제로 플랫폼용으로 업데이트된 기존 이모티콘이 1,800개 이상 나타났습니다. 이 큰 아이디어와 Teams용 3DFluent 이모티콘 업데이트 출시는 공식 블로그 게시물을 통해 처음 홍보되었습니다. 최신 Teams 업데이트로 FluentEmojis가 앱에 제공됩니다. Microsoft는 업데이트된 1,800개의 이모티콘을 매일 사용할 수 있다고 밝혔습니다.

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

새로운 Windows 11이 개발 중이라는 소문이 퍼지기 시작했을 때 모든 Microsoft 사용자는 새 운영 체제가 어떤 모습일지, 어떤 결과를 가져올지 궁금해했습니다. 추측 끝에 Windows 11이 여기에 있습니다. 운영 체제에는 새로운 디자인과 기능 변경이 포함되어 있습니다. 일부 추가 기능 외에도 기능 지원 중단 및 제거가 함께 제공됩니다. Windows 11에 없는 기능 중 하나는 Paint3D입니다. 서랍, 낙서, 낙서에 적합한 클래식 페인트를 계속 제공하지만 3D 제작자에게 이상적인 추가 기능을 제공하는 Paint3D를 포기합니다. 몇 가지 추가 기능을 찾고 있다면 최고의 3D 디자인 소프트웨어로 Autodesk Maya를 추천합니다. 좋다

ChatGPT는 AI 산업에 닭의 피를 주입했고, 한때 상상할 수 없었던 모든 것이 오늘날 기본적인 관행이 되었습니다. 계속해서 발전하고 있는 Text-to-3D는 Diffusion(이미지), GPT(텍스트)에 이어 AIGC 분야의 차세대 핫스팟으로 평가되며 전례 없는 주목을 받고 있습니다. 아니요, ChatAvatar라는 제품은 공개 베타 버전으로 출시되어 빠르게 700,000회 이상의 조회수와 관심을 얻었으며 Spacesofttheweek에 소개되었습니다. △ChatAvatar는 AI가 생성한 단일 시점/다중 시점 원본 그림에서 3D 스타일화된 캐릭터를 생성하는 Imageto3D 기술도 지원합니다. 현재 베타 버전에서 생성된 3D 모델은 큰 주목을 받았습니다.

앞에 적힌 프로젝트 링크: https://nianticlabs.github.io/mickey/ 두 장의 사진이 주어지면 사진 간의 대응 관계를 설정하여 두 장의 사진 사이의 카메라 포즈를 추정할 수 있습니다. 일반적으로 이러한 대응은 2D에서 2D로 이루어지며 추정된 포즈는 규모에 따라 결정되지 않습니다. 언제 어디서나 즉각적인 증강 현실과 같은 일부 애플리케이션은 규모 측정항목의 포즈 추정이 필요하므로 규모를 복구하기 위해 외부 깊이 추정기에 의존합니다. 본 논문에서는 3차원 카메라 공간에서 메트릭 일치성을 예측할 수 있는 키포인트 매칭 프로세스인 MicKey를 제안합니다. 이미지 전반에 걸쳐 3D 좌표 매칭을 학습함으로써 측정 기준을 추론할 수 있습니다.
