기술 주변기기 일체 포함 CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N

CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N

Apr 19, 2024 pm 09:40 PM
git 프로젝트 genn2n

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

저희 웹사이트의 AIxiv 칼럼은 학술 및 기술 콘텐츠에 대한 칼럼입니다. 지난 몇 년 동안 당사 웹사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 다루는 2,000개 이상의 콘텐츠가 접수되어 학술 교류 및 보급을 촉진하는 데 도움이 되었습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일 주소는 liyazhou@jiqizhixin.com입니다.


홍콩과기대와 칭화대학교의 연구원들은 텍스트 기반 NeRF 편집과 같은 다양한 NeRF 변환 작업에 적합한 통합 생성 NeRF-NeRF 변환 프레임워크인 "GenN2N"을 제안했습니다. 셰이딩, 초해상도, 복원 등 성능이 매우 좋습니다! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • 논문 주소: https://arxiv.org/abs/2404.02788
  • 논문 홈페이지: https://xiangyueliu.github.io/GenN2N/
  • Github 주소: https://github.com/Lxiangyue/GenN2N
  • 논문 제목: GenN2N: Generative NeRF2NeRF Translation

최근 몇 년간 NeRF(Neural Radiation Fields)는 그 컴팩트함으로 인해 많은 주목을 받았습니다. , 높은 품질 및 다양성을 갖춘 3D 재구성, 3D 생성 및 새로운 관점 합성 분야가 광범위한 관심을 끌었습니다. 그러나 NeRF 장면이 생성되면 이러한 방법은 결과적인 형상 및 모양에 대한 추가 제어가 부족한 경우가 많습니다. 따라서 NeRF 편집은 최근 주목할 만한 연구 초점이 되었습니다.

현재 NeRF 편집 방법은 일반적으로 NeRF의 텍스트 기반 편집, 초해상도, 복구 및 색상화와 같은 작업별로 다릅니다. 이러한 방법에는 많은 양의 작업별 도메인 지식이 필요합니다. 2D 이미지 편집 분야에서는 보편적인 이미지 간 변환 방법을 개발하는 것이 추세입니다. 예를 들어 다기능 이미지 편집을 지원하기 위해 2D 생성 모델 Stable Difussion이 사용됩니다. 따라서 우리는 기본 2D 생성 모델을 활용하는 범용 NeRF 편집을 제안합니다.

이와 관련된 과제는 NeRF와 2D 이미지 사이의 표현 격차입니다. 특히 이미지 편집기는 종종 서로 다른 관점에 대해 일관되지 않은 여러 편집을 생성하기 때문입니다. 최근 텍스트 기반 NeRF 편집 방법인 Instruct-NeRF2NeRF가 이를 탐구합니다. 멀티뷰 이미지를 점진적으로 렌더링하고, 이러한 이미지를 편집하고, 편집된 이미지를 NeRF로 집계하여 NeRF 장면을 점진적으로 업데이트하는 "렌더링-편집-집합" 프로세스를 채택합니다. 그러나 이 편집 방법은 특정 편집 요구 사항에 대해 많은 최적화를 거친 후에만 특정 편집 결과를 생성할 수 있습니다. 사용자가 만족하지 않으면 반복적인 시도를 반복해야 합니다.

그래서 우리는 다양한 NeRF 편집 작업에 적합한 일반적인 NeRF-NeRF 프레임워크인 "GenN2N"을 제안했습니다. 그 핵심은 편집 프로세스의 다중 솔루션 특성을 특성화하기 위해 생성적 접근 방식을 사용하는 것입니다. 생성 편집을 사용하여 사용자가 선택해야 하는 요구 사항을 충족하는 많은 수의 편집 결과를 쉽게 생성할 수 있습니다.

GenN2N의 핵심 부분에서는 1) 3D VAE-GAN의 생성 프레임워크가 도입되어 VAE를 사용하여 전체 편집 공간을 표현하고 입력 2D 편집 이미지 세트에 해당하는 가능한 모든 3D NeRF 편집 분포를 학습합니다. 2) 편집 결과의 신뢰성을 보장하기 위해 GAN을 사용하여 NeRF의 다양한 뷰 편집에 대한 합리적인 감독을 제공합니다. 2) 대조 학습을 사용하여 편집 콘텐츠와 관점을 분리하여 다양한 관점 간 편집 콘텐츠의 일관성을 보장합니다. , 사용자는 조건 생성 모델에서 여러 개의 편집 코드를 무작위로 샘플링하는 것만으로도 편집 대상에 해당하는 다양한 3D 편집 결과를 생성할 수 있습니다.

다양한 NeRF 편집 작업(ICCV2023 Oral 등)에서 SOTA 방식과 비교했을 때, GenN2N은 편집 품질, 다양성, 효율성 등의 측면에서 기존 방식보다 우수합니다.

방법 소개

먼저 2D 이미지 편집을 수행한 다음 이러한 2D 편집을 3D NeRF로 업그레이드하여 생성적인 NeRF에서 NeRF로의 변환을 달성합니다.

A. Implicit Distill(Latent Distill)

Latent Distill 모듈을 VAE의 인코더로 사용하여 편집된 각 이미지에 대한 암시적 편집 코드를 학습하고 이를 NeRF-NeRF 변환 편집 코드에 전달합니다. 생성된 콘텐츠를 제어합니다. 모든 편집 코드는 더 나은 샘플링을 위해 KL 손실 제약 조건 하에서 양호한 정규 분포를 따릅니다. 편집 내용과 관점을 분리하기 위해 편집 스타일은 동일하지만 관점이 다른 사진의 편집 코드는 유사하게 하고, 편집 스타일은 다르지만 관점이 같은 사진의 편집 코드는 멀도록 장려하는 대조 학습을 신중하게 설계했습니다. 서로 멀리 떨어져 있습니다.

B.NeRF-to-NeRF 변환(Translated NeRF)

우리는 NeRF-to-NeRF Translation을 VAE의 디코더로 사용합니다. 이는 편집 코드를 입력으로 사용하여 원본 NeRF를 수정합니다. 변환된 NeRF의 경우. 우리는 원래 NeRF 네트워크의 숨겨진 레이어 사이에 잔여 레이어를 추가했습니다. 이러한 잔여 레이어는 편집 코드를 입력으로 사용하여 숨겨진 레이어 뉴런을 변조하므로 변환된 NeRF는 원래 NeRF 정보를 유지할 뿐만 아니라 3D 변환도 제어할 수 있습니다. 편집 코드를 기반으로 합니다. 동시에 NeRF-to-NeRF Translation은 생성적 적대 훈련에 참여하기 위한 생성기 역할도 합니다. 최적화가 아닌 생성을 통해 한 번에 여러 변환 결과를 얻을 수 있어 NeRF 변환 효율성과 결과 다양성이 크게 향상됩니다.

C. 조건부 판별기

NeRF로 변환된 렌더링된 이미지는 구별되어야 하는 생성 공간을 구성합니다. 이러한 이미지의 편집 스타일과 렌더링 관점이 다르기 때문에 생성 공간이 매우 복잡해집니다. . 따라서 판별자에 대한 추가 정보로 조건을 제공합니다. 구체적으로, 판별자가 훈련 데이터에서 생성자가 렌더링한 그림CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务(음성 샘플) 또는 편집된 그림CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务(양성 샘플)을 식별하면 훈련 데이터에서 동일한 관점의 편집된 그림CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务을 조건으로 선택합니다. 판별자는 양성 샘플과 음성 샘플을 구별할 때 관점 요인의 간섭을 받지 않습니다.

D. 추론

GenN2N 최적화 후 사용자는 정규 분포에서 편집 코드를 무작위로 샘플링하고 변환된 NeRF를 입력하여 뷰포인트에 일관된 고품질 3D NeRF를 생성할 수 있습니다. 장면.

실험

우리는 NeRF 텍스트 기반 편집, 색상화, 초해상도, 인페인팅 등 다양한 NeRF 간 작업에 대한 광범위한 실험을 수행했습니다. 실험 결과는 GenN2N의 뛰어난 편집 품질, 멀티뷰 일관성, 생성된 다양성 및 편집 효율성을 보여줍니다.

A. 텍스트 기반 NeRF 편집 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B. CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务비교 실험 CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 다양한 특정 NeRF 작업에 대한 SOTA 방법과 비교( 텍스트 기반 편집, 색상화, 초해상도 및 인페인팅 등 포함). 결과는 일반 프레임워크인 GenN2N이 작업별 SOTA와 같거나 더 나은 성능을 발휘하는 반면 편집 결과는 더 다양하다는 것을 보여줍니다. (다음은 텍스트 기반 NeRF 편집 작업에서 GenN2N과 Instruct-NeRF2NeRF 간의 비교입니다. ).

A. 텍스트 기반 NeRF 편집CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
더 많은 실험과 방법은 논문 홈페이지를 참고해주세요.

팀 소개

이 논문은 홍콩 과학 기술 대학의 Tan Ping 팀, Tsinghua University 3DVICI Lab, Shanghai Artificial Intelligence Laboratory 및 Shanghai Qizhi Research Institute의 저자입니다. 논문은 홍콩과기대 학생 Liu, 청화대 학생 Xue Han, 홍콩과기대 학생 Luo Kunming, 그리고 강사는 칭화대 Yi Li 선생님입니다. 홍콩과기대학교의 대학교수이자 교사인 탄핑(Tan Ping).

위 내용은 CVPR 2024 최고 점수 논문: NeRF 변환 작업을 통합하는 새로운 생성 편집 프레임워크 GenN2N의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek을 설치하는 방법 DeepSeek을 설치하는 방법 Feb 19, 2025 pm 05:48 PM

Docker 컨테이너를 사용하여 사전 컴파일 된 패키지 (Windows 사용자의 경우)를 사용하여 소스 (숙련 된 개발자)를 컴파일하는 것을 포함하여 DeepSeek를 설치하는 방법에는 여러 가지가 있습니다. 공식 문서는 신중하게 문서를 작성하고 불필요한 문제를 피하기 위해 완전히 준비합니다.

깊은 사용을위한 FAQ 요약 깊은 사용을위한 FAQ 요약 Feb 19, 2025 pm 03:45 PM

Deepseekai 도구 가이드 및 FAQ Deepseek은 강력한 AI 지능형 도구입니다. FAQ : 다른 액세스 방법의 차이 : 웹 버전, 앱 버전 및 API 통화간에 기능에는 차이가 없으며 앱은 웹 버전의 래퍼 일뿐입니다. 로컬 배치는 증류 모델을 사용하는데,이 모델은 DeepSeek-R1의 정식 버전보다 약간 열등하지만 32 비트 모델은 이론적으로 90% 정식 버전 기능을 갖습니다. 선술집이란 무엇입니까? Sillytavern은 API 또는 Ollama를 통해 AI 모델을 호출 해야하는 프론트 엔드 인터페이스입니다. 중단 한도는 무엇입니까?

AI 도구는 무엇입니까? AI 도구는 무엇입니까? Nov 29, 2024 am 11:11 AM

AI 도구에는 Doubao, ChatGPT, Gemini, BlenderBot 등이 포함됩니다.

Grayscale 암호화 신탁 기금은 무엇입니까? Grayscale 암호화 신탁 기금은 무엇입니까? Mar 05, 2025 pm 12:33 PM

Grayscale Investment : Grayscale Investment Company는 기관 및 투자자에게 디지털 통화 투자 서비스를 제공합니다. 이 회사는 몇 가지 암호화 신탁을 출시했으며, 이는 시장의 광범위한 시장의 관심을 끌었지만, 이러한 자금이 토큰 가격에 미치는 영향은 크게 다릅니다. 이 기사는 Grayscale의 주요 Crypto Trust Funds 중 일부를 자세히 소개합니다. Grayscale Major Crypto Trust Fund는 Glance Grayscale Investment (2013 년 DigitalCurrencygroup이 설립 한)에서 제공되는 다양한 암호화 자산 신탁 기금을 관리하여 기관 투자자와 고격한 개인에게 준수 투자 채널을 제공합니다. 주요 자금에는 다음이 포함됩니다 : Zcash (Zec), Sol,

최고의 시장 제조업체가 암호화 시장에 진출함에 따라 Castle Securities는 업계에 어떤 영향을 미칩니 까? 최고의 시장 제조업체가 암호화 시장에 진출함에 따라 Castle Securities는 업계에 어떤 영향을 미칩니 까? Mar 04, 2025 pm 08:03 PM

최고 시장 제조업체 인 Castle Securities의 Bitcoin Market Maker에 진입하는 것은 Bitcoin 시장의 성숙도의 상징이며, 전통적인 금융 세력이 미래의 자산 가격 권력을 위해 경쟁하는 핵심 단계입니다. Bloomberg에 따르면 Citadel Securities는 2 월 25 일에 Cryptocurrencies의 유동성 제공 업체가 되고자합니다. 이 회사는 Coinbaseglobal, Binanceholdings 및 Crypto.com이 운영하는 거래소를 포함하여 다양한 거래소에서 시장 제조업체 목록에 가입하는 것을 목표로하고 있다고이 문제에 익숙한 사람들은 말했다. Exchange에 의해 승인되면이 회사는 처음에 미국 이외의 시장 제조업체 팀을 설립 할 계획이었습니다. 이 움직임은 징후 일뿐입니다

Delphi Digital : 새로운 Elizaos V2 아키텍처를 구문 분석하여 새로운 AI 경제를 바꾸는 방법은 무엇입니까? Delphi Digital : 새로운 Elizaos V2 아키텍처를 구문 분석하여 새로운 AI 경제를 바꾸는 방법은 무엇입니까? Mar 04, 2025 pm 07:00 PM

ELIZAOSV2 : AI의 새로운 경제를 이끌고 AI는 보조 도구에서 독립적 인 엔티티로 진화하여 AI가 자금을 관리하고 Web3 비즈니스를 운영 할 수 있습니다. 이 기사는 Elizaosv2의 주요 혁신과 그것이 AI 중심의 미래 경제를 형성하는 방법으로 뛰어들 것입니다. AI Automation : 독립적으로 Elizaos를 운영하는 것은 원래 Web3 자동화에 중점을 둔 AI 프레임 워크였습니다. V1 버전을 사용하면 AI가 스마트 계약 및 블록 체인 데이터와 상호 작용할 수있는 반면 V2 버전은 상당한 성능 향상을 달성합니다. AI는 간단한 지침을 실행하는 대신 워크 플로를 독립적으로 관리하고 비즈니스를 운영하며 재무 전략을 개발할 수 있습니다. 아키텍처 업그레이드 : 향상 a

SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. Mar 12, 2025 pm 01:03 PM

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 Mar 05, 2025 pm 02:42 PM

주간 관찰 : 비트 코인을 비축하는 비즈니스 - 양조 변화는 종종 주간 메모에서 간과 된 시장 동향을 지적합니다. Microstrategy의 움직임은 뚜렷한 예입니다. 많은 사람들이 "Microstrategy와 Michaelsaylor는 이미 잘 알려져 있습니다. 이것은 무엇에주의를 기울일 것인가?" 이보기는 일방적입니다. 최근 몇 달 동안 비트 코인을 예비 자산으로 채택한 것에 대한 심층적 인 연구에 따르면 이것은 고립 된 사례가 아니라 가장 큰 추세임을 보여줍니다. 나는 향후 12-18 개월 동안 수백 개의 회사가 소송을 따르고 대량의 비트 코인을 구매할 것이라고 예측합니다.

See all articles