DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 '암시적 왜곡'은 얼마나 강력합니까?-일체 포함-php.cn

모델 구조

실험 결과

집

기술 주변기기

일체 포함

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 '암시적 왜곡'은 얼마나 강력합니까?

PHPz

Apr 11, 2023 pm 07:31 PM

기술 deepfake

최근 몇 년 동안 컴퓨터 비전 분야의 세대 기술은 점점 더 강력해졌고 이에 상응하는 "위조" 기술은 점점 더 성숙해졌습니다. DeepFake 얼굴 변경부터 동작 시뮬레이션까지 구별하기가 어렵습니다. 가짜와 진짜.

최근 NVIDIA는 NeurIPS 2022 컨퍼런스에서 소스 이미지 세트와 구동 비디오 모션을 사용하는 새로운 암시적 워핑 프레임워크를 출시했습니다. .

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

논문 링크: https://arxiv.org/pdf/2210.01794.pdf

효과 측면에서 보면 생성된 이미지가 더 사실적이며, 동영상에서 캐릭터가 움직이고,

배경에는 변화가 없습니다.

입력된 여러 소스 이미지는 일반적으로

다른 모양 정보를 제공하여 생성기의 “환상” 공간을 줄입니다. 예를 들어 다음 두 가지를 모델 입력으로 사용합니다.

다른 모델에 비해 암시적 왜곡은 미용 효과와 유사한 "공간 왜곡"을 생성하지 않는 것을 확인할 수 있습니다.

사람이 가려져 있기 때문에 여러 소스 이미지를 사용하면

더 완벽한 배경을 제공할 수도 있습니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

아래 영상을 보시면 아시겠지만 왼쪽에 사진이 한장밖에 없다면

배경뒤가 "BD"인지 "ED"인지 추측이 어렵습니다. 배경이 왜곡되어 두 장의 사진이 더욱 안정적인 이미지를 생성합니다.

다른 모델과 비교할 때 원본 이미지 하나만 사용하는 효과가 더 좋습니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까? Magic Implicit Distortion

학계에서의 비디오 모방은 2005년으로 거슬러 올라갑니다. 많은 프로젝트에는 얼굴 재현의 실시간 표현 전송, Face2Face, 합성 Obama, Recycle-GAN, ReenactGAN, 동적 신경 방사선 분야가 포함됩니다. GAN(Generative Adversarial Networks), NeRF(Neural Radiation Fields) 및 오토인코더와 같은 당시 몇 가지 제한된 기술의 사용을 다양화했습니다.

모든 방법이 단일 이미지 프레임에서 동영상을 생성하려는 것은 아닙니다. 동영상의 각 프레임에 대해 복잡한 계산을 수행하는 일부 연구도 있습니다. 이는 실제로 Deepfake가 취하는 모방 경로입니다.

그러나 DeepFake 모델은 더 적은 정보를 획득하기 때문에 이 방법은 각 비디오 클립에 대한 훈련이 필요하며, 다수의 ID에 ID를 부여할 수 있는 DeepFaceLab 또는 FaceSwap의 오픈 소스 방법에 비해 성능이 저하됩니다. 비디오 클립.

2019년에 출시된 FOMM 모델은 캐릭터가 영상과 함께 움직일 수 있어 영상 모방 작업에 또 다른 기회를 줍니다.

이후 다른 연구자들은 단일 얼굴 이미지 또는 전신 표현에서 다양한 포즈와 표정을 얻으려고 시도했지만, 이 방법은 일반적으로 비교적 가만히 있는 "말하는" 머리와 같이 상대적으로 무표정하고 움직이지 않는 피사체에만 적용됩니다. 왜냐하면 네트워크가 해석해야 하는 얼굴 표정이나 몸짓에 '갑작스러운 행동 변화'가 없기 때문입니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

이러한 기술과 방법 중 일부는 딥페이크 기술과 잠재적인 확산 이미지 합성 방법이 대중화되기 전에 대중의 관심을 받았지만 적용 범위가 제한되고 다양성에 의문이 제기됩니다.

이번에 NVIDIA가 중점을 두는 암시적 왜곡은 한 프레임에서 필요한 모든 자세 정보를 얻는 것이 아니라 여러 프레임 사이 또는 심지어 두 프레임 사이에서만 정보를 얻는 것입니다. 이 설정은 다른 경쟁 모델에도 없습니다. , 또는 매우 제대로 처리되지 않습니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

예를 들어 디즈니의 워크플로는 선배 애니메이터들이 메인 프레임과 키 프레임을 그리고 다른 후배 애니메이터들이 중간 프레임을 그리는 방식입니다.

NVIDIA 연구진은 이전 버전에 대한 테스트를 통해 이전 방식의 경우 "키 프레임"이 추가되면 결과 품질이 저하되는 반면, 새로운 방식은 키 프레임 수가 증가함에 따라 애니메이션 제작 논리와 일치한다는 사실을 발견했습니다. , 숫자가 증가할수록 성능도 선형적으로 향상됩니다.

시작 프레임이나 끝 프레임에 표시되지 않는 이벤트나 표현 등 클립 중간에 갑작스러운 변화가 있는 경우 암시적 왜곡이 이 중간 지점에 프레임을 추가할 수 있으며 추가 정보는 전체 클립의 주의 메커니즘으로 다시 피드백됩니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

모델 구조

FOMM, Monkey-Net 및 Face-vid2vid와 같은 이전 방법은 명시적 워핑을 사용하여 시계열을 그리며 원본 얼굴 및 제어 동작에서 추출된 정보는 이에 적응되고 일관되어야 합니다. 시계열.

이 모델 디자인에서는 핵심 포인트의 최종 매핑이 상당히 엄격합니다.

반대로 암시적 워핑은 워크플로에 포함된 사전 정의된 부트스트래핑이 더 적은 크로스 모달 어텐션 레이어를 사용하며 여러 프레임워크의 입력에 적응할 수 있습니다.

워크플로에서는 키별로 왜곡이 필요하지 않으며 시스템은 일련의 이미지에서 가장 적절한 기능을 선택할 수 있습니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

암시적 워핑은 FOMM 프레임워크의 일부 키포인트 예측 구성요소를 재사용하고 마지막으로 간단한 U-net을 사용하여 파생된 공간 기반 키포인트 표현을 인코딩합니다. 별도의 U-net은 파생된 공간 표현과 함께 소스 이미지를 인코딩하는 데 사용됩니다. 두 네트워크 모두 64px(256px 제곱 출력)에서 384x384px 범위의 해상도에서 작동할 수 있습니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

이 메커니즘은 특정 비디오에서 가능한 모든 포즈 및 움직임 변화를 자동으로 설명할 수 없기 때문에 추가 키프레임이 필요하며 임시적으로 추가할 수 있습니다. 이러한 개입 기능이 없으면 대상 동작 지점과 충분히 유사하지 않은 키가 자동으로 업데이트되어 출력 품질이 저하됩니다.

이에 대한 연구원의 설명은 주어진 키프레임 세트에서 쿼리와 가장 유사한 키이지만 좋은 출력을 생성하기에는 충분하지 않을 수 있다는 것입니다.

예를 들어 원본 이미지에는 입술을 다물고 있는 얼굴이 있고, 운전자 이미지에는 입술을 벌리고 치아가 노출된 얼굴이 있다고 가정해 보겠습니다. 이 경우 원본 이미지에는 이미지의 입 영역을 구동할 적절한 키(및 값)가 없습니다.

이 방법은 소스 이미지의 정보 부족에 대처할 수 있는 이미지 독립적인 키-값 쌍을 추가로 학습하여 이 문제를 극복합니다.

현재 구현은 512x512픽셀 이미지에서 약 10FPS로 매우 빠르지만 연구원들은 향후 버전에서는 인수분해된 I-D 주의 계층 또는 SRA(Spatial Reduced Attention) 계층(예: 피라미드 시각적 개체)을 사용하여 파이프라인을 개선할 수 있다고 믿습니다. Transformer)를 최적화합니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

암시적 워핑은 Local Attention 대신 Global Attention을 사용하기 때문에 이전 모델이 예측할 수 없었던 요소를 예측할 수 있습니다.

실험 결과

연구원들은 VoxCeleb2 데이터 세트, 더 까다로운 TED Talk 데이터 세트 및 TalkingHead-1KH 데이터 세트에서 시스템을 테스트하여 256x256px과 전체 512x512px 해상도 사이의 기준선을 비교했습니다. 사용된 측정 항목에는 FID, AlexNet 기반 LPIPS가 포함됩니다 및 피크 신호 대 잡음비(pSNR).

테스트에 사용된 비교 프레임워크에는 AA-PCA뿐만 아니라 FOMM 및 Face-vid2vid도 포함됩니다. 이전 방법에는 여러 키프레임을 사용할 수 있는 기능이 거의 또는 전혀 없었기 때문에 이는 암시적 왜곡의 주요 혁신이기도 합니다. 테스트 방법.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

암시적 워핑은 대부분의 측정항목에서 대부분의 대조 방법보다 성능이 뛰어납니다.

연구원들이 최대 180개 프레임의 시퀀스와 선택된 간격 프레임을 사용한 다중 키프레임 재구성 테스트에서 이번에는 암시적 왜곡이 전반적으로 승리했습니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

소스 이미지의 수가 증가할수록 이 방법은 더 나은 재구성 결과를 얻을 수 있으며 모든 지표의 점수가 향상됩니다.

그리고 소스 이미지의 수가 늘어날수록 기대와는 달리 전작의 재구성 효과가 더욱 심해집니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

AMT 직원을 통해 정성적 연구를 진행한 결과 암묵적 변형의 생성 결과가 다른 방법보다 강력하다고 판단됩니다.

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 암시적 왜곡은 얼마나 강력합니까?

이 프레임워크에 액세스하면 사용자는 더 일관되고 긴 비디오 시뮬레이션과 전신 딥페이크 비디오를 제작할 수 있으며, 모두 시스템이 실험한 어떤 프레임워크보다 더 나은 성능을 보여줄 수 있습니다. 와. 운동 범위가 훨씬 넓어졌습니다.

그러나 보다 사실적인 이미지 합성에 대한 연구는 우려를 불러일으킵니다. 왜냐하면 이러한 기술은 위조에 쉽게 사용될 수 있고 논문에 표준 면책조항이 있기 때문입니다.

저희 방법을 사용하여 DeepFake 제품을 만드는 경우 부정적인 결과를 초래할 수 있습니다. 악성 음성 합성은 신원 간 허위 정보를 전송 및 전송함으로써 사람에 대한 허위 이미지를 생성하여 신원 도용이나 허위 뉴스 확산으로 이어집니다. 그러나 통제된 환경에서는 동일한 기술을 오락 목적으로도 사용할 수 있습니다.

또한 이 논문에서는 재구성 노력이 주로 클라이언트 측에 집중되어 상대방의 희박한 모션 정보를 활용하는 Google의 Project Starline과 같은 신경 비디오 재구성을 위한 이 시스템의 잠재력을 지적합니다.

이 솔루션은 연구 커뮤니티의 관심을 점점 더 끌고 있으며, 순수한 모션 데이터 또는 성긴 간격의 키프레임을 전송하여 낮은 대역폭 전화 회의를 구현하려는 회사도 있습니다. 이는 대상 클라이언트에 도달할 때 해석됩니다. . 풀 HD 비디오에 삽입됩니다.

위 내용은 DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 '암시적 왜곡'은 얼마나 강력합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7455

Cakephp 튜토리얼

1375

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Mar 06, 2024 pm 05:34 PM

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

좌표계 변환을 실제로 마스터하셨나요? 자율주행에 필수불가결한 멀티센서 이슈 Oct 12, 2023 am 11:21 AM

첫 번째 파일럿 및 주요 기사에서는 주로 자율 주행 기술에서 일반적으로 사용되는 여러 좌표계를 소개하고 이들 간의 상관 관계 및 변환을 완료하고 최종적으로 통합 환경 모델을 구축하는 방법을 소개합니다. 여기서 초점은 차량에서 카메라 강체로의 변환(외부 매개변수), 카메라에서 이미지로의 변환(내부 매개변수), 이미지에서 픽셀 단위로의 변환을 이해하는 것입니다. 3D에서 2D로의 변환에는 해당 왜곡, 변환 등이 포함됩니다. 요점: 차량 좌표계와 카메라 본체 좌표계를 다시 작성해야 합니다. 평면 좌표계와 픽셀 좌표계 난이도: 이미지 평면에서 왜곡 제거와 왜곡 추가를 모두 고려해야 합니다. 2. 소개 좌표계에는 픽셀 평면 좌표계(u, v), 이미지 좌표계(x, y), 카메라 좌표계(), 월드 좌표계() 등 총 4가지 비전 시스템이 있습니다. 각 좌표계 사이에는 관계가 있으며,

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

DualBEV: BEVFormer 및 BEVDet4D를 크게 능가하는 책을 펼치세요! Mar 21, 2024 pm 05:21 PM

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.

최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 | Oct 23, 2023 am 11:13 AM

저자 개인 생각 중 일부 자율주행 분야에서는 BEV 기반의 하위 작업/End-to-End 솔루션 개발로 인해 고품질의 다시점 훈련 데이터와 그에 따른 시뮬레이션 장면 구축이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다. 다양한 차원의 롱테일 시나리오(예: 장애물 데이터의 근거리 차량 및 자동차 절단 과정의 정확한 방향 각도) 곡률이 다른 곡선이나 경사로/병합/병합 등 캡처하기 어려운 차선 데이터. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다. 3D 진정한 가치 - 매우 일관된 이미지: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류에 의해 영향을 받는 경우가 많습니다. 이것이 나를 이끌었다

GSLAM | 일반적인 SLAM 아키텍처 및 벤치마크 Oct 20, 2023 am 11:37 AM

갑자기 발견한 19년 된 논문 GSLAM: A General SLAM Framework and Benchmark 오픈소스 코드: https://github.com/zdzhaoyong/GSLAM 전문으로 직접 가서 이 작품의 퀄리티를 느껴보세요~1 Abstract SLAM technology 최근 많은 성공을 거두었으며 많은 첨단 기술 기업의 관심을 끌었습니다. 그러나 기존 또는 신흥 알고리즘에 대한 인터페이스를 사용하여 속도, 견고성 및 이식성에 대한 벤치마크를 효과적으로 수행하는 방법은 여전히 문제로 남아 있습니다. 본 논문에서는 평가 기능을 제공할 뿐만 아니라 연구자에게 자체 SLAM 시스템을 신속하게 개발할 수 있는 유용한 방법을 제공하는 GSLAM이라는 새로운 SLAM 플랫폼을 제안합니다.

'마인크래프트'가 AI 마을로 변신, NPC 주민들이 실제 사람처럼 역할극 Jan 02, 2024 pm 06:25 PM

이 네모난 남자는 눈앞에 있는 '불청객'의 정체를 고민하며 미간을 찌푸리고 있다는 점에 주목해주세요. 알고 보니 그녀는 위험한 상황에 처해 있었고, 이를 깨닫자마자 문제를 해결하기 위한 전략을 찾기 위해 재빨리 정신적 탐색을 시작했습니다. 결국 그녀는 현장을 떠나 가능한 한 빨리 도움을 구하고 즉각적인 조치를 취하기로 결정했습니다. 동시에 반대편에 있는 사람도 그녀와 같은 생각을 하고 있었는데... <마인크래프트>에도 모든 캐릭터가 인공지능에 의해 조종되는 장면이 있었다. 예를 들어 앞서 언급한 소녀는 17세지만 똑똑하고 용감한 택배기사입니다. 그들은 마인크래프트를 배경으로 한 이 작은 마을에서 인간처럼 기억하고 생각하며 살아갈 수 있는 능력을 가지고 있습니다. 그들을 움직이는 것은 아주 새로운 것입니다.

검토! 심층 모델 융합(LLM/기본 모델/연합 학습/미세 조정 등) Apr 18, 2024 pm 09:43 PM

9월 23일, 국립방위기술대학교, JD.com 및 베이징 공과대학이 "DeepModelFusion:ASurvey"라는 논문을 발표했습니다. 딥 모델 융합/병합은 여러 딥 러닝 모델의 매개변수나 예측을 단일 모델로 결합하는 새로운 기술입니다. 이는 더 나은 성능을 위해 개별 모델의 편향과 오류를 보상하기 위해 다양한 모델의 기능을 결합합니다. 대규모 딥 러닝 모델(예: LLM 및 기본 모델)에 대한 딥 모델 융합은 높은 계산 비용, 고차원 매개변수 공간, 서로 다른 이종 모델 간의 간섭 등을 포함한 몇 가지 문제에 직면합니다. 이 기사에서는 기존 심층 모델 융합 방법을 네 가지 범주로 나눕니다. (1) 더 나은 초기 모델 융합을 얻기 위해 손실 감소 경로를 통해 가중치 공간의 솔루션을 연결하는 "패턴 연결"

See all articles

DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 '암시적 왜곡'은 얼마나 강력합니까?

모델 구조

실험 결과

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제