DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 '암시적 왜곡'은 얼마나 강력합니까?
최근 몇 년 동안 컴퓨터 비전 분야의 세대 기술은 점점 더 강력해졌고 이에 상응하는 "위조" 기술은 점점 더 성숙해졌습니다. DeepFake 얼굴 변경부터 동작 시뮬레이션까지 구별하기가 어렵습니다. 가짜와 진짜.
최근 NVIDIA는 NeurIPS 2022 컨퍼런스에서 소스 이미지 세트와 구동 비디오 모션을 사용하는 새로운 암시적 워핑 프레임워크를 출시했습니다. .
논문 링크: https://arxiv.org/pdf/2210.01794.pdf
효과 측면에서 보면 생성된 이미지가 더 사실적이며, 동영상에서 캐릭터가 움직이고,배경에는 변화가 없습니다.
입력된 여러 소스 이미지는 일반적으로다른 모양 정보를 제공하여 생성기의 “환상” 공간을 줄입니다. 예를 들어 다음 두 가지를 모델 입력으로 사용합니다.
다른 모델에 비해 암시적 왜곡은 미용 효과와 유사한 "공간 왜곡"을 생성하지 않는 것을 확인할 수 있습니다.사람이 가려져 있기 때문에 여러 소스 이미지를 사용하면
더 완벽한 배경을 제공할 수도 있습니다.
배경뒤가 "BD"인지 "ED"인지 추측이 어렵습니다. 배경이 왜곡되어 두 장의 사진이 더욱 안정적인 이미지를 생성합니다.
다른 모델과 비교할 때 원본 이미지 하나만 사용하는 효과가 더 좋습니다.
Magic Implicit Distortion
모든 방법이 단일 이미지 프레임에서 동영상을 생성하려는 것은 아닙니다. 동영상의 각 프레임에 대해 복잡한 계산을 수행하는 일부 연구도 있습니다. 이는 실제로 Deepfake가 취하는 모방 경로입니다.
그러나 DeepFake 모델은 더 적은 정보를 획득하기 때문에 이 방법은 각 비디오 클립에 대한 훈련이 필요하며, 다수의 ID에 ID를 부여할 수 있는 DeepFaceLab 또는 FaceSwap의 오픈 소스 방법에 비해 성능이 저하됩니다. 비디오 클립.
2019년에 출시된 FOMM 모델은 캐릭터가 영상과 함께 움직일 수 있어 영상 모방 작업에 또 다른 기회를 줍니다.
이후 다른 연구자들은 단일 얼굴 이미지 또는 전신 표현에서 다양한 포즈와 표정을 얻으려고 시도했지만, 이 방법은 일반적으로 비교적 가만히 있는 "말하는" 머리와 같이 상대적으로 무표정하고 움직이지 않는 피사체에만 적용됩니다. 왜냐하면 네트워크가 해석해야 하는 얼굴 표정이나 몸짓에 '갑작스러운 행동 변화'가 없기 때문입니다.
이번에 NVIDIA가 중점을 두는 암시적 왜곡은 한 프레임에서 필요한 모든 자세 정보를 얻는 것이 아니라 여러 프레임 사이 또는 심지어 두 프레임 사이에서만 정보를 얻는 것입니다. 이 설정은 다른 경쟁 모델에도 없습니다. , 또는 매우 제대로 처리되지 않습니다.
예를 들어 디즈니의 워크플로는 선배 애니메이터들이 메인 프레임과 키 프레임을 그리고 다른 후배 애니메이터들이 중간 프레임을 그리는 방식입니다. NVIDIA 연구진은 이전 버전에 대한 테스트를 통해 이전 방식의 경우 "키 프레임"이 추가되면 결과 품질이 저하되는 반면, 새로운 방식은 키 프레임 수가 증가함에 따라 애니메이션 제작 논리와 일치한다는 사실을 발견했습니다. , 숫자가 증가할수록 성능도 선형적으로 향상됩니다. 시작 프레임이나 끝 프레임에 표시되지 않는 이벤트나 표현 등 클립 중간에 갑작스러운 변화가 있는 경우 암시적 왜곡이 이 중간 지점에 프레임을 추가할 수 있으며 추가 정보는 전체 클립의 주의 메커니즘으로 다시 피드백됩니다. FOMM, Monkey-Net 및 Face-vid2vid와 같은 이전 방법은 명시적 워핑을 사용하여 시계열을 그리며 원본 얼굴 및 제어 동작에서 추출된 정보는 이에 적응되고 일관되어야 합니다. 시계열. 이 모델 디자인에서는 핵심 포인트의 최종 매핑이 상당히 엄격합니다. 반대로 암시적 워핑은 워크플로에 포함된 사전 정의된 부트스트래핑이 더 적은 크로스 모달 어텐션 레이어를 사용하며 여러 프레임워크의 입력에 적응할 수 있습니다. 워크플로에서는 키별로 왜곡이 필요하지 않으며 시스템은 일련의 이미지에서 가장 적절한 기능을 선택할 수 있습니다. 암시적 워핑은 FOMM 프레임워크의 일부 키포인트 예측 구성요소를 재사용하고 마지막으로 간단한 U-net을 사용하여 파생된 공간 기반 키포인트 표현을 인코딩합니다. 별도의 U-net은 파생된 공간 표현과 함께 소스 이미지를 인코딩하는 데 사용됩니다. 두 네트워크 모두 64px(256px 제곱 출력)에서 384x384px 범위의 해상도에서 작동할 수 있습니다. 이 메커니즘은 특정 비디오에서 가능한 모든 포즈 및 움직임 변화를 자동으로 설명할 수 없기 때문에 추가 키프레임이 필요하며 임시적으로 추가할 수 있습니다. 이러한 개입 기능이 없으면 대상 동작 지점과 충분히 유사하지 않은 키가 자동으로 업데이트되어 출력 품질이 저하됩니다. 이에 대한 연구원의 설명은 주어진 키프레임 세트에서 쿼리와 가장 유사한 키이지만 좋은 출력을 생성하기에는 충분하지 않을 수 있다는 것입니다. 예를 들어 원본 이미지에는 입술을 다물고 있는 얼굴이 있고, 운전자 이미지에는 입술을 벌리고 치아가 노출된 얼굴이 있다고 가정해 보겠습니다. 이 경우 원본 이미지에는 이미지의 입 영역을 구동할 적절한 키(및 값)가 없습니다. 이 방법은 소스 이미지의 정보 부족에 대처할 수 있는 이미지 독립적인 키-값 쌍을 추가로 학습하여 이 문제를 극복합니다. 현재 구현은 512x512픽셀 이미지에서 약 10FPS로 매우 빠르지만 연구원들은 향후 버전에서는 인수분해된 I-D 주의 계층 또는 SRA(Spatial Reduced Attention) 계층(예: 피라미드 시각적 개체)을 사용하여 파이프라인을 개선할 수 있다고 믿습니다. Transformer)를 최적화합니다. 암시적 워핑은 Local Attention 대신 Global Attention을 사용하기 때문에 이전 모델이 예측할 수 없었던 요소를 예측할 수 있습니다. 연구원들은 VoxCeleb2 데이터 세트, 더 까다로운 TED Talk 데이터 세트 및 TalkingHead-1KH 데이터 세트에서 시스템을 테스트하여 256x256px과 전체 512x512px 해상도 사이의 기준선을 비교했습니다. 사용된 측정 항목에는 FID, AlexNet 기반 LPIPS가 포함됩니다 및 피크 신호 대 잡음비(pSNR). 테스트에 사용된 비교 프레임워크에는 AA-PCA뿐만 아니라 FOMM 및 Face-vid2vid도 포함됩니다. 이전 방법에는 여러 키프레임을 사용할 수 있는 기능이 거의 또는 전혀 없었기 때문에 이는 암시적 왜곡의 주요 혁신이기도 합니다. 테스트 방법. 암시적 워핑은 대부분의 측정항목에서 대부분의 대조 방법보다 성능이 뛰어납니다. 연구원들이 최대 180개 프레임의 시퀀스와 선택된 간격 프레임을 사용한 다중 키프레임 재구성 테스트에서 이번에는 암시적 왜곡이 전반적으로 승리했습니다. 소스 이미지의 수가 증가할수록 이 방법은 더 나은 재구성 결과를 얻을 수 있으며 모든 지표의 점수가 향상됩니다. 그리고 소스 이미지의 수가 늘어날수록 기대와는 달리 전작의 재구성 효과가 더욱 심해집니다. AMT 직원을 통해 정성적 연구를 진행한 결과 암묵적 변형의 생성 결과가 다른 방법보다 강력하다고 판단됩니다. 이 프레임워크에 액세스하면 사용자는 더 일관되고 긴 비디오 시뮬레이션과 전신 딥페이크 비디오를 제작할 수 있으며, 모두 시스템이 실험한 어떤 프레임워크보다 더 나은 성능을 보여줄 수 있습니다. 와. 운동 범위가 훨씬 넓어졌습니다. 그러나 보다 사실적인 이미지 합성에 대한 연구는 우려를 불러일으킵니다. 왜냐하면 이러한 기술은 위조에 쉽게 사용될 수 있고 논문에 표준 면책조항이 있기 때문입니다. 저희 방법을 사용하여 DeepFake 제품을 만드는 경우 부정적인 결과를 초래할 수 있습니다. 악성 음성 합성은 신원 간 허위 정보를 전송 및 전송함으로써 사람에 대한 허위 이미지를 생성하여 신원 도용이나 허위 뉴스 확산으로 이어집니다. 그러나 통제된 환경에서는 동일한 기술을 오락 목적으로도 사용할 수 있습니다. 또한 이 논문에서는 재구성 노력이 주로 클라이언트 측에 집중되어 상대방의 희박한 모션 정보를 활용하는 Google의 Project Starline과 같은 신경 비디오 재구성을 위한 이 시스템의 잠재력을 지적합니다. 이 솔루션은 연구 커뮤니티의 관심을 점점 더 끌고 있으며, 순수한 모션 데이터 또는 성긴 간격의 키프레임을 전송하여 낮은 대역폭 전화 회의를 구현하려는 회사도 있습니다. 이는 대상 클라이언트에 도달할 때 해석됩니다. . 풀 HD 비디오에 삽입됩니다. 모델 구조
실험 결과
위 내용은 DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 '암시적 왜곡'은 얼마나 강력합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

첫 번째 파일럿 및 주요 기사에서는 주로 자율 주행 기술에서 일반적으로 사용되는 여러 좌표계를 소개하고 이들 간의 상관 관계 및 변환을 완료하고 최종적으로 통합 환경 모델을 구축하는 방법을 소개합니다. 여기서 초점은 차량에서 카메라 강체로의 변환(외부 매개변수), 카메라에서 이미지로의 변환(내부 매개변수), 이미지에서 픽셀 단위로의 변환을 이해하는 것입니다. 3D에서 2D로의 변환에는 해당 왜곡, 변환 등이 포함됩니다. 요점: 차량 좌표계와 카메라 본체 좌표계를 다시 작성해야 합니다. 평면 좌표계와 픽셀 좌표계 난이도: 이미지 평면에서 왜곡 제거와 왜곡 추가를 모두 고려해야 합니다. 2. 소개 좌표계에는 픽셀 평면 좌표계(u, v), 이미지 좌표계(x, y), 카메라 좌표계(), 월드 좌표계() 등 총 4가지 비전 시스템이 있습니다. 각 좌표계 사이에는 관계가 있으며,

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.

저자 개인 생각 중 일부 자율주행 분야에서는 BEV 기반의 하위 작업/End-to-End 솔루션 개발로 인해 고품질의 다시점 훈련 데이터와 그에 따른 시뮬레이션 장면 구축이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다. 다양한 차원의 롱테일 시나리오(예: 장애물 데이터의 근거리 차량 및 자동차 절단 과정의 정확한 방향 각도) 곡률이 다른 곡선이나 경사로/병합/병합 등 캡처하기 어려운 차선 데이터. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다. 3D 진정한 가치 - 매우 일관된 이미지: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류에 의해 영향을 받는 경우가 많습니다. 이것이 나를 이끌었다

갑자기 발견한 19년 된 논문 GSLAM: A General SLAM Framework and Benchmark 오픈소스 코드: https://github.com/zdzhaoyong/GSLAM 전문으로 직접 가서 이 작품의 퀄리티를 느껴보세요~1 Abstract SLAM technology 최근 많은 성공을 거두었으며 많은 첨단 기술 기업의 관심을 끌었습니다. 그러나 기존 또는 신흥 알고리즘에 대한 인터페이스를 사용하여 속도, 견고성 및 이식성에 대한 벤치마크를 효과적으로 수행하는 방법은 여전히 문제로 남아 있습니다. 본 논문에서는 평가 기능을 제공할 뿐만 아니라 연구자에게 자체 SLAM 시스템을 신속하게 개발할 수 있는 유용한 방법을 제공하는 GSLAM이라는 새로운 SLAM 플랫폼을 제안합니다.

이 네모난 남자는 눈앞에 있는 '불청객'의 정체를 고민하며 미간을 찌푸리고 있다는 점에 주목해주세요. 알고 보니 그녀는 위험한 상황에 처해 있었고, 이를 깨닫자마자 문제를 해결하기 위한 전략을 찾기 위해 재빨리 정신적 탐색을 시작했습니다. 결국 그녀는 현장을 떠나 가능한 한 빨리 도움을 구하고 즉각적인 조치를 취하기로 결정했습니다. 동시에 반대편에 있는 사람도 그녀와 같은 생각을 하고 있었는데... <마인크래프트>에도 모든 캐릭터가 인공지능에 의해 조종되는 장면이 있었다. 예를 들어 앞서 언급한 소녀는 17세지만 똑똑하고 용감한 택배기사입니다. 그들은 마인크래프트를 배경으로 한 이 작은 마을에서 인간처럼 기억하고 생각하며 살아갈 수 있는 능력을 가지고 있습니다. 그들을 움직이는 것은 아주 새로운 것입니다.

위에 작성됨 & 저자의 개인적인 이해는 이미지 기반 3D 재구성은 입력 이미지 세트에서 객체나 장면의 3D 모양을 추론하는 어려운 작업이라는 것입니다. 학습 기반 방법은 3차원 형상을 직접 추정할 수 있는 능력으로 주목을 받았습니다. 이 리뷰 논문은 새로운, 보이지 않는 뷰 생성을 포함한 최첨단 3D 재구성 기술에 중점을 두고 있습니다. 입력 유형, 모델 구조, 출력 표현 및 훈련 전략을 포함하여 가우스 스플래시 방법의 최근 개발에 대한 개요가 제공됩니다. 해결되지 않은 과제와 앞으로의 방향에 대해서도 논의한다. 해당 분야의 급속한 발전과 3D 재구성 방법을 향상할 수 있는 수많은 기회를 고려할 때 알고리즘을 철저히 조사하는 것이 중요해 보입니다. 따라서 이 연구는 가우스 산란의 최근 발전에 대한 포괄적인 개요를 제공합니다. (엄지손가락을 위로 스와이프하세요.
