AI가 또 발전했나요?
그리고 한 장의 사진으로 연속 30초짜리 영상을 생성하는 종류입니다.
으음....화질이 좀 흐릿한거 아닌가요
이것은 단일 이미지(첫 번째 프레임)에서만 생성된 것이며 아무 것도 표시되지 않는다는 점을 알아두세요 기하학적 정보 .
DeepMind - Transframer에서 최근 제안한 확률적 프레임 예측을 기반으로 한 이미지 모델링 및 비전 작업을 위한 일반적인 프레임워크입니다.
간단히 말하면 Transframer를 사용하여 모든 프레임의 확률을 예측하는 것입니다.
이러한 프레임은 이전 비디오 프레임, 타임스탬프 또는 카메라 태그가 지정된 보기 장면일 수 있는 하나 이상의 주석이 달린 컨텍스트 프레임에 따라 조정될 수 있습니다.
먼저 이 마법 같은 Transframer 아키텍처가 어떻게 작동하는지 살펴보겠습니다.
페이퍼 주소는 아래에 있으니 관심 있는 아이들은 구경해보세요~ https://arxiv.org/abs/2203.09494
대상에 대한 예측 분포를 추정하기 위해서는 이미지를 위해서는 다양하고 고품질의 출력을 생성할 수 있는 표현 생성 모델이 필요합니다.
단일 이미지 도메인에서 DC Transformer의 결과는 요구 사항을 충족할 수 있지만 우리에게 필요한 다중 이미지 텍스트 세트 {(In,an)}n에서는 조건이 지정되지 않습니다.
그래서 우리는 DC Transformer를 확장하여 이미지 및 주석 조건부 예측을 가능하게 했습니다.
DC Transformer를 부분적으로 숨겨진 Target DCT 이미지는 물론 주석이 달린 프레임 세트를 처리하기 위해 다중 프레임 U-Net 아키텍처를 사용하여 단일 DCT 이미지에서 작동하는 Vision-Transformer 스타일 인코더로 교체했습니다.
Transframer 아키텍처가 어떻게 작동하는지 살펴보겠습니다.
(a) Transframer는 DCT 이미지(a1 및 a2)뿐만 아니라 부분적으로 숨겨진 대상 DCT 이미지(aT) 및 추가 주석을 입력으로 사용하며 이는 다중 프레임 U-Net 인코더에 의해 처리됩니다. 다음으로, U-Net 출력은 교차 주의를 통해 DC-Transformer 디코더로 전달되며, 이는 자동으로 회귀하여 대상 이미지의 숨겨진 부분에 해당하는 DCT 토큰 시퀀스(녹색 문자)를 생성합니다. (b) 다중 프레임 U-Net 블록은 NF-Net 컨볼루션 블록과 다중 프레임 self-attention 블록으로 구성되며, 입력 프레임과 Transformer 스타일 잔여 MLP 간에 정보를 교환합니다.
이미지 입력을 처리하는 Multi-Frame U-Net을 살펴보겠습니다.
U-Net에 대한 입력은 N개의 DCT 프레임과 부분적으로 숨겨진 타겟 DCT 프레임으로 구성된 시퀀스이며, 주석 정보는 각 입력 프레임과 연관된 벡터 형태로 제공됩니다.
U-Net의 핵심 구성 요소는 먼저 공유된 NF-ResNet 컨벌루션 블록을 각 입력 프레임에 적용한 다음 Transformer 스타일 self-attention 블록을 적용하여 프레임 정보를 집계하는 계산 블록입니다. (그림 2b)
NF-ResNet 블록은 TPU의 성능 향상을 목표로 그룹화된 convolution과 squeeze 및 excitation 레이어로 구성됩니다.
아래 그림 (a)는 RoboNet(128x128) 및 KITTI 비디오의 절대 및 잔차 DCT 표현의 희소성을 비교합니다.
RoboNet은 몇 개의 움직이는 요소만 포함된 정적 비디오로 구성되므로 잔여 프레임 표현의 희소성이 크게 증가합니다.
그리고 KITTI 비디오에는 일반적으로 카메라가 움직이기 때문에 연속 프레임의 거의 모든 부분에서 불일치가 발생합니다.
그러나 이 경우 작은 희소성의 이점도 약화됩니다.
일련의 데이터 세트와 작업에 대한 테스트를 통해 Transframer가 광범위한 작업에 적용될 수 있다는 결과가 나왔습니다.
비디오 모델링, 새로운 뷰 합성, 의미 분할, 객체 인식, 깊이 추정, 광학 흐름 예측 등 포함
비디오 모델링
Transframer를 통해 일련의 입력 비디오 프레임이 주어지면 다음 프레임을 예측합니다.
연구원들은 각각 KITTI와 RoboNet이라는 두 가지 데이터 세트를 사용하여 비디오 생성에 대한 Transframer의 성능을 훈련했습니다.
KITTI의 경우 5개의 컨텍스트 프레임과 25개의 샘플 프레임이 주어지면 Transframer 모델의 성능이 모든 측정 항목에서 향상되는 것으로 나타났으며 그중 LPIPS 및 FVD의 개선이 가장 두드러졌습니다.
RoboNet에서 연구원들은 2개의 컨텍스트 프레임과 10개의 샘플링 프레임을 받았고 각각 64x64 및 128x128 해상도로 훈련되었으며 마침내 매우 좋은 결과를 얻었습니다.
뷰 합성
뷰 합성 측면에서 표 1(3행)에 설명된 대로 카메라 뷰를 컨텍스트 및 타겟 주석으로 제공하고 여러 컨텍스트 뷰를 균일하게 샘플링합니다. 지정된 최대값까지.
Model Transframer는 ShapeNet 벤치마크에서 평가되었으며 1-2 상황별 뷰를 제공하여 PixelNeRF 및 SRN보다 훨씬 뛰어난 성능을 보였습니다.
또한 Objectron 데이터 세트를 평가한 후 단일 입력 뷰가 제공되면 모델이 일관된 출력을 생성하지만 의자 다리를 꼬는 것과 같은 일부 기능이 누락되는 것을 볼 수 있습니다.
컨텍스트 뷰가 1개 주어졌을 때 128×128 해상도로 합성된 뷰는 다음과 같습니다.
컨텍스트 뷰가 2개 더 주어졌을 때 128×128 해상도로 합성된 것입니다 보기는 다음과 같습니다:
다중 비전 작업
다양한 컴퓨터 비전 작업은 일반적으로 복잡한 아키텍처와 손실 함수를 사용하여 처리됩니다.
여기서 연구원들은 동일한 손실 함수를 사용하여 8가지 작업과 데이터 세트에 대해 Transframer 모델을 공동으로 훈련했습니다.
8가지 작업은 단일 이미지의 광학 흐름 예측, 객체 분류, 감지 및 분할, 의미론적 분할(2개 데이터 세트), 미래 프레임 예측 및 깊이 추정입니다.
결과에 따르면 Transframer는 완전히 다른 작업에서 다른 샘플을 생성하는 방법을 학습하고 Cityscapes와 같은 일부 작업에서는 모델이 고품질 출력을 생성합니다.
그러나 향후 프레임 예측 및 경계 상자 감지와 같은 작업에 대한 모델 출력의 품질은 가변적이므로 이 설정에서 모델링하는 것이 더 어렵다는 것을 의미합니다.
위 내용은 사진을 보내주시고 30초짜리 영상을 만들어주세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!