확산 모델은 이미지 생성에서 눈부신 성공을 거두었지만 이를 비디오 초해상도에 적용하는 데에는 여전히 어려움이 있습니다. 비디오 초해상도에는 출력 충실도와 시간적 일관성이 필요하며 이는 확산 모델의 고유한 확률성으로 인해 복잡해집니다. 따라서 확산 모델을 비디오 초해상도에 효과적으로 적용하는 것은 여전히 어려운 작업으로 남아 있습니다.
난양 기술 대학교 S-Lab 연구팀은 비디오 초해상도를 위해 Upscale-A-Video라는 텍스트 기반 잠재 확산 프레임워크를 제안했습니다. 프레임워크는 두 가지 주요 메커니즘을 통해 시간적 일관성을 보장합니다. 첫째, 로컬 규모에서는 시간 레이어를 U-Net 및 VAE-Decoder에 통합하여 짧은 시퀀스의 일관성을 유지합니다. 둘째, 글로벌 규모에서 프레임워크는 훈련 없이 시퀀스 전반에 걸쳐 잠재성을 전파 및 융합하는 흐름 유도 반복 잠재성 전파 모듈을 도입하여 전반적인 비디오 안정성을 향상시킵니다. 이 프레임워크의 제안은 더 나은 시간적 일관성과 전반적인 안정성을 갖춘 비디오 초해상도를 위한 새로운 솔루션을 제공합니다.
논문 주소: https://arxiv.org/abs/2312.06640
Upscale-A-Video는 확산 패러다임을 통해 뛰어난 유연성을 얻습니다. 텍스트 프롬프트를 사용하여 텍스처 생성을 안내할 수 있으며, 노이즈 수준을 조정하여 복구와 생성 간의 충실도와 품질의 균형을 맞출 수 있습니다. 이 기능을 사용하면 원본 콘텐츠의 의미를 유지하면서 세부 사항을 미세 조정할 수 있어 보다 정확한 결과를 얻을 수 있습니다.
실험 결과에 따르면 Upscale-A-Video는 합성 및 실제 벤치마크에서 기존 방법보다 성능이 뛰어나며 인상적인 시각적 현실감과 시간적 일관성을 제공합니다.
먼저 몇 가지 구체적인 예를 살펴보겠습니다. 예를 들어 Upscale-A-Video의 도움으로 "화과산의 유명한 장면"에는 고화질 버전이 있습니다.
StableSR과 비교, Upscale -A-Video는 비디오를 만듭니다. 다람쥐 머리 질감은 다음에서 명확하게 볼 수 있습니다.
방법 소개
일부 연구에서는 시간적 일관성 전략을 도입하여 비디오 작업에 적응하기 위해 이미지 확산 모델을 최적화합니다. 이러한 전략에는 다음 두 가지 방법이 포함됩니다. 첫째, 3D 컨볼루션 및 Temporal Attention과 같은 시간적 계층을 통해 비디오 모델을 미세 조정하여 비디오 처리 성능을 향상시키는 것입니다. 둘째, 프레임 간 주의 및 흐름 유도 주의와 같은 제로샷 메커니즘을 사용하여 사전 훈련된 모델을 조정하여 비디오 작업의 성능을 향상시킵니다. 이러한 방법을 도입하면 이미지 확산 모델이 비디오 작업을 더 잘 처리할 수 있어 비디오 처리 효과가 향상됩니다.
이러한 솔루션은 비디오 안정성을 크게 향상시키지만 두 가지 주요 문제가 여전히 존재합니다.
U-Net 기능이나 잠재 공간에서 작동하는 현재 방법은 낮은 수준의 일관성을 유지하는 데 어려움을 겪고 있으며 텍스처 깜박임과 같은 문제가 여전히 존재합니다.
기존 시간 계층 및 주의 메커니즘은 짧은 로컬 입력 시퀀스에만 제약을 가할 수 있으므로 긴 비디오에서 전체 시간적 일관성을 보장하는 기능이 제한됩니다.
이러한 문제를 해결하기 위해 Upscale-A-Video는 세밀한 질감과 전체적인 일관성에 중점을 두고 비디오 재구성에서 시간적 일관성을 유지하는 로컬-글로벌 전략을 채택합니다. 로컬 비디오 클립에서 이 연구는 사전 훈련된 이미지 ×4 초해상도 모델을 미세 조정하기 위해 비디오 데이터의 추가 시간 레이어를 사용하는 방법을 탐색합니다.
구체적으로, 잠재 확산 프레임워크 내에서 이 연구는 먼저 통합된 3D 컨볼루션 및 Temporal Attention 레이어를 사용하여 U-Net을 미세 조정한 다음 비디오 조건 입력 및 3D 컨볼루션을 사용하여 VAE 디코더를 조정합니다. 전자는 로컬 시퀀스의 구조적 안정성을 크게 달성하고 후자는 낮은 수준의 일관성을 더욱 향상시키고 텍스처 깜박임을 줄입니다. 글로벌 규모에서 이 연구는 추론 중에 프레임별 전파와 잠재 융합을 양방향으로 수행하여 긴 비디오의 전반적인 안정성을 향상시키는 새로운 훈련 없는 흐름 유도 반복 잠재 전파 모듈을 소개합니다.
Upscale-A-Video 모델은 그림 1과 같이 텍스트 프롬프트를 선택적 조건으로 사용하여 모델이 보다 사실적이고 고품질의 세부 정보를 생성하도록 안내할 수 있습니다.
Upscale-A-Video는 비디오를 세그먼트로 나누고 시간 레이어가 있는 U-Net을 사용하여 처리하여 세그먼트 내 일관성을 유지합니다. 순환 잠재 전파 모듈은 사용자가 지정한 전역 정제 확산 중에 조각 간 일관성을 향상시키는 데 사용됩니다. 마지막으로, 미세 조정된 VAE 디코더는 깜박임 아티팩트를 줄이고 낮은 수준의 일관성을 달성합니다.
실험 결과
Upscale-A-Video는 기존 벤치마크에서 SOTA 성능을 달성하여 뛰어난 시각적 현실감과 시간적 일관성을 보여줍니다.
정량적 평가. 표 1에서 볼 수 있듯이 Upscale-A-Video는 4가지 합성 데이터 세트 모두에서 가장 높은 PSNR을 달성하여 탁월한 재구성 기능을 나타냅니다.
정성적 평가. 이 연구는 각각 그림 4와 5에 합성 비디오와 실제 비디오에 대한 시각적 결과를 보여줍니다. Upscale-A-Video는 아티팩트 제거 및 디테일 생성 측면에서 기존 CNN 및 확산 기반 방법보다 훨씬 뛰어난 성능을 제공합니다.
위 내용은 '화과산의 유명한 장면'에는 고화질 버전이 있으며 NTU는 비디오 초해상도 프레임워크 Upscale-A-Video를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!