텍스트를 입력하면 AI가 영상을 생성해 줍니다. 이전에는 사람들의 상상 속에서만 보였던 이 기능이 이제는 기술의 발전으로 실현되었습니다.
최근 몇 년간 생성 인공지능(Genetive Artificial Intelligence)은 컴퓨터 비전 분야에서 큰 주목을 받고 있습니다. 확산 모델의 출현으로 텍스트 프롬프트에서 고품질 이미지를 생성하는 것, 즉 텍스트-이미지 합성이 매우 대중화되고 성공적이 되었습니다.
최근 연구에서는 텍스트-이미지 확산 모델을 비디오 영역에서 재사용하여 텍스트-비디오 생성 및 편집 작업으로 성공적으로 확장하려는 시도가 있습니다. 이러한 방법은 유망한 결과를 얻었지만 대부분은 많은 양의 레이블이 지정된 데이터를 사용하여 광범위한 교육이 필요하므로 많은 사용자에게 너무 비쌀 수 있습니다.
비디오 생성 비용을 저렴하게 만들기 위해 지난해 Jay Zhangjie Wu 등이 제안한 Tune-A-Video에서는 SD(Stable Diffusion) 모델을 비디오 분야에 적용하는 메커니즘을 도입했습니다. 비디오 하나만 조정하면 되므로 교육 작업량을 크게 줄일 수 있습니다. 이는 이전 방법보다 훨씬 효율적이지만 여전히 최적화가 필요합니다. 또한 Tune-A-Video의 생성 기능은 텍스트 안내 비디오 편집 응용 프로그램으로 제한되며 처음부터 비디오를 합성하는 것은 그 기능을 넘어서는 수준입니다.
이 기사에서 Picsart AI Resarch(PAIR), University of Texas at Austin 및 기타 기관의 연구원들은 제로샷 및 훈련 없이 텍스트-비디오 합성이라는 새로운 문제에서 한 걸음 더 나아갔습니다. 최적화나 미세 조정 없이 텍스트 프롬프트를 기반으로 비디오를 생성합니다.
어떻게 작동하는지 살펴보겠습니다. 예를 들어, 팬더는 서핑을 하고 있고, 곰은 타임스퀘어에서 춤을 추고 있습니다.
연구에서는 대상을 기반으로 작업을 생성할 수도 있습니다.
이 백서에서 제안된 접근 방식의 핵심 개념은 사전 학습된 텍스트-이미지 모델(예: Stable Diffusion)을 수정하여 시간 일치 생성으로 이를 강화하는 것입니다. . 이미 훈련된 텍스트-이미지 모델을 기반으로 하는 우리의 접근 방식은 탁월한 이미지 생성 품질을 활용하여 추가 교육 없이도 비디오 도메인에 대한 적용성을 향상시킵니다.
시간적 일관성을 높이기 위해 이 논문에서는 두 가지 혁신적인 수정 사항을 제안합니다. (1) 먼저 생성된 프레임의 잠재 인코딩을 모션 정보로 풍부하게 하여 전역 장면과 배경을 시간적으로 일관되게 유지합니다. (2) 그런 다음 교차를 사용합니다. - 시퀀스 전반에 걸쳐 전경 개체의 컨텍스트, 모양 및 ID를 보존하는 프레임 주의 메커니즘. 실험에 따르면 이러한 간단한 수정으로 고품질의 시간적으로 일관된 비디오를 생성할 수 있습니다(그림 1 참조).
다른 사람들의 작업은 대규모 비디오 데이터에 대해 훈련된 반면, 우리의 접근 방식은 유사하고 때로는 더 나은 성능을 달성합니다(그림 8, 9 참조).
본 논문의 방법은 텍스트-비디오 합성에만 국한되지 않고 조건부(그림 6, 5 참조) 및 특수 비디오에도 적합합니다. 생성(그림 7 참조), Instruct-Pix2Pix에 의해 구동되는 Video Instruct-Pix2Pix라고 할 수 있는 지침 기반 비디오 편집(그림 9 참조)이 있습니다.
본 논문에서는 SD(Stable Diffusion)의 텍스트-이미지 합성 기능을 활용하여 텍스트-비디오 작업을 제로에서 처리합니다. - 총격 상황. 이미지 생성보다는 비디오 생성 요구에 따라 SD는 기본 코드 시퀀스의 작동에 중점을 두어야 합니다. 순진한 접근 방식은 표준 가우스 분포(예:
N (0, I) )에서 m개의 잠재적 코드를 독립적으로 샘플링하고 DDIM 샘플링을 적용하여 해당 텐서를 얻습니다
이 논문에서는 다음 두 가지 방법을 제안합니다. (i) 잠재 인코딩 간의 모션 역학을 도입 (ii) 전역 장면의 시간적 일관성을 유지합니다. 전경 개체의 모양과 정체성을 보존하기 위한 프레임 주의 메커니즘. 본 문서에 사용된 방법의 각 구성 요소는 아래에 자세히 설명되어 있으며 방법의 개요는 그림 2에서 확인할 수 있습니다.
표기를 단순화하기 위해 이 문서에서는 전체 잠재적 코드 시퀀스를 다음과 같이 나타냅니다.
정성적 결과
Text2Video-Zero의 모든 애플리케이션은 성공적으로 비디오를 생성함을 보여줍니다. , 전체 장면과 배경이 시간적으로 일관되고 전경 개체의 컨텍스트, 모양 및 ID가 시퀀스 전체에서 유지됩니다.
텍스트-투-비디오의 경우 텍스트 프롬프트와 잘 어울리는 고품질 비디오를 생성하는 것을 관찰할 수 있습니다(그림 3 참조). 예를 들어, 팬더는 거리를 자연스럽게 걷는 모습이 그려져 있습니다. 마찬가지로 추가 가장자리 또는 포즈 지침(그림 5, 그림 6 및 그림 7 참조)을 사용하여 프롬프트 및 지침과 일치하는 고품질 비디오가 생성되어 우수한 시간적 일관성과 ID 보존을 보여줍니다.
Video Instruct-Pix2Pix(그림 1 참조)의 경우 생성된 비디오는 지침을 엄격히 따르면서 입력 비디오와 관련하여 높은 충실도를 갖습니다.
기준선과의 비교
이 문서에서는 해당 방법을 공개적으로 사용 가능한 두 가지 기준선인 CogVideo 및 Tune-A-Video와 비교합니다. CogVideo는 텍스트-비디오 방식이므로 이 기사에서는 Tune-A-Video와 비교하기 위해 Video Instruct-Pix2Pix를 사용하여 일반 텍스트 기반 비디오 합성 시나리오에서 이를 비교합니다.
정량적 비교를 위해 이 기사에서는 CLIP 점수를 사용하여 모델을 평가합니다. CLIP 점수는 비디오 텍스트 정렬 정도를 나타냅니다. CogVideo에서 생성된 25개의 비디오를 무작위로 획득하고 이 기사의 방법에 따라 동일한 팁을 사용하여 해당 비디오를 합성합니다. 우리 방법과 CogVideo의 CLIP 점수는 각각 31.19와 29.63입니다. 따라서 우리의 방법은 CogVideo보다 약간 더 낫습니다. 단, 후자는 94억 개의 매개변수를 갖고 있으며 비디오에 대한 대규모 교육이 필요합니다.
그림 8은 본 논문에서 제안한 방법의 여러 결과를 보여주며 CogVideo와의 정성적 비교를 제공합니다. 두 방법 모두 시퀀스 전반에 걸쳐 좋은 시간적 일관성을 보여 개체의 정체성과 해당 컨텍스트를 보존합니다. 우리의 방법은 더 나은 텍스트-비디오 정렬 기능을 보여줍니다. 예를 들어, 우리의 방법은 그림 8(b)에서 태양 아래에서 자전거를 타는 사람의 비디오를 올바르게 생성하는 반면 CogVideo는 배경을 달빛으로 설정합니다. 또한 그림 8(a)에서 우리의 방법은 눈 속에서 달리는 사람을 정확하게 보여주지만, CogVideo에서 생성된 비디오에서는 눈과 달리는 사람이 명확하게 보이지 않습니다.
Video Instruct-Pix2Pix의 정성적 결과와 프레임별 Instruct-Pix2Pix 및 Tune-AVideo와의 시각적 비교는 그림 9에 나와 있습니다. Instruct-Pix2Pix는 프레임당 우수한 편집 성능을 보여주지만 시간적 일관성이 부족합니다. 이는 다양한 스타일과 색상을 사용하여 눈과 하늘을 그리는 스키어를 묘사하는 비디오에서 특히 두드러집니다. 이러한 문제는 Video Instruct-Pix2Pix 방법을 사용하여 해결되었으며, 그 결과 시퀀스 전체에서 일시적으로 일관된 비디오 편집이 가능해졌습니다.
Tune-A-Video는 시간 일관성이 있는 비디오 생성을 생성하지만 이 기사의 접근 방식에 비해 지침 지침의 일관성이 떨어지고 로컬 편집을 만드는 데 어려움이 있으며 입력 시퀀스의 세부 정보가 손실됩니다. 이는 그림 9(왼쪽)에 묘사된 댄서의 비디오 편집을 보면 분명해집니다. Tune-A-Video와 비교하여 우리의 방법은 댄서 뒤의 벽이 거의 변하지 않는 등 배경을 더 잘 보존하면서 전체 의상을 더 밝게 칠합니다. Tune-A-Video는 심하게 변형된 벽을 그렸습니다. 또한 우리의 방법은 입력 세부 사항에 더 충실합니다. 예를 들어 Tune-A-Video에 비해 Video Instruction-Pix2Pix는 제공된 포즈를 사용하여 댄서를 그리고(그림 9 왼쪽) 입력 비디오에 나타나는 모든 스키어를 표시합니다(그림 9 왼쪽). 그림 9의 오른쪽 마지막 프레임에 표시됨). 위에서 언급한 Tune-A-Video의 모든 약점은 그림 23, 24에서도 확인할 수 있습니다.
위 내용은 동영상을 생성하는 것은 매우 쉽습니다. 힌트만 제공하고 온라인에서도 시도해 볼 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!