> 기술 주변기기 > 일체 포함 > 2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

WBOY
풀어 주다: 2024-03-27 15:17:00
앞으로
1115명이 탐색했습니다.

전장의 와이드 샷, 달리는 스톰트루퍼...

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

프롬프트: 전장의 와이드 샷, 스톰트루퍼의 달리기...

1200 프레임의 이 2분짜리 비디오는 텍스트( text )에서 생성된 비디오입니다. -to-video) 모델. AI의 흔적은 여전히 ​​뚜렷하지만, 캐릭터와 장면의 일관성은 꽤 좋은 편이다.

이 작업은 어떻게 수행되나요? Vincent 비디오 기술의 생성 품질과 텍스트 정렬 품질은 최근 몇 년 동안 상당히 좋아졌지만 대부분의 기존 방법은 짧은 비디오(보통 16~24프레임 길이)를 생성하는 데 중점을 둡니다. 그러나 짧은 비디오에 작동하는 기존 방법은 긴 비디오(≥ 64프레임)에서는 작동하지 않는 경우가 많습니다.

짧은 시퀀스를 생성하더라도 훈련 단계가 260K를 초과하고 배치 크기가 4500을 초과하는 등 비용이 많이 드는 훈련이 필요한 경우가 많습니다. 긴 비디오를 훈련하지 않고 짧은 비디오 생성기를 사용하여 긴 비디오를 생성하는 경우 결과적으로 긴 비디오의 품질이 떨어지는 경우가 많습니다. 기존의 자동 회귀 방식(짧은 영상의 마지막 몇 프레임을 이용하여 새로운 짧은 영상을 생성하고, 긴 영상을 합성하는 방식) 역시 장면 전환이 일관되지 않는 등의 문제점을 안고 있습니다.

기존 방식의 단점을 보완하기 위해 Picsart AI 연구소와 기타 기관이 공동으로 새로운 Vincent 영상 방식인 StreamingT2V를 제안했습니다. 이 방법은 자동회귀 기술을 사용하고 이를 장단기 기억 모듈과 결합하여 강력한 시간적 일관성을 갖춘 긴 비디오를 생성할 수 있습니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

  • 논문 제목: StreamingT2V: Consistency, Dynamic, and Extendable Long Video Generation from Text
  • 논문 주소: https://arxiv.org/abs/2403.14773
  • 프로젝트 주소: https ://streamingt2v.github.io/

다음은 600프레임 1분 영상 생성 결과입니다. 벌과 꽃의 일관성이 뛰어난 것을 확인할 수 있습니다.

그래서 팀에서는 조건 주의 모듈(CAM). CAM은 주의 메커니즘을 사용하여 이전 프레임의 정보를 효과적으로 통합하여 새 프레임을 생성하고 이전 프레임의 구조나 모양에 제한을 받지 않고 새 프레임의 모션을 자유롭게 처리할 수 있습니다.

생성된 영상에서 사람과 사물의 외형 변화 문제를 해결하기 위해 팀에서는 초기 이미지에서 사물이나 전체 장면의 외형 정보를 추출할 수 있는 외형 보존 모듈(APM)도 제안했습니다( 앵커 프레임), 이 정보를 사용하여 모든 비디오 블록에 대한 비디오 생성 프로세스를 규제합니다.

긴 비디오 생성의 품질과 해상도를 더욱 향상시키기 위해 팀에서는 자동 회귀 생성 작업에 대한 비디오 향상 모델을 개선했습니다. 이를 위해 팀은 고해상도 Vincent 비디오 모델을 선택하고 SDEdit 방법을 사용하여 24개의 연속 비디오 블록(8개의 중첩 프레임)의 품질을 향상했습니다.

비디오 블록 강화 전환을 원활하게 하기 위해 중첩된 강화 비디오 블록을 원활하게 혼합하는 무작위 혼합 방법도 설계했습니다.

방법

먼저 256×256 해상도(16fps)에서 5초짜리 비디오를 생성한 다음 더 높은 해상도(720×720)로 향상시킵니다. 그림 2는 전체 작업 흐름을 보여줍니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

긴 비디오 생성 부분은 초기화 단계와 스트리밍 T2V 단계로 구성됩니다.

그 중 초기화 단계에서는 사전 훈련된 Vincent 비디오 모델(예: Modelscope 사용 가능)을 사용하여 첫 번째 16프레임 비디오 블록을 생성하는 반면, 스트리밍 Vincent 비디오 단계에서는 자동 회귀 방식으로 후속 프레임을 생성합니다. . 새로운 콘텐츠.

자동 회귀 프로세스(그림 3 참조)의 경우 팀에서 새로 제안한 CAM은 이전 비디오 블록의 마지막 8프레임의 단기 정보를 활용하여 블록 간 원활한 전환을 달성할 수 있습니다. 또한 새로 제안된 APM 모듈을 사용하여 고정 앵커 프레임의 장기 정보를 추출하여 자동회귀 프로세스가 생성 프로세스 중 사물 및 장면 세부 사항의 변화에 ​​강력하게 대처할 수 있도록 합니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

긴 비디오(80, 240, 600, 1200 프레임 이상)를 생성한 후 스트리밍 개선 단계를 통해 비디오 품질을 향상시킵니다. 이 프로세스는 고해상도 Vison 짧은 비디오 모델(예: MS-Vid2Vid-XL)을 자동 회귀 방식으로 사용하고 원활한 비디오 블록 처리를 위해 새로 제안된 확률적 혼합 방법을 결합합니다. 그리고 후자의 단계에서는 추가 훈련이 필요하지 않으므로 이 방법은 높은 계산 비용이 들지 않습니다.

조건부 주의 모듈

먼저, 사전 훈련된 Vincent(짧은) 비디오 모델을 Video-LDM이라고 표시합니다. 주의 모듈(CAM)은 Video-LDM UNet에 주입된 특징 추출기와 특징 주입기로 구성됩니다.

특징 추출기는 프레임별 이미지 인코더를 사용하고 이어서 중간 레이어까지 Video-LDM UNet에서 사용하는 것과 동일한 인코더 레이어를 사용합니다(UNet의 가중치로 초기화됨).

기능 주입의 경우 여기 디자인은 UNet의 각 장거리 점프 연결이 교차 주의를 통해 CAM에서 생성된 해당 기능에 초점을 맞추도록 하는 것입니다.

외관 보존 모듈

APM 모듈은 고정 앵커 프레임의 정보를 사용하여 장기 메모리를 비디오 생성 프로세스에 통합합니다. 이는 비디오 패치 생성 중에 장면과 개체 특성을 유지하는 데 도움이 됩니다.

APM이 앵커 프레임과 텍스트 지침이 제공하는 안내 정보 처리의 균형을 맞추기 위해 팀에서는 두 가지 개선 사항을 적용했습니다. (1) 앵커 프레임의 CLIP 이미지 토큰과 텍스트 지침의 CLIP 텍스트 토큰을 혼합합니다. (2) Cross-Attention을 사용하기 위해 각 Cross-Attention 레이어에 가중치를 도입합니다.

자동 회귀 비디오 향상

생성된 24프레임 비디오 블록을 자동 회귀적으로 향상시키기 위해 여기에서는 고해상도(1280x720) Refiner Video-LDM이 사용됩니다(이미지 3 참조). 이 프로세스는 먼저 입력 비디오 블록에 많은 양의 노이즈를 추가한 다음 Vincent 비디오 확산 모델을 사용하여 노이즈 제거 처리를 수행하는 방식으로 수행됩니다.

그러나 이 방법으로는 비디오 블록 간 전환 불일치 문제를 해결하기에는 충분하지 않습니다.

이를 위해 팀의 솔루션은 랜덤 믹싱 방식입니다. 구체적인 내용은 원본 논문을 참조하시기 바랍니다.

Experiment

실험에서 팀이 사용한 평가 지표에는 시간적 일관성을 평가하는 SCuts 점수, 동작 및 비틀림 오류를 평가하는 MAWE(Motion-Aware Twist Error), CLIP 텍스트-이미지 유사성 점수가 포함됩니다. (CLIP) 및 미적 점수(AE)를 사용하여 텍스트 정렬 품질을 평가합니다.

절제 연구

다양한 새로운 구성 요소의 효과를 평가하기 위해 팀에서는 검증 세트에서 무작위로 샘플링된 75개의 프롬프트에 대해 절제 연구를 수행했습니다.

조건부 처리를 위한 CAM: CAM은 모델이 보다 일관된 비디오를 생성하도록 돕습니다. SCuts 점수는 다른 기준 모델에 비해 88% 낮습니다.

장기 기억: 그림 6은 장기 기억이 자기회귀 생성 과정에서 객체와 장면의 특성 안정성을 유지하는 데 큰 도움이 될 수 있음을 보여줍니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

정량적 평가 지표(사람 재식별 점수)에서 APM은 20% 개선을 달성했습니다.

비디오 향상을 위한 무작위 믹싱: 다른 두 벤치마크와 비교하여 무작위 믹싱은 상당한 품질 향상을 가져올 수 있습니다. 이는 그림 4에서도 볼 수 있습니다. StreamingT2V는 더 부드러운 전환을 얻을 수 있습니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

StreamingT2V 대 기본 모델

팀은 위에서 개선된 StreamingT2V를 자동 회귀 접근 방식을 사용하는 이미지-비디오 방법 I2VGen을 포함한 여러 모델과 정량적 및 정성적 평가 XL, SVD, DynamiCrafter-XL, SEINE, 비디오-비디오 방법 SparseControl, 텍스트-긴 비디오 방법 FreeNoise.

정량적 평가: 표 8에서 볼 수 있듯이 테스트 세트에 대한 정량적 평가에서는 StreamingT2V가 원활한 비디오 블록 전환 및 모션 일관성 측면에서 가장 우수한 성능을 보이는 것으로 나타났습니다. 새로운 방법의 MAWE 점수는 다른 모든 방법보다 훨씬 우수합니다. 심지어 두 번째로 좋은 SEINE보다 50% 이상 낮습니다. SCuts 점수에서도 비슷한 동작이 나타납니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

또한 StreamingT2V는 생성된 비디오의 단일 프레임 품질 측면에서 SparseCtrl보다 약간 열등합니다. 이는 이 새로운 방법이 다른 비교 방법보다 더 나은 시간적 일관성과 모션 역학을 갖춘 고품질의 긴 비디오를 생성할 수 있음을 보여줍니다.

정성적 평가: 아래 그림은 StreamingT2V의 효과를 다른 방법과 비교한 것입니다. 새로운 방법이 비디오의 동적 효과를 보장하면서 더 나은 일관성을 유지할 수 있음을 알 수 있습니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿