우리는 생성 모델과 다중 모달 시각적 언어 모델의 발전으로 전례 없는 생성적 사실성과 다양성을 갖춘 대규모 텍스트-이미지 모델의 기반이 마련되었음을 알고 있습니다. 이러한 모델은 새로운 창의적 프로세스를 제공하지만 기존 이미지를 편집하는 것이 아니라 새로운 이미지를 합성하는 것으로 제한됩니다. 이러한 격차를 해소하기 위해 직관적인 텍스트 기반 편집 방법을 사용하면 생성된 이미지와 실제 이미지의 텍스트 기반 편집이 가능하고 이러한 이미지의 원래 속성 중 일부를 보존할 수 있습니다. 이미지와 유사하게 최근 많은 text-to-video 모델이 제안되었지만, 이러한 모델을 비디오 편집에 활용하는 방법은 거의 없습니다.
텍스트 기반 비디오 편집에서 사용자는 아래 그림 1과 같이 생성된 비디오의 예상 속성을 설명하는 텍스트 프롬프트와 함께 입력 비디오를 제공합니다. 목표에는 다음 세 가지 측면이 있습니다. 1) 정렬, 편집된 비디오는 입력 텍스트 프롬프트를 준수해야 합니다. 2) 충실도, 편집된 비디오는 원본 비디오의 내용을 유지해야 합니다. 3) 품질, 편집된 비디오는 고품질이어야 합니다. .
보시다시피, 동영상 편집은 이미지 편집보다 더 어렵고, 단지 시각적인 모양을 수정하는 것보다 새로운 작업을 합성해야 합니다. 시간적 일관성을 유지하는 것도 필요합니다. 따라서 SDEdit 및 Prompt-to-Prompt와 같은 이미지 수준 편집 방법을 비디오 프레임에 적용하는 것만으로는 좋은 결과를 얻기에 충분하지 않습니다.
최근 Google Research 등이 arXiv에 게재한 논문에서 연구원들은 UniTune에서 영감을 받아 텍스트 조건부 비디오 모델을 확산시키는 새로운 방법인 Dreamix를 제안했습니다. VDM)이 영상 편집에 적용됩니다.
이 글에서 다루는 방법의 핵심은 다음 두 가지 주요 아이디어를 통해 텍스트 조건부 VDM이 입력 비디오에 대한 높은 충실도를 유지하도록 하는 것입니다. 하나는 모델 초기화로 순수한 노이즈를 사용하지 않고 원본 비디오의 다운그레이드 버전을 사용하여 크기를 줄이고 노이즈를 추가하여 낮은 시공간 정보만 유지하는 것입니다. 다른 하나는 미세 조정하여 원본 비디오의 충실도를 더욱 향상시키는 것입니다. 원본 비디오의 생성 모델을 사용합니다.
미세 조정을 통해 모델이 원본 비디오의 고해상도 속성을 이해할 수 있습니다. 입력 비디오를 간단히 미세 조정하면 모델이 텍스트 프롬프트를 따르는 것보다 원시 모션을 선호하는 방법을 학습하기 때문에 상대적으로 모션 편집 가능성이 낮아집니다. 우리는 VDM이 입력 비디오의 개별 프레임 집합에 대해 미세 조정되고 해당 타이밍을 삭제하는 새로운 하이브리드 미세 조정 방법을 제안합니다. 블렌드 미세 조정을 통해 모션 편집 품질이 크게 향상됩니다.연구원들은 아래 그림 2와 같이 비디오 편집 모델을 사용하여
새로운 이미지 애니메이션 프레임워크를 제안했습니다. 프레임워크는 이미지의 개체와 배경에 애니메이션을 적용하고, 역동적인 카메라 움직임을 만드는 등 여러 단계로 구성됩니다. 그들은 프레임 복사나 기하학적 이미지 변환과 같은 간단한 이미지 처리 작업을 통해 조잡한 비디오를 제작합니다. 그런 다음 Dreamix 비디오 편집기를 사용하여 비디오를 편집하십시오. 또한 연구진은 Dreambooth의 비디오 버전인 목표 중심 비디오 생성을 위해 미세 조정 방법도 사용했습니다.
실험 디스플레이 부분에서 연구원들은 방법의 강력한 기능을 입증하기 위해 광범위한 정성적 연구와 수동 평가를 수행했습니다. 자세한 내용은 다음 애니메이션을 참조하세요.
이 Google 연구와 관련하여 3D + 모션 및 편집 도구가 다음 논문의 인기 주제가 될 수 있다고 제안되었습니다.
다른 사람이 말했습니다: 예산에 맞춰 곧 자신만의 영화를 만들 수 있습니다. 필요한 것은 녹색 화면과 이 기술뿐입니다.
비디오 편집을 위한 새로운 접근 방식, 특히:
손상된 비디오를 리버스 엔지니어링하여 텍스트 안내 비디오 편집
계단식 VDM(비디오 확산 모델)을 채택하고, 먼저 다운샘플링을 통해 입력 비디오를 어느 정도 파괴합니다. 그런 다음 소음을 추가합니다. 다음으로 계단식 확산 모델은 샘플링 프로세스에 사용되며 시간 t에 따라 조건부로 비디오를 최종 시간 공간 해상도로 업스케일합니다.
입력 영상을 파기하는 과정에서 먼저 다운샘플링 작업을 수행하여 기본 모델(16프레임 24×40)을 얻은 다음 분산이 인 가우시안 노이즈를 추가해야 합니다. 입력 비디오를 파괴합니다.
위 처리된 비디오의 다음 단계는 계단식 VDM을 사용하여 손상된 저해상도 비디오를 텍스트에 맞춰 정렬된 고해상도 비디오로 매핑하는 것입니다. 여기서 핵심 아이디어는 시끄럽고 매우 낮은 시간적 및 공간적 해상도의 비디오가 주어지면 이에 대응하는 완벽하게 실행 가능한 고해상도 비디오가 많이 있다는 것입니다. 본 논문의 기본 모델은 시간 s의 확산 과정과 동일한 노이즈를 갖는 손상된 비디오에서 시작됩니다. 그런 다음 연구에서는 VDM을 사용하여 시간 0까지 확산 과정을 역전시켰습니다. 마지막으로 초해상도 모델을 통해 영상이 업그레이드됐다.
하이브리드 영상 이미지 미세 조정
입력 영상만을 이용한 영상 확산 모델을 미세 조정하면 물체의 움직임 변화가 제한될 것입니다. 대신 본 연구에서는 하이브리드 타겟, 즉 추가로 사용했습니다. 원래 목표(왼쪽 아래) 또한 이 기사에서는 일시적인 주의와 컨볼루션이 미세 조정되는 것을 방지하기 위해 "마스크된 시간적 주의"를 통해 수행되는 정렬되지 않은 프레임 세트를 미세 조정합니다(오른쪽 아래). 이 작업을 통해 정적 비디오에 모션을 추가할 수 있습니다.
Inference
본 연구는 애플리케이션 전처리(Application-Dependent Pre-processing, 아래 왼쪽 그림)를 기반으로 다양한 애플리케이션을 지원하고 입력 콘텐츠를 통합 영상으로 변환할 수 있습니다. 체재. 이미지-비디오의 경우 입력 이미지가 복사 및 변환되어 대략적인 비디오와 일부 카메라 동작이 합성됩니다. 객체 중심 비디오 생성의 경우 입력이 생략되고 별도로 미세 조정되어 충실도를 유지합니다. 이 대략적인 비디오는 Dreamix Video Editor(오른쪽)를 사용하여 편집됩니다. 앞서 언급한 것처럼 비디오는 먼저 다운샘플링을 통해 제거되고 노이즈가 추가됩니다. 그런 다음 미세 조정된 텍스트 기반 비디오 확산 모델을 적용하여 비디오를 최종 시간적 및 공간적 해상도로 확대합니다.
실험 결과영상 편집: 아래 사진에서 드리믹스는 액션을 춤으로, 모습을 원숭이에서 곰으로 변경했지만 영상 속 피사체의 기본 속성은 변경되지 않았습니다.
오두막 옆에 나타나는 펭귄:
목표 중심 비디오 생성: Dreamix는 동일한 주제를 보여주는 이미지 모음을 가져와 새 비디오를 생성할 수도 있습니다. 해당 테마로 개체를 이동합니다. 아래 사진은 나뭇잎 위에서 꿈틀거리는 애벌레를 보여줍니다.
연구에서는 정성적 분석 외에도 Dreamix를 Imagen-Video 및 PnP(플러그 앤 플레이) 기준과 주로 비교하는 기준 비교도 수행했습니다. 비교 방법. 다음 표는 채점 결과를 보여줍니다.
그림 8은 Dreamix로 편집한 비디오와 두 가지 기본 예를 보여줍니다. 텍스트-비디오 모델은 원본 비디오를 사용하지 않기 때문에 저충실도 편집을 달성합니다. 조건으로. PnP는 장면을 유지하지만 프레임 간 일관성이 부족합니다. Dreamix는 세 가지 목표 모두에서 좋은 성능을 발휘합니다.
자세한 기술적인 내용은 원본 문서를 참조하세요.
위 내용은 Google은 비디오 생성 AIGC를 최초로 출시했습니다. 네티즌 : 영화를 맞춤 설정할 수 있습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!