IT하우스뉴스 인공지능(AI) 제품 개발에 주력하는 스타트업 기업 스태빌리티 AI(Stability AI)가 최신 AI 모델인 스테이블 비디오 디퓨전(Stable Video Diffusion)을 11월 22일 출시했다. 이 모델은 기존 이미지에서 비디오를 생성할 수 있으며 이전에 출시된 Stable Diffusion 텍스트-이미지 모델의 확장판이며 현재까지 비디오를 생성할 수 있는 몇 안 되는 AI 모델 중 하나입니다.
그러나 이 모델은 현재 모든 사람에게 공개되지 않습니다. Stable Video Diffusion은 현재 Stability AI가 "연구 미리 보기" 단계라고 부르는 단계에 있습니다. 이 모델을 사용하려는 사람들은 Stable Video Diffusion의 의도된 사용 사례(예: "교육 또는 창작 도구", "디자인 및 기타 예술적 프로세스" 등)와 의도하지 않은 사용 사례를 지정하는 일부 사용 약관에 동의해야 합니다. (예: "사람이나 사건의 사실적 또는 실제 표현").
Stable Video Diffusion은 실제로 SVD와 SVD-XT의 두 가지 모델로 구성됩니다. SVD는 정적 사진을 14프레임 576×1024픽셀 비디오로 변환할 수 있습니다. SVD-XT는 동일한 구조를 사용하지만 프레임 수가 24개로 늘어났습니다. 둘 다 초당 3~30프레임의 속도로 비디오를 생성할 수 있습니다
Stability AI가 Stable Video Diffusion과 함께 발표한 백서에 따르면 SVD 및 SVD-XT는 처음에는 수백만 개의 비디오가 포함된 데이터 세트에서 훈련된 다음 더 작은 데이터 세트인 "Fine-tuning"에서 훈련되었습니다. 이 데이터 세트에는 수백 개의 비디오만 포함되어 있습니다. 수천에서 약 백만 개의 비디오 클립. 해당 영상의 출처는 완전히 명확하지 않습니다. 백서에는 다수가 공개적으로 이용 가능한 연구 데이터 세트에서 나온 것이므로 저작권 문제가 있는지 판단하는 것이 불가능하다고 나와 있습니다.
SVD와 SVD-XT 모두 고품질의 4초 영상을 생성할 수 있으며 Stability AI 블로그에서 엄선된 샘플을 보면 품질이 Meta의 최신 영상 생성 모델인 Google의 AI, AI 스타트업 Runway, 및 Pika Labs는
에 필적하는 비디오를 생성합니다.
IT하우스는 안정적인 영상의 확산에도 제한이 있다는 점을 인지했습니다. Stability AI는 이에 대해 매우 솔직하게 말합니다. 모델은 모션이나 느린 카메라 팬 없이는 비디오를 생성할 수 없고, 텍스트로 제어할 수 없으며, 텍스트를 렌더링할 수 없으며(적어도 명확하지는 않지만) 일관되게 "정확하게" 수행할 수 없습니다. 얼굴과 캐릭터 생성
초기 단계이지만 Stability AI는 이러한 모델이 확장성이 뛰어나고 객체의 360도 뷰 생성과 같은 다양한 사용 사례에 적응할 수 있다고 지적합니다
Stability AI의 최종 목표는 Stable Video Diffusion이 “광고, 교육, 엔터테인먼트 및 기타 분야”에 잠재적으로 응용될 수 있다고 말하면서 상용화하는 것 같습니다.
위 내용은 Stable AI는 이미지를 기반으로 비디오를 생성하는 안정적인 비디오 확산 모델을 출시합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!