2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.-일체 포함-php.cn

방법

Experiment

집

기술 주변기기

일체 포함

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 27, 2024 pm 03:17 PM

ai 기차

전장의 와이드 샷, 달리는 스톰트루퍼...

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

프롬프트: 전장의 와이드 샷, 스톰트루퍼의 달리기...

1200 프레임의 이 2분짜리 비디오는 텍스트( text )에서 생성된 비디오입니다. -to-video) 모델. AI의 흔적은 여전히 뚜렷하지만, 캐릭터와 장면의 일관성은 꽤 좋은 편이다.

이 작업은 어떻게 수행되나요? Vincent 비디오 기술의 생성 품질과 텍스트 정렬 품질은 최근 몇 년 동안 상당히 좋아졌지만 대부분의 기존 방법은 짧은 비디오(보통 16~24프레임 길이)를 생성하는 데 중점을 둡니다. 그러나 짧은 비디오에 작동하는 기존 방법은 긴 비디오(≥ 64프레임)에서는 작동하지 않는 경우가 많습니다.

짧은 시퀀스를 생성하더라도 훈련 단계가 260K를 초과하고 배치 크기가 4500을 초과하는 등 비용이 많이 드는 훈련이 필요한 경우가 많습니다. 긴 비디오를 훈련하지 않고 짧은 비디오 생성기를 사용하여 긴 비디오를 생성하는 경우 결과적으로 긴 비디오의 품질이 떨어지는 경우가 많습니다. 기존의 자동 회귀 방식(짧은 영상의 마지막 몇 프레임을 이용하여 새로운 짧은 영상을 생성하고, 긴 영상을 합성하는 방식) 역시 장면 전환이 일관되지 않는 등의 문제점을 안고 있습니다.

기존 방식의 단점을 보완하기 위해 Picsart AI 연구소와 기타 기관이 공동으로 새로운 Vincent 영상 방식인 StreamingT2V를 제안했습니다. 이 방법은 자동회귀 기술을 사용하고 이를 장단기 기억 모듈과 결합하여 강력한 시간적 일관성을 갖춘 긴 비디오를 생성할 수 있습니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

논문 제목: StreamingT2V: Consistency, Dynamic, and Extendable Long Video Generation from Text
논문 주소: https://arxiv.org/abs/2403.14773
프로젝트 주소: https ://streamingt2v.github.io/

다음은 600프레임 1분 영상 생성 결과입니다. 벌과 꽃의 일관성이 뛰어난 것을 확인할 수 있습니다.

그래서 팀에서는 조건 주의 모듈(CAM). CAM은 주의 메커니즘을 사용하여 이전 프레임의 정보를 효과적으로 통합하여 새 프레임을 생성하고 이전 프레임의 구조나 모양에 제한을 받지 않고 새 프레임의 모션을 자유롭게 처리할 수 있습니다.

생성된 영상에서 사람과 사물의 외형 변화 문제를 해결하기 위해 팀에서는 초기 이미지에서 사물이나 전체 장면의 외형 정보를 추출할 수 있는 외형 보존 모듈(APM)도 제안했습니다( 앵커 프레임), 이 정보를 사용하여 모든 비디오 블록에 대한 비디오 생성 프로세스를 규제합니다.

긴 비디오 생성의 품질과 해상도를 더욱 향상시키기 위해 팀에서는 자동 회귀 생성 작업에 대한 비디오 향상 모델을 개선했습니다. 이를 위해 팀은 고해상도 Vincent 비디오 모델을 선택하고 SDEdit 방법을 사용하여 24개의 연속 비디오 블록(8개의 중첩 프레임)의 품질을 향상했습니다.

비디오 블록 강화 전환을 원활하게 하기 위해 중첩된 강화 비디오 블록을 원활하게 혼합하는 무작위 혼합 방법도 설계했습니다.

방법

먼저 256×256 해상도(16fps)에서 5초짜리 비디오를 생성한 다음 더 높은 해상도(720×720)로 향상시킵니다. 그림 2는 전체 작업 흐름을 보여줍니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

긴 비디오 생성 부분은 초기화 단계와 스트리밍 T2V 단계로 구성됩니다.

그 중 초기화 단계에서는 사전 훈련된 Vincent 비디오 모델(예: Modelscope 사용 가능)을 사용하여 첫 번째 16프레임 비디오 블록을 생성하는 반면, 스트리밍 Vincent 비디오 단계에서는 자동 회귀 방식으로 후속 프레임을 생성합니다. . 새로운 콘텐츠.

자동 회귀 프로세스(그림 3 참조)의 경우 팀에서 새로 제안한 CAM은 이전 비디오 블록의 마지막 8프레임의 단기 정보를 활용하여 블록 간 원활한 전환을 달성할 수 있습니다. 또한 새로 제안된 APM 모듈을 사용하여 고정 앵커 프레임의 장기 정보를 추출하여 자동회귀 프로세스가 생성 프로세스 중 사물 및 장면 세부 사항의 변화에 강력하게 대처할 수 있도록 합니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

긴 비디오(80, 240, 600, 1200 프레임 이상)를 생성한 후 스트리밍 개선 단계를 통해 비디오 품질을 향상시킵니다. 이 프로세스는 고해상도 Vison 짧은 비디오 모델(예: MS-Vid2Vid-XL)을 자동 회귀 방식으로 사용하고 원활한 비디오 블록 처리를 위해 새로 제안된 확률적 혼합 방법을 결합합니다. 그리고 후자의 단계에서는 추가 훈련이 필요하지 않으므로 이 방법은 높은 계산 비용이 들지 않습니다.

조건부 주의 모듈

먼저, 사전 훈련된 Vincent(짧은) 비디오 모델을 Video-LDM이라고 표시합니다. 주의 모듈(CAM)은 Video-LDM UNet에 주입된 특징 추출기와 특징 주입기로 구성됩니다.

특징 추출기는 프레임별 이미지 인코더를 사용하고 이어서 중간 레이어까지 Video-LDM UNet에서 사용하는 것과 동일한 인코더 레이어를 사용합니다(UNet의 가중치로 초기화됨).

기능 주입의 경우 여기 디자인은 UNet의 각 장거리 점프 연결이 교차 주의를 통해 CAM에서 생성된 해당 기능에 초점을 맞추도록 하는 것입니다.

외관 보존 모듈

APM 모듈은 고정 앵커 프레임의 정보를 사용하여 장기 메모리를 비디오 생성 프로세스에 통합합니다. 이는 비디오 패치 생성 중에 장면과 개체 특성을 유지하는 데 도움이 됩니다.

APM이 앵커 프레임과 텍스트 지침이 제공하는 안내 정보 처리의 균형을 맞추기 위해 팀에서는 두 가지 개선 사항을 적용했습니다. (1) 앵커 프레임의 CLIP 이미지 토큰과 텍스트 지침의 CLIP 텍스트 토큰을 혼합합니다. (2) Cross-Attention을 사용하기 위해 각 Cross-Attention 레이어에 가중치를 도입합니다.

자동 회귀 비디오 향상

생성된 24프레임 비디오 블록을 자동 회귀적으로 향상시키기 위해 여기에서는 고해상도(1280x720) Refiner Video-LDM이 사용됩니다(이미지 3 참조). 이 프로세스는 먼저 입력 비디오 블록에 많은 양의 노이즈를 추가한 다음 Vincent 비디오 확산 모델을 사용하여 노이즈 제거 처리를 수행하는 방식으로 수행됩니다.

그러나 이 방법으로는 비디오 블록 간 전환 불일치 문제를 해결하기에는 충분하지 않습니다.

이를 위해 팀의 솔루션은 랜덤 믹싱 방식입니다. 구체적인 내용은 원본 논문을 참조하시기 바랍니다.

Experiment

실험에서 팀이 사용한 평가 지표에는 시간적 일관성을 평가하는 SCuts 점수, 동작 및 비틀림 오류를 평가하는 MAWE(Motion-Aware Twist Error), CLIP 텍스트-이미지 유사성 점수가 포함됩니다. (CLIP) 및 미적 점수(AE)를 사용하여 텍스트 정렬 품질을 평가합니다.

절제 연구

다양한 새로운 구성 요소의 효과를 평가하기 위해 팀에서는 검증 세트에서 무작위로 샘플링된 75개의 프롬프트에 대해 절제 연구를 수행했습니다.

조건부 처리를 위한 CAM: CAM은 모델이 보다 일관된 비디오를 생성하도록 돕습니다. SCuts 점수는 다른 기준 모델에 비해 88% 낮습니다.

장기 기억: 그림 6은 장기 기억이 자기회귀 생성 과정에서 객체와 장면의 특성 안정성을 유지하는 데 큰 도움이 될 수 있음을 보여줍니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

정량적 평가 지표(사람 재식별 점수)에서 APM은 20% 개선을 달성했습니다.

비디오 향상을 위한 무작위 믹싱: 다른 두 벤치마크와 비교하여 무작위 믹싱은 상당한 품질 향상을 가져올 수 있습니다. 이는 그림 4에서도 볼 수 있습니다. StreamingT2V는 더 부드러운 전환을 얻을 수 있습니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

StreamingT2V 대 기본 모델

팀은 위에서 개선된 StreamingT2V를 자동 회귀 접근 방식을 사용하는 이미지-비디오 방법 I2VGen을 포함한 여러 모델과 정량적 및 정성적 평가 XL, SVD, DynamiCrafter-XL, SEINE, 비디오-비디오 방법 SparseControl, 텍스트-긴 비디오 방법 FreeNoise.

정량적 평가: 표 8에서 볼 수 있듯이 테스트 세트에 대한 정량적 평가에서는 StreamingT2V가 원활한 비디오 블록 전환 및 모션 일관성 측면에서 가장 우수한 성능을 보이는 것으로 나타났습니다. 새로운 방법의 MAWE 점수는 다른 모든 방법보다 훨씬 우수합니다. 심지어 두 번째로 좋은 SEINE보다 50% 이상 낮습니다. SCuts 점수에서도 비슷한 동작이 나타납니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

또한 StreamingT2V는 생성된 비디오의 단일 프레임 품질 측면에서 SparseCtrl보다 약간 열등합니다. 이는 이 새로운 방법이 다른 비교 방법보다 더 나은 시간적 일관성과 모션 역학을 갖춘 고품질의 긴 비디오를 생성할 수 있음을 보여줍니다.

정성적 평가: 아래 그림은 StreamingT2V의 효과를 다른 방법과 비교한 것입니다. 새로운 방법이 비디오의 동적 효과를 보장하면서 더 나은 일관성을 유지할 수 있음을 알 수 있습니다.

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7467

Cakephp 튜토리얼

1376

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Apr 08, 2025 pm 12:24 PM

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

설치 후 MySQL을 사용하는 방법 Apr 08, 2025 am 11:48 AM

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 Apr 08, 2025 pm 12:27 PM

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL이 JSON을 반환 할 수 있습니다 Apr 08, 2025 pm 03:09 PM

MySQL은 JSON 데이터를 반환 할 수 있습니다. json_extract 함수는 필드 값을 추출합니다. 복잡한 쿼리의 경우 where 절을 사용하여 JSON 데이터를 필터링하지만 성능 영향에주의하십시오. JSON에 대한 MySQL의 지원은 지속적으로 증가하고 있으며 최신 버전 및 기능에주의를 기울이는 것이 좋습니다.

산성 특성 이해 : 신뢰할 수있는 데이터베이스의 기둥 Apr 08, 2025 pm 06:33 PM

데이터베이스 산 속성에 대한 자세한 설명 산 속성은 데이터베이스 트랜잭션의 신뢰성과 일관성을 보장하기위한 일련의 규칙입니다. 데이터베이스 시스템이 트랜잭션을 처리하는 방법을 정의하고 시스템 충돌, 전원 중단 또는 여러 사용자의 동시 액세스가 발생할 경우에도 데이터 무결성 및 정확성을 보장합니다. 산 속성 개요 원자력 : 트랜잭션은 불가분의 단위로 간주됩니다. 모든 부분이 실패하고 전체 트랜잭션이 롤백되며 데이터베이스는 변경 사항을 유지하지 않습니다. 예를 들어, 은행 송금이 한 계정에서 공제되지만 다른 계정으로 인상되지 않은 경우 전체 작업이 취소됩니다. BeginTransaction; updateAccountssetBalance = Balance-100WH

다운로드 후 MySQL을 설치할 수 없습니다 Apr 08, 2025 am 11:24 AM

MySQL 설치 실패의 주된 이유는 다음과 같습니다. 1. 권한 문제, 관리자로 실행하거나 Sudo 명령을 사용해야합니다. 2. 종속성이 누락되었으며 관련 개발 패키지를 설치해야합니다. 3. 포트 충돌, 포트 3306을 차지하는 프로그램을 닫거나 구성 파일을 수정해야합니다. 4. 설치 패키지가 손상되어 무결성을 다운로드하여 확인해야합니다. 5. 환경 변수가 잘못 구성되었으며 운영 체제에 따라 환경 변수를 올바르게 구성해야합니다. 이러한 문제를 해결하고 각 단계를 신중하게 확인하여 MySQL을 성공적으로 설치하십시오.

MySQL의 주요 키는 Null 일 수 있습니다 Apr 08, 2025 pm 03:03 PM

기본 키는 데이터베이스의 각 행을 고유하게 식별하는 키 속성이기 때문에 MySQL 기본 키는 비어있을 수 없습니다. 기본 키가 비어 있으면 레코드를 고유하게 식별 할 수 없으므로 데이터 혼동으로 이어질 수 있습니다. 자체 점수 정수 열 또는 UUID를 기본 키로 사용하는 경우 효율성 및 우주 점유와 같은 요소를 고려하고 적절한 솔루션을 선택해야합니다.

See all articles

2분, 1200프레임의 긴 비디오 생성기인 StreamingT2V가 출시되었으며 코드는 오픈 소스로 제공됩니다.

방법

Experiment

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제