AI 영상생성 프레임워크 테스트 경쟁 : Pika, Gen-2, ModelScope, SEINE, 누가 이길 수 있을까?
AI 영상세대는 최근 가장 핫한 분야 중 하나입니다. 다양한 대학 연구실, 거대 인터넷 AI 연구소, 스타트업 기업 등이 AI 영상 생성 트랙에 합류했다. Pika, Gen-2, Show-1, VideoCrafter, ModelScope, SEINE, LaVie, VideoLDM 등 영상세대 모델 출시가 더욱 눈길을 끈다. v⁽ⁱ⁾
다음 질문이 궁금하실 겁니다.
- 어떤 영상 생성 모델이 가장 좋나요?
- 각 모델의 특징은 무엇인가요?
- AI 영상세대 분야에서 주목받고 해결해야 할 문제는 무엇인가요?
이를 위해 우리는 다양한 비디오 모델의 장점, 단점, 특징에 대한 정보를 사용자에게 제공하기 위해 설계된 포괄적인 "비디오 생성 모델 평가 프레임워크"인 VBench를 출시했습니다. VBench를 통해 사용자는 다양한 비디오 모델의 장점과 장점을 이해할 수 있습니다.
- 논문: https://arxiv.org/abs/2311.17982
- 코드: https://github.com/Vchitect/VBench
- 웹페이지: https //vchitect.github.io/VBench-project/
- 논문 제목: VBench: Comprehensive Benchmark Suite for Video Generative Models
VBench는 비디오 생성 효과를 종합적이고 세심하게 평가할 수 있을 뿐만 아니라 사람들의 감각 경험을 일관되게 평가하여 시간과 에너지를 절약합니다.
- VBench에는 16개의 계층화되고 분리된 평가 차원이 포함되어 있습니다.
- VBench는 Vincent 비디오 생성 평가를 위한 프롬프트 목록 시스템을 오픈 소스로 제공했습니다.
- 각 차원에 대한 VBench 평가 체계 인간의 인식 및 평가
- VBench는 AI 비디오 세대의 미래 탐색을 촉진하기 위해 다각적인 통찰력을 제공합니다.
"VBench" - "비디오 세대 모델"의 포괄적인 벤치마크 제품군
AI 비디오 세대 모델 - 평가 결과
오픈소스 AI 동영상 생성 모델
VBench에서 각 오픈소스 AI 동영상 생성 모델의 성능은 다음과 같습니다.
VBench에서 다양한 오픈 소스 AI 비디오 생성 모델의 성능. 방사형 차트에서는 비교를 보다 명확하게 시각화하기 위해 각 차원의 결과를 0.3~0.8 사이로 정규화했습니다.
VBench에서 다양한 오픈 소스 AI 비디오 생성 모델의 성능.
위 6개 모델 중 VideoCrafter-1.0과 Show-1은 대부분의 차원에서 상대적인 장점을 갖고 있음을 알 수 있습니다.
스타트업의 동영상 세대 모델
VBench는 현재 Gen-2와 Pika의 두 가지 스타트업 모델에 대한 평가 결과를 제공하고 있습니다.
VBench에서 Gen-2와 Pika의 성능. 방사형 차트에서는 비교를 보다 명확하게 시각화하기 위해 VideoCrafter-1.0과 Show-1을 참조로 추가하고 각 차원의 평가 결과를 0.3~0.8 사이로 정규화했습니다.
VBench에서 Gen-2와 Pika의 성능. VideoCrafter-1.0 및 Show-1의 수치 결과를 참고자료로 포함합니다.
Gen-2와 Pika는 시간적 일관성(Temporal Consistency) 및 단일 프레임 품질(Aesthetic Quality 및 Imaging Quality) 관련 차원과 같은 비디오 품질(Video Quality)에서 분명한 이점을 가지고 있음을 알 수 있습니다. 사용자 입력 프롬프트(예: 인간 행동 및 모양 스타일)와의 의미론적 일관성 측면에서 부분 차원 오픈 소스 모델이 더 좋습니다.
비디오 생성 모델 VS 그림 생성 모델
비디오 생성 모델 VS 그림 생성 모델. 그 중 SD1.4, SD2.1, SDXL은 이미지 생성 모델이다.
8개 주요 장면 카테고리에 대한 비디오 생성 모델의 성능
다음은 8개 카테고리에 대한 다양한 모델의 평가 결과입니다.
VBench는 이제 오픈 소스이며 한 번의 클릭으로 설치할 수 있습니다.
현재 VBench는 완전한 오픈 소스이며 원클릭 설치를 지원합니다. 누구나 플레이하고, 관심 있는 모델을 테스트하고, 함께 협력하여 비디오 생성 커뮤니티의 발전을 촉진할 수 있습니다.
오픈 소스 주소: https://github.com/Vchitect/VBench
우리는 또한 일련의 프롬프트를 오픈 소스로 공개했습니다. 목록: https://github.com/Vchitect/VBench/tree/master/prompts에는 다양한 기능 차원의 평가를 위한 벤치마크와 다양한 시나리오 콘텐츠에 대한 평가 벤치마크가 포함되어 있습니다.
왼쪽의 단어 클라우드는 프롬프트 모음에서 자주 사용되는 단어의 분포를 보여주고, 오른쪽 그림은 다양한 차원과 카테고리의 프롬프트 수를 보여줍니다.
VBench가 정확합니까?
각 차원에 대해 VBench 평가 결과와 수동 평가 결과 간의 상관관계를 계산하여 우리 방법과 인간 인식의 일관성을 검증했습니다. 아래 그림에서 가로축은 다양한 차원의 수동 평가 결과를 나타내고, 세로축은 VBench 방법의 자동 평가 결과를 나타내며, 우리의 방법이 모든 차원에서 인간의 인식과 고도로 일치함을 알 수 있습니다.
VBench는 AI 비디오 세대에 사고를 가져옵니다
VBench는 기존 모델을 평가할 수 있을 뿐만 아니라 더 중요하게는 다양한 모델에 존재할 수 있는 다양한 문제를 발견하여 미래 AI를 제공할 수 있습니다. 세대는 귀중한 통찰력을 제공합니다.
"시간적 일관성" 및 "비디오 역학": 둘 중 하나를 선택하지 말고 둘 다 개선하세요.
우리는 시간적 일관성(예: 주제 일관성, 배경 일관성, 동작 부드러움)과 비디오 모션의 진폭(동적 정도) 사이에는 일정한 균형 관계가 있습니다. 예를 들어 Show-1과 VideoCrafter-1.0은 배경 일관성과 동작 부드러움 측면에서 매우 우수한 성능을 보이지만 역학 측면에서는 점수가 낮습니다. 이는 "움직이지 않는" 그림을 생성하는 것이 타이밍에 "나타날 가능성이 더 높기 때문일 수 있습니다." "매우 일관성이 있습니다." 반면 VideoCrafter-0.9는 타이밍 일관성과 관련된 측면에서는 약하지만 동적 수준에서는 높은 점수를 얻습니다.
이는 앞으로 "시간적 일관성"과 "더 높은 동적 수준"을 동시에 달성하는 것이 실제로 어렵다는 것을 보여줍니다. 우리는 한 가지 측면을 개선하는 데에만 집중할 것이 아니라 "시간적 일관성"과 "비디오"를 개선해야 합니다. 품질'을 동시에 제공합니다. '동적 정도'는 이 두 가지 측면에서 의미가 있습니다.
장면 콘텐츠별로 평가하여 각 모델의 잠재력을 탐색하세요
일부 모델은 다양한 카테고리에서 성능에 큰 차이가 있습니다. 예를 들어, 미적 품질(Aesthetic Quality) 측면에서 CogVideo는 "음식"에 속합니다. " " 카테고리는 좋은 성적을 거두었지만, "라이프스타일" 카테고리에서는 낮은 점수를 받았습니다. 훈련 데이터를 조정하면 "LifeStyle" 카테고리에서 CogVideo의 미적 품질이 향상되어 모델의 전반적인 비디오 미적 품질이 향상될 수 있습니까?
이는 또한 비디오 생성 모델을 평가할 때 다양한 카테고리나 주제에서 모델의 성능을 고려하고, 특정 기능 차원에서 모델의 상한선을 탐색한 다음 " 뒤처지는"장면 카테고리.
복잡한 모션이 있는 카테고리: 시공간 성능이 좋지 않음
공간 복잡성이 높은 카테고리는 미적 품질 차원에서 낮은 점수를 받았습니다. 예를 들어, "라이프 스타일" 카테고리는 공간의 복잡한 요소 배치에 대한 요구 사항이 상대적으로 높으며, "휴먼" 카테고리는 힌지 구조 생성으로 인해 어려움을 겪고 있습니다.
일반적으로 복잡한 동작이 포함되는 "인간" 카테고리와 종종 더 빠르게 움직이는 "차량" 카테고리와 같이 타이밍이 복잡한 카테고리의 경우 테스트된 모든 차원에서 상대적으로 낮은 점수를 받았습니다. 이는 현재 모델이 시간적 모델링을 처리하는 데 여전히 특정 결함이 있음을 보여줍니다. 시간적 모델링 제한으로 인해 공간적 흐릿함과 왜곡이 발생하여 시간과 공간 모두에서 만족스럽지 못한 비디오 품질이 발생할 수 있습니다.
카테고리 생성 어려움: 데이터 양을 늘려도 이점이 거의 없음
일반적으로 사용되는 비디오 데이터 세트 WebVid-10M에 대한 통계를 수행한 결과 약 26%의 데이터가 다음과 관련이 있는 것으로 나타났습니다. "인간". 우리가 계산한 8개 범주 중 가장 높은 비율입니다. 하지만 평가 결과에서는 '인간' 부문이 8개 부문 중 최악의 성적을 거뒀다.
이는 '인간'과 같은 복잡한 카테고리의 경우 단순히 데이터 양을 늘리는 것만으로는 성능이 크게 향상되지 않을 수 있음을 보여줍니다. 한 가지 잠재적인 방법은 뼈대 등과 같은 "인간" 관련 사전 지식이나 제어를 도입하여 모델 학습을 안내하는 것입니다.
수백만 개의 데이터 세트: 데이터 양보다 데이터 품질 개선을 우선시합니다
"음식" 카테고리는 WebVid-10M에서 11%만을 차지하지만 거의 항상 평가에서 가장 높은 순위를 차지합니다. 미적 품질 점수. 따라서 우리는 WebVid-10M 데이터 세트에 있는 다양한 콘텐츠 카테고리의 미적 품질 성능을 추가로 분석한 결과 "음식" 카테고리도 WebVid-10M에서 가장 높은 미적 점수를 가지고 있음을 발견했습니다.
이는 수백만 개의 데이터를 기반으로 데이터 양을 늘리는 것보다 데이터 품질을 필터링/개선하는 것이 더 도움이 된다는 것을 의미합니다.
개선 가능성: 다중 객체 및 객체 간의 관계를 정확하게 생성
현재 비디오 생성 모델은 "다중 객체" 및 "공간 관계" 성능 측면에서는 여전히 따라잡을 수 없음 결합 기능 향상의 중요성을 강조하는 이미지 생성 모델(특히 SDXL)을 사용합니다. 소위 조합 능력은 모델이 비디오 생성에서 여러 개체를 정확하게 표시할 수 있는지 여부와 개체 간의 공간적 및 상호 작용 관계를 나타냅니다.
이 문제를 해결할 수 있는 잠재적인 방법은 다음과 같습니다.
- 데이터 라벨링: 비디오 데이터 세트를 구성하여 비디오의 여러 개체에 대한 명확한 설명은 물론 공간 위치 관계 및 상호 작용 관계에 대한 설명을 제공합니다. 사물 .
- 비디오 생성 프로세스 중에 중간 모드/모듈을 추가하여 객체의 조합 및 공간 위치 제어를 지원합니다.
- 더 나은 텍스트 인코더(Text Encoder)를 사용하면 모델의 결합 생성 능력에도 더 큰 영향을 미칩니다.
- 나라를 구하는 곡선: T2V가 잘 못하는 "객체 조합" 문제를 T2I에 넘기고, T2I+I2V를 통해 영상을 생성합니다. 이 접근 방식은 다른 많은 비디오 생성 문제에도 효과적일 수 있습니다.
위 내용은 AI 영상생성 프레임워크 테스트 경쟁 : Pika, Gen-2, ModelScope, SEINE, 누가 이길 수 있을까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

MySQL은 JSON 데이터를 반환 할 수 있습니다. json_extract 함수는 필드 값을 추출합니다. 복잡한 쿼리의 경우 where 절을 사용하여 JSON 데이터를 필터링하지만 성능 영향에주의하십시오. JSON에 대한 MySQL의 지원은 지속적으로 증가하고 있으며 최신 버전 및 기능에주의를 기울이는 것이 좋습니다.

데이터베이스 산 속성에 대한 자세한 설명 산 속성은 데이터베이스 트랜잭션의 신뢰성과 일관성을 보장하기위한 일련의 규칙입니다. 데이터베이스 시스템이 트랜잭션을 처리하는 방법을 정의하고 시스템 충돌, 전원 중단 또는 여러 사용자의 동시 액세스가 발생할 경우에도 데이터 무결성 및 정확성을 보장합니다. 산 속성 개요 원자력 : 트랜잭션은 불가분의 단위로 간주됩니다. 모든 부분이 실패하고 전체 트랜잭션이 롤백되며 데이터베이스는 변경 사항을 유지하지 않습니다. 예를 들어, 은행 송금이 한 계정에서 공제되지만 다른 계정으로 인상되지 않은 경우 전체 작업이 취소됩니다. BeginTransaction; updateAccountssetBalance = Balance-100WH

sqllimit 절 : 쿼리 결과의 행 수를 제어하십시오. SQL의 한계 절은 쿼리에서 반환 된 행 수를 제한하는 데 사용됩니다. 이것은 대규모 데이터 세트, 페이지 진화 디스플레이 및 테스트 데이터를 처리 할 때 매우 유용하며 쿼리 효율성을 효과적으로 향상시킬 수 있습니다. 구문의 기본 구문 : SelectColumn1, Collect2, ... Fromtable_namelimitnumber_of_rows; 번호_of_rows : 반환 된 행 수를 지정하십시오. 오프셋이있는 구문 : SelectColumn1, Column2, ... Fromtable_namelimitOffset, number_of_rows; 오프셋 : skip

MySQL 데이터베이스 성능 최적화 안내서 리소스 집약적 응용 프로그램에서 MySQL 데이터베이스는 중요한 역할을 수행하며 대규모 트랜잭션 관리를 담당합니다. 그러나 응용 프로그램 규모가 확장됨에 따라 데이터베이스 성능 병목 현상은 종종 제약이됩니다. 이 기사는 일련의 효과적인 MySQL 성능 최적화 전략을 탐색하여 응용 프로그램이 고 부하에서 효율적이고 반응이 유지되도록합니다. 실제 사례를 결합하여 인덱싱, 쿼리 최적화, 데이터베이스 설계 및 캐싱과 같은 심층적 인 주요 기술을 설명합니다. 1. 데이터베이스 아키텍처 설계 및 최적화 된 데이터베이스 아키텍처는 MySQL 성능 최적화의 초석입니다. 몇 가지 핵심 원칙은 다음과 같습니다. 올바른 데이터 유형을 선택하고 요구 사항을 충족하는 가장 작은 데이터 유형을 선택하면 저장 공간을 절약 할 수있을뿐만 아니라 데이터 처리 속도를 향상시킬 수 있습니다.

해시 값으로 저장되기 때문에 MongoDB 비밀번호를 Navicat을 통해 직접 보는 것은 불가능합니다. 분실 된 비밀번호 검색 방법 : 1. 비밀번호 재설정; 2. 구성 파일 확인 (해시 값이 포함될 수 있음); 3. 코드를 점검하십시오 (암호 하드 코드 메일).

기본 키는 데이터베이스의 각 행을 고유하게 식별하는 키 속성이기 때문에 MySQL 기본 키는 비어있을 수 없습니다. 기본 키가 비어 있으면 레코드를 고유하게 식별 할 수 없으므로 데이터 혼동으로 이어질 수 있습니다. 자체 점수 정수 열 또는 UUID를 기본 키로 사용하는 경우 효율성 및 우주 점유와 같은 요소를 고려하고 적절한 솔루션을 선택해야합니다.

MySQL 및 MariaDB 데이터베이스의 효과적인 모니터링은 최적의 성능을 유지하고 잠재적 인 병목 현상을 식별하며 전반적인 시스템 신뢰성을 보장하는 데 중요합니다. Prometheus MySQL Expler는 능동적 인 관리 및 문제 해결에 중요한 데이터베이스 메트릭에 대한 자세한 통찰력을 제공하는 강력한 도구입니다.
