Bytedance의 획기적인 Omnihuman-1 프레임 워크는 인간 애니메이션에 혁명을 일으킨다! 최근의 연구 논문에 자세히 설명 된이 새로운 모델은 확산 변압기 아키텍처를 활용하여 단일 이미지 및 오디오 입력에서 엄청나게 현실적인 휴먼 비디오를 생성합니다. 복잡한 설정을 잊어 버리십시오 - 옴니 누만은 프로세스를 단순화하고 우수한 결과를 제공합니다. 세부 사항으로 뛰어 들어 봅시다.
목차
기존 애니메이션 모델의 한계
Omnihuman-1 솔루션 : 다중 모달 접근
샘플 omnihuman-1 비디오
모델 교육 및 건축
omni-conditions 교육 전략
실험적 검증 및 성능 -
절제 연구 : 훈련 과정 최적화
확장 된 시각적 결과 : 다양성을 보여줍니다
- 결론
- 기존 인간 애니메이션 모델의 한계
-
현재 인간 애니메이션 모델은 종종 한계로 고통 받고 있습니다. 그들은 종종 작고 전문화 된 데이터 세트에 의존하여 품질이 낮고 융통성이없는 애니메이션을 만듭니다. 많은 사람들이 다양한 상황에서 일반화로 어려움을 겪고 현실감과 유동성이 부족합니다. 단일 입력 방식 (예 : 텍스트 또는 이미지 만)에 대한 의존은 인간 운동과 표현의 뉘앙스를 포착하는 능력을 심각하게 제한합니다.
Omnihuman-1 솔루션 -
Omnihuman-1은 다중 모달 접근 방식으로 이러한 과제를 정면으로 해결합니다. 텍스트, 오디오 및 포즈 정보를 컨디셔닝 신호로 통합하여 상황에 따라 풍부하고 사실적인 애니메이션을 만듭니다. 혁신적인 Omni-Conditions Design은 참조 이미지에서 주제 정체성과 배경 세부 사항을 보존하여 일관성을 보장합니다. 고유 한 교육 전략은 데이터 활용을 극대화하여 과적으로 과적으로 성능을 향상시키고 성능을 향상시킵니다.
-
샘플 omnihuman-1 비디오
Omnihuman-1은 이미지와 오디오에서 현실적인 비디오를 생성합니다. 다양한 시각적 및 오디오 스타일을 처리하여 모든 종횡비 및 신체 비율로 비디오를 제작합니다. 결과 애니메이션은 상세한 움직임, 조명 및 질감을 자랑합니다. (참고 : 참조 이미지는 간결성에 대해 생략되지만 요청시 사용할 수 있습니다.) -
말하기
- 브라우저는 비디오 태그를 지원하지 않습니다.
- 노래
브라우저는 비디오 태그를 지원하지 않습니다.
다양성
브라우저는 비디오 태그를 지원하지 않습니다.
손이있는 Body Body Case
브라우저는 비디오 태그를 지원하지 않습니다.
모델 훈련 및 건축
Omnihuman-1의 훈련은 다중 조건 확산 모델을 활용합니다. 핵심은 미리 훈련 된 해초 모델 (MMDIT 아키텍처)이며, 처음에는 일반 텍스트 비디오 쌍에 대해 교육을 받았습니다. 그런 다음 텍스트, 오디오 및 포즈 신호를 통합하여 인간 비디오 생성에 적합합니다. 인과 적 3D 변형 자동 인코 코더 (3DVAE)는 비디오를 효율적인 비난을 위해 잠재적 인 공간으로 투사합니다. 아키텍처는 기준 이미지에서 주제 정체성과 배경을 보존하기 위해 비난 과정을 영리하게 재사용합니다.
모델 아키텍처 다이어그램
옴니 조건 훈련 전략
이 3 단계 프로세스는 확산 모델을 점진적으로 개선합니다. 모션 상관 강도 (약한)에 따라 조절 방식 (텍스트, 오디오, 포즈)을 순차적으로 소개합니다. 이를 통해 각 양식에서 균형 잡힌 기여를 보장하여 애니메이션 품질을 최적화합니다. 오디오 컨디셔닝은 기능 추출을 위해 WAV2VEC를 사용하고 포즈 컨디셔닝은 포즈 히트 맵을 통합합니다.
실험적 검증 및 성능
이 논문은 대규모 데이터 세트 (18.7k 시간의 인간 관련 데이터)를 사용하여 엄격한 실험적 검증을 제시합니다. Omnihuman-1은 다양한 메트릭 (IQA, ASE, SYNC-C, FID, FVD)에서 기존 방법을 능가하여 다양한 입력 구성을 처리 할 때 우수한 성능과 다양성을 보여줍니다.
절제 연구 : 훈련 과정 최적화
절제 연구는 각 양식에 대한 다른 훈련 데이터 비율의 영향을 탐구합니다. 오디오 및 포즈 데이터에 대한 최적의 비율을 보여주고 현실주의 및 동적 범위의 균형을 유지합니다. 이 연구는 또한 정체성과 시각적 충실도를 보존하기위한 충분한 참조 이미지 비율의 중요성을 강조합니다. 시각화는 다양한 오디오 및 포즈 조건 비율의 효과를 분명히 보여줍니다.
확장 된 시각적 결과 : 다목적 성을 보여줍니다
확장 된 시각적 결과는 다양한 스타일, 객체 상호 작용 및 포즈 중심 시나리오를 처리 할 수있는 능력을 강조하고 다양한 고품질 애니메이션을 생성하는 Omnihuman-1의 능력을 보여줍니다.
결론
Omnihuman-1은 인간 비디오 생성에서 중요한 도약을 나타냅니다. 제한된 입력과 멀티 모달 기능에서 사실적인 애니메이션을 만들 수있는 능력은 정말 놀라운 성과입니다. 이 모델은 디지털 애니메이션 분야에 혁명을 일으킬 준비가되어 있습니다.
위 내용은 Bytedance는 방금 AI 비디오를 마음으로 불렀습니다! -Mehnihuman 1의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!