언어 모델은 확산 모델을 물리치고 비디오 및 이미지 생성에서 두 배의 SOTA를 달성합니다!
Google CMU의 최신 연구 결과입니다.
보고서에 따르면 언어 모델이 상징적인 ImageNet 벤치마크에서 확산 모델을 이긴 것은 이번이 처음입니다 .
그 뒤에 있는 핵심 구성 요소는 픽셀 공간 입력을 LLM 학습에 적합한 토큰으로 매핑할 수 있는visual tokenizer(비디오 토크나이저)입니다.
Google CMU 연구팀은 다른 두 가지 작업에서 이전 최고의 시각적 단어 분할기를 능가하는 MAGVIT-v2를 제안했습니다. 대형 언어 모델이 확산 모델을 이깁니다대형 언어 모델이 다양한 생성 분야에서 탁월한 성능을 발휘한다는 데 동의했습니다. 텍스트, 오디오, 코드 생성 등 그러나 언어 모델은 시각적 생성 측면에서 항상 확산 모델보다 뒤쳐져 왔습니다. 팀은 시각적 세계를 효과적으로 모델링할 수 있는 자체 개발 언어 시스템과 유사하게 좋은 시각적 표현이 부족하기 때문에 주된 이유가 있다고 믿습니다. 자연어와 달리 인간은 시각적 세계에 적합한 최적의 어휘를 진화시키지 못했습니다. 이는 또한 대규모 언어 모델의 시각적 생성 기능을 제한합니다. 이 판단을 바탕으로 본 연구는 주로 세 가지 작업을 완료했습니다.MAGVIT(Masked Generative Video Transformer)를 기반으로 이 방법은 주로 LFQ(Lookup-Free Quantization) 및 이미지-비디오 조인트 토크나이저의 두 가지 설계를 완성합니다.
논문 링크:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
위 내용은 대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!