Das Sprachmodell besiegt das Diffusionsmodell und erreicht doppelte SOTA bei der Video- und Bildgenerierung!
Dies ist das neueste Forschungsergebnis von Google CMU.
Berichten zufolge ist dies das erste Mal dass ein Sprachmodell ein Diffusionsmodell im legendären ImageNet-Benchmark besiegt hat.
Die Schlüsselkomponente dahinter ist dervisuelle Tokenizer (Video-Tokenizer), der Pixelraumeingaben in Token umwandeln kann, die für das LLM-Lernen geeignet sind.
Das Google CMU-Forschungsteam schlug MAGVIT-v2 vor, das den bisher besten visuellen Wortsegmentierer in zwei anderen Aufgaben übertraf. Großes Sprachmodell besiegt DiffusionsmodellEs besteht Einigkeit darüber, dass große Sprachmodelle in verschiedenen generativen Bereichen eine hervorragende Leistung aufweisen. Wie Text, Audio, Codegenerierung usw. Aber Sprachmodelle sind in Bezug auf die visuelle Generierung immer hinter Diffusionsmodellen zurückgeblieben. Das Team glaubt, dass der Hauptgrund das Fehlen einer guten visuellen Darstellung ist, ähnlich einem selbst entwickelten Sprachsystem, das die visuelle Welt effektiv modellieren kann. Im Gegensatz zur natürlichen Sprache hat der Mensch kein optimales Vokabular für die visuelle Welt entwickelt. Dies schränkt auch die visuellen Generierungsmöglichkeiten großer Sprachmodelle ein. Basierend auf diesem Urteil hat diese Forschung hauptsächlich drei Aufgaben erledigt:MAGVIT (Masked Generative Video Transformer) vervollständigt diese Methode hauptsächlich zwei Designs: Lookup-Free Quantization (LFQ) und Bild-Video-Joint-Tokenizer.
Papierlink:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
Das obige ist der detaillierte Inhalt vonGroßes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!