Das Sprachmodell besiegt das Diffusionsmodell und erreicht doppelte SOTA bei der Video- und Bildgenerierung!
Dies ist das neueste Forschungsergebnis von Google CMU.
Berichten zufolge ist dies das erste Mal dass ein Sprachmodell ein Diffusionsmodell im legendären ImageNet-Benchmark besiegt hat.
Die Schlüsselkomponente dahinter ist dervisuelle Tokenizer (Video-Tokenizer), der Pixelraumeingaben in Token umwandeln kann, die für das LLM-Lernen geeignet sind.
Das Google CMU-Forschungsteam schlug MAGVIT-v2 vor, das den bisher besten visuellen Wortsegmentierer in zwei anderen Aufgaben übertraf. Großes Sprachmodell besiegt DiffusionsmodellEs besteht Einigkeit darüber, dass große Sprachmodelle in verschiedenen generativen Bereichen eine hervorragende Leistung aufweisen. Wie Text, Audio, Codegenerierung usw. Aber Sprachmodelle sind in Bezug auf die visuelle Generierung immer hinter Diffusionsmodellen zurückgeblieben. Das Team glaubt, dass der Hauptgrund das Fehlen einer guten visuellen Darstellung ist, ähnlich einem selbst entwickelten Sprachsystem, das die visuelle Welt effektiv modellieren kann. Im Gegensatz zur natürlichen Sprache hat der Mensch kein optimales Vokabular für die visuelle Welt entwickelt. Dies schränkt auch die visuellen Generierungsmöglichkeiten großer Sprachmodelle ein. Basierend auf diesem Urteil hat diese Forschung hauptsächlich drei Aufgaben erledigt:MAGVIT (Masked Generative Video Transformer) vervollständigt diese Methode hauptsächlich zwei Designs: Lookup-Free Quantization (LFQ) und Bild-Video-Joint-Tokenizer.
Schließlich sind ImageNet 512×512 und Kinetics-600 bei der Video-/Bilderzeugung beide besser als das Diffusionsmodell. In Bezug auf Videokomprimierung und Aktionserkennung ist es auch besser als frühere Ergebnisse. Einer ist Absolvent der Peking-UniversitätYu Lijun ist derzeit Doktorand am Institute of Language Technology, School of Computer Science, CMU, studiert bei Professor Alexander G. Hauptmann und ist außerdem studentischer Forscher bei Google . Forschungsinteressen liegen in multimodalen Basismodellen, insbesondere in der Multitask-Videogenerierung. Bevor er an die CMU kam, erhielt er einen Doppel-Bachelor-Abschluss in Informatik und Wirtschaftswissenschaften von der Peking-Universität. Ich habe auch viele andere chinesische Gesichter im Forschungsteam gesehen. Der korrespondierende Autor Jiang Lu ist derzeit Wissenschaftler bei Google Research und außerordentlicher Professor an der CMU. Seine Forschung konzentriert sich hauptsächlich auf den Bereich multimodaler Big Data, insbesondere robustes Deep Learning, generative künstliche Intelligenz und multimodale Basismodelle.Papierlink:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
Das obige ist der detaillierte Inhalt vonGroßes Sprachmodell schlägt Diffusionsmodell! Duales SOTA zur Videobilderzeugung, die neueste Forschung von Google CMU, ein Absolvent der Peking-Universität. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!