Model bahasa mengalahkan model penyebaran dan mencapai SOTA berganda dalam penjanaan video dan imej!
Ini adalah hasil penyelidikan terkini daripada Google CMU.
Menurut laporan, ini adalah kali pertama bahawa model bahasa telah mengalahkan model resapan pada penanda aras ImageNet yang ikonik.
Komponen utama di belakangnya ialahvisual tokenizer (video tokenizer), yang boleh memetakan input ruang piksel ke dalam token yang sesuai untuk pembelajaran LLM.
Pasukan penyelidik Google CMU mencadangkan MAGVIT-v2, yang mengatasi pembahagian kata visual terbaik sebelum ini dalam dua tugasan lain. Model Bahasa Besar Menewaskan Model ResapanTelah dipersetujui bahawa model bahasa besar mempunyai prestasi cemerlang dalam pelbagai bidang generatif. Seperti teks, audio, penjanaan kod, dsb. Tetapi model bahasa sentiasa ketinggalan daripada model resapan dari segi penjanaan visual. Pasukan percaya bahawa sebab utama adalah kekurangan perwakilan visual yang baik, serupa dengan sistem bahasa yang dibangunkan sendiri, yang boleh memodelkan dunia visual dengan berkesan. Tidak seperti bahasa semula jadi, manusia belum mengembangkan perbendaharaan kata yang optimum untuk dunia visual. Ini juga mengehadkan keupayaan penjanaan visual model bahasa besar. Berdasarkan pertimbangan ini, penyelidikan ini menyempurnakan terutamanya tiga tugas:MAGVIT (Masked Generative Video Transformer), kaedah ini terutamanya melengkapkan dua reka bentuk: Lookup-Free Quantization (LFQ) dan image-video joint tokenizer.
Akhir sekali, dalam penjanaan video/imej, ImageNet 512×512 dan Kinetics-600 kedua-duanya lebih baik daripada Model Difusi. Dari segi pemampatan video dan pengecaman tindakan, ia juga lebih baik daripada keputusan sebelumnya. Salah seorang alumni Universiti PekingYu Lijun kini merupakan pelajar kedoktoran di Institut Teknologi Bahasa, Pusat Pengajian Sains Komputer, CMU, belajar di bawah Profesor Alexander G. Hauptmann, dan juga seorang penyelidik pelajar Google . Minat penyelidikan terletak pada model asas berbilang modal, terutamanya penjanaan video berbilang tugas. Sebelum datang ke CMU, beliau menerima ijazah sarjana muda berganda dalam bidang sains komputer dan ekonomi dari Universiti Peking. Saya juga melihat ramai lagi wajah Cina dalam pasukan penyelidik. Pengarang yang sepadan Jiang Lu kini seorang saintis di Google Research dan profesor tambahan di CMU. Penyelidikan beliau tertumpu terutamanya pada bidang data besar pelbagai mod, terutamanya pembelajaran mendalam yang teguh, kecerdasan buatan generatif dan model asas pelbagai mod.Pautan kertas:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/
Atas ialah kandungan terperinci Model bahasa besar mengalahkan model penyebaran! Penjanaan imej video dwi SOTA, penyelidikan terbaharu Google CMU, alumnus Universiti Peking. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!