Model bahasa berskala besar (LLM atau LM) pada asalnya digunakan untuk menjana bahasa, tetapi lama kelamaan ia telah dapat menjana kandungan dalam pelbagai modaliti dan digunakan dalam bidang seperti audio, pertuturan, penjanaan kod, aplikasi perubatan, robotik , dsb. Mula mengambil alih
Sudah tentu, LM juga boleh menjana imej dan video. Semasa proses ini, piksel imej dipetakan ke dalam satu siri token diskret oleh tokenizer visual. Token ini kemudiannya dimasukkan ke dalam pengubah LM dan digunakan seperti perbendaharaan kata untuk pemodelan generatif. Walaupun terdapat kemajuan yang ketara dalam penjanaan visual, LM masih berprestasi lebih teruk daripada model resapan. Contohnya, apabila dinilai pada set data ImageNet, penanda aras standard emas untuk penjanaan imej, model bahasa terbaik menunjukkan prestasi 48% lebih teruk daripada model resapan (FID 3.41 lwn. 1.79 apabila menjana imej pada resolusi 256ˆ256).
Mengapakah model bahasa ketinggalan di belakang model resapan dalam penjanaan visual? Penyelidik dari Google dan CMU percaya bahawa sebab utama ialah kekurangan perwakilan visual yang baik, serupa dengan sistem bahasa semula jadi kita, untuk memodelkan dunia visual dengan berkesan. Untuk mengesahkan hipotesis ini, mereka menjalankan kajian.
Pautan kertas: https://arxiv.org/pdf/2310.05737.pdf
Kajian ini menunjukkan bahawa di bawah data latihan yang sama, saiz model yang setanding dan bajet latihan, menggunakan tokenizer Visual yang baik model bahasa mengatasi model penyebaran SOTA dalam kedua-dua kesetiaan dan kecekapan generasi pada penanda aras imej dan video. Ini adalah bukti pertama bahawa model bahasa mengalahkan model penyebaran pada penanda aras ImageNet yang ikonik.
Perlu ditegaskan bahawa tujuan penyelidik bukanlah untuk menegaskan sama ada model bahasa itu lebih baik daripada model lain, tetapi untuk menggalakkan penerokaan kaedah tokenisasi visual LLM. Perbezaan asas antara LLM dan model lain (seperti model resapan) ialah LLM menggunakan format terpendam diskret, iaitu token yang diperoleh daripada tokenizer visual. Penyelidikan ini menunjukkan bahawa nilai token visual diskret ini tidak boleh diabaikan kerana kelebihannya berikut:
1. Kelebihan utama perwakilan token ialah ia berkongsi bentuk yang sama dengan token bahasa, dengan itu memanfaatkan secara langsung pengoptimuman yang telah dibuat oleh komuniti selama bertahun-tahun untuk membangunkan LLM, termasuk latihan yang lebih pantas dan kelajuan inferens, kemajuan dalam infrastruktur model, cara untuk melanjutkan model, dan Inovasi seperti pengoptimuman GPU/TPU. Penyatuan visi dan bahasa melalui ruang token yang sama boleh meletakkan asas untuk LLM yang benar-benar multimodal yang boleh memahami, menjana dan menaakul dalam persekitaran visual kita.
2. Token diskret boleh memberikan perspektif baharu tentang pemampatan video. Token visual boleh digunakan sebagai format pemampatan video baharu untuk mengurangkan storan cakera dan lebar jalur yang diduduki oleh data semasa penghantaran Internet. Tidak seperti piksel RGB termampat, token ini boleh disalurkan terus ke dalam model generatif, memintas penyahmampatan tradisional dan langkah pengekodan terpendam. Ini boleh mempercepatkan pemprosesan aplikasi penjanaan video dan amat berfaedah dalam situasi pengkomputeran tepi.
3. Kelebihan pemahaman visual. Penyelidikan terdahulu telah menunjukkan nilai label diskret sebagai sasaran pra-latihan dalam pembelajaran perwakilan yang diselia sendiri, seperti yang dibincangkan dalam BEiT dan BEVT. Di samping itu, kajian mendapati bahawa menggunakan penanda sebagai input model boleh meningkatkan kekukuhan dan prestasi generalisasinya
Dalam kertas kerja ini, penyelidik mencadangkan tokenizer video bernama MAGVIT-v2, yang bertujuan untuk menukar video kepada (dan imej) kepada padat. token diskret
Kandungan ditulis semula seperti berikut: Model ini berdasarkan penambahbaikan MAGVIT, tokenizer video SOTA dalam rangka kerja VQ-VAE. Para penyelidik mencadangkan dua teknologi baharu: 1) kaedah kuantifikasi bebas carian inovatif yang membolehkan pembelajaran perbendaharaan kata yang besar, dengan itu meningkatkan kualiti penjanaan model bahasa 2) melalui analisis empirikal yang meluas, mereka menentukan Pengubahsuaian kepada MAGVIT bukan sahaja meningkatkan kualiti penjanaan; , tetapi juga membenarkan imej dan video ditoken menggunakan perbendaharaan kata yang dikongsi
Hasil eksperimen menunjukkan model baharu itu mengatasi penyegmen video berprestasi terbaik sebelumnya dalam tiga bidang utama ——MAGVIT. Pertama, model baharu ini meningkatkan kualiti penjanaan MAGVIT dengan ketara, mencapai hasil terkini pada tanda aras imej dan video biasa. Kedua, kajian pengguna menunjukkan bahawa kualiti mampatannya melebihi MAGVIT dan piawaian mampatan video semasa HEVC. Tambahan pula, ia setanding dengan codec video VVC generasi akan datang. Akhir sekali, penyelidik menunjukkan bahawa pembahagian perkataan baharu mereka berprestasi lebih baik daripada MAGVIT dalam tugas pemahaman video dalam dua tetapan dan tiga set data
Kertas kerja ini memperkenalkan tokenizer video baharu, bertujuan untuk memetakan dinamik ruang masa dalam adegan visual agar sesuai dengan token diskret padat untuk model bahasa. Tambahan pula, kaedah ini dibina pada MAGVIT.
Selepas itu, kajian ini menyerlahkan dua reka bentuk novel: Kuantiti Tanpa Carian (LFQ) dan penambahbaikan kepada model tokenizer.
Tiada kuantifikasi carian
#🎜🎜Va model terbaru telah mencapai Kemajuan yang besar telah dicapai, tetapi terdapat masalah dengan kaedah ini, iaitu hubungan antara peningkatan kualiti pembinaan semula dan kualiti generasi berikutnya tidak jelas. Ramai orang tersilap percaya bahawa menambah baik pembinaan semula adalah bersamaan dengan menambah baik penjanaan model bahasa, sebagai contoh, mengembangkan perbendaharaan kata boleh meningkatkan kualiti pembinaan semula. Walau bagaimanapun, peningkatan ini hanya terpakai kepada penjanaan perbendaharaan kata yang kecil dan akan menjejaskan prestasi model bahasa apabila perbendaharaan kata tersebut sangat besar Dimensi pembenaman buku kod dikurangkan kepada 0, iaitu, Buku Kod digantikan dengan satu. set integer , di mana
.Berbeza dengan model VQ-VAE, reka bentuk baharu ini menghapuskan sepenuhnya keperluan untuk carian terbenam, maka dinamakan LFQ. Kertas kerja ini mendapati bahawa LFQ boleh meningkatkan kualiti penjanaan model bahasa dengan menambah kosa kata. Seperti yang ditunjukkan oleh lengkung biru dalam Rajah 1, kedua-dua pembinaan semula dan penjanaan bertambah baik apabila saiz perbendaharaan kata bertambah—sifat yang tidak diperhatikan dalam kaedah VQ-VAE semasa. Terdapat banyak kaedah LFQ yang tersedia setakat ini, tetapi artikel ini membincangkan varian mudah. Khususnya, ruang terpendam LFQ diuraikan menjadi hasil Cartesan pembolehubah satu dimensi, iaitu . Dengan mengandaikan bahawa diberi vektor ciri , setiap dimensi bagi perwakilan terkuantiti q (z) diperoleh daripada:
# 🎜🎜# Mengenai LFQ, indeks token q(z) ialah:
Jika tidak, artikel ini dalam Penalti entropi juga ditambah semasa proses latihan:
Peningkatan model tokenizer visual#🎜🎜 🎜🎜#
Untuk membina tokenizer imej-video bersama, reka bentuk semula diperlukan. Kajian mendapati bahawa berbanding dengan pengubah spatial, prestasi 3D CNN adalah lebih baik MAGVIT digabungkan; Jadual 5a membandingkan secara empirik reka bentuk dalam Rajah 2 dan mendapati bahawa CNN 3D penyebab berprestasi terbaik.
Artikel ini membuat pengubahsuaian seni bina lain untuk meningkatkan prestasi MAGVIT. Selain menggunakan lapisan CNN 3D sebab, makalah ini juga menukar pengekod bawah sampel daripada pengumpulan purata kepada lilitan berjalur dan menambah penormalan kumpulan penyesuaian sebelum blok baki pada setiap peleraian dalam penyahkod dll.
Kertas kerja ini mengesahkan prestasi pembahagian perkataan yang dicadangkan melalui tiga bahagian percubaan: penjanaan video dan imej, pemampatan video dan pengecaman tindakan. Rajah 3 membandingkan secara visual tokenizer dengan hasil penyelidikan terdahulu
penjanaan video. Jadual 1 menunjukkan model kami mengatasi semua teknik sedia ada pada kedua-dua penanda aras, membuktikan bahawa tokenizer visual yang baik memainkan peranan penting dalam membolehkan LM menjana video berkualiti tinggi. Dengan menilai hasil penjanaan imej MAGVIT-v2, kajian ini mendapati model kami melebihi prestasi model resapan terbaik dari segi kualiti pensampelan (ID dan IS) dan kecekapan masa inferens (langkah persampelan Rajah 5 menunjukkan visualisasi). keputusan.
Mampatan video. Keputusan ditunjukkan dalam Jadual 3. Model kami mengatasi MAGVIT pada semua penunjuk dan mengatasi semua kaedah pada LPIPS.
Seperti yang ditunjukkan dalam Jadual 4, MAGVIT-v2 mengatasi MAGVIT terbaik sebelum ini dalam penilaian ini
Atas ialah kandungan terperinci Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!