


Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya
Model bahasa berskala besar (LLM atau LM) pada asalnya digunakan untuk menjana bahasa, tetapi lama kelamaan ia telah dapat menjana kandungan dalam pelbagai modaliti dan digunakan dalam bidang seperti audio, pertuturan, penjanaan kod, aplikasi perubatan, robotik , dsb. Mula mengambil alih
Sudah tentu, LM juga boleh menjana imej dan video. Semasa proses ini, piksel imej dipetakan ke dalam satu siri token diskret oleh tokenizer visual. Token ini kemudiannya dimasukkan ke dalam pengubah LM dan digunakan seperti perbendaharaan kata untuk pemodelan generatif. Walaupun terdapat kemajuan yang ketara dalam penjanaan visual, LM masih berprestasi lebih teruk daripada model resapan. Contohnya, apabila dinilai pada set data ImageNet, penanda aras standard emas untuk penjanaan imej, model bahasa terbaik menunjukkan prestasi 48% lebih teruk daripada model resapan (FID 3.41 lwn. 1.79 apabila menjana imej pada resolusi 256ˆ256).
Mengapakah model bahasa ketinggalan di belakang model resapan dalam penjanaan visual? Penyelidik dari Google dan CMU percaya bahawa sebab utama ialah kekurangan perwakilan visual yang baik, serupa dengan sistem bahasa semula jadi kita, untuk memodelkan dunia visual dengan berkesan. Untuk mengesahkan hipotesis ini, mereka menjalankan kajian.
Pautan kertas: https://arxiv.org/pdf/2310.05737.pdf
Kajian ini menunjukkan bahawa di bawah data latihan yang sama, saiz model yang setanding dan bajet latihan, menggunakan tokenizer Visual yang baik model bahasa mengatasi model penyebaran SOTA dalam kedua-dua kesetiaan dan kecekapan generasi pada penanda aras imej dan video. Ini adalah bukti pertama bahawa model bahasa mengalahkan model penyebaran pada penanda aras ImageNet yang ikonik.
Perlu ditegaskan bahawa tujuan penyelidik bukanlah untuk menegaskan sama ada model bahasa itu lebih baik daripada model lain, tetapi untuk menggalakkan penerokaan kaedah tokenisasi visual LLM. Perbezaan asas antara LLM dan model lain (seperti model resapan) ialah LLM menggunakan format terpendam diskret, iaitu token yang diperoleh daripada tokenizer visual. Penyelidikan ini menunjukkan bahawa nilai token visual diskret ini tidak boleh diabaikan kerana kelebihannya berikut:
1. Kelebihan utama perwakilan token ialah ia berkongsi bentuk yang sama dengan token bahasa, dengan itu memanfaatkan secara langsung pengoptimuman yang telah dibuat oleh komuniti selama bertahun-tahun untuk membangunkan LLM, termasuk latihan yang lebih pantas dan kelajuan inferens, kemajuan dalam infrastruktur model, cara untuk melanjutkan model, dan Inovasi seperti pengoptimuman GPU/TPU. Penyatuan visi dan bahasa melalui ruang token yang sama boleh meletakkan asas untuk LLM yang benar-benar multimodal yang boleh memahami, menjana dan menaakul dalam persekitaran visual kita.
2. Token diskret boleh memberikan perspektif baharu tentang pemampatan video. Token visual boleh digunakan sebagai format pemampatan video baharu untuk mengurangkan storan cakera dan lebar jalur yang diduduki oleh data semasa penghantaran Internet. Tidak seperti piksel RGB termampat, token ini boleh disalurkan terus ke dalam model generatif, memintas penyahmampatan tradisional dan langkah pengekodan terpendam. Ini boleh mempercepatkan pemprosesan aplikasi penjanaan video dan amat berfaedah dalam situasi pengkomputeran tepi.
3. Kelebihan pemahaman visual. Penyelidikan terdahulu telah menunjukkan nilai label diskret sebagai sasaran pra-latihan dalam pembelajaran perwakilan yang diselia sendiri, seperti yang dibincangkan dalam BEiT dan BEVT. Di samping itu, kajian mendapati bahawa menggunakan penanda sebagai input model boleh meningkatkan kekukuhan dan prestasi generalisasinya
Dalam kertas kerja ini, penyelidik mencadangkan tokenizer video bernama MAGVIT-v2, yang bertujuan untuk menukar video kepada (dan imej) kepada padat. token diskret
Kandungan ditulis semula seperti berikut: Model ini berdasarkan penambahbaikan MAGVIT, tokenizer video SOTA dalam rangka kerja VQ-VAE. Para penyelidik mencadangkan dua teknologi baharu: 1) kaedah kuantifikasi bebas carian inovatif yang membolehkan pembelajaran perbendaharaan kata yang besar, dengan itu meningkatkan kualiti penjanaan model bahasa 2) melalui analisis empirikal yang meluas, mereka menentukan Pengubahsuaian kepada MAGVIT bukan sahaja meningkatkan kualiti penjanaan; , tetapi juga membenarkan imej dan video ditoken menggunakan perbendaharaan kata yang dikongsi
Hasil eksperimen menunjukkan model baharu itu mengatasi penyegmen video berprestasi terbaik sebelumnya dalam tiga bidang utama ——MAGVIT. Pertama, model baharu ini meningkatkan kualiti penjanaan MAGVIT dengan ketara, mencapai hasil terkini pada tanda aras imej dan video biasa. Kedua, kajian pengguna menunjukkan bahawa kualiti mampatannya melebihi MAGVIT dan piawaian mampatan video semasa HEVC. Tambahan pula, ia setanding dengan codec video VVC generasi akan datang. Akhir sekali, penyelidik menunjukkan bahawa pembahagian perkataan baharu mereka berprestasi lebih baik daripada MAGVIT dalam tugas pemahaman video dalam dua tetapan dan tiga set data
Pengenalan kaedah
Kertas kerja ini memperkenalkan tokenizer video baharu, bertujuan untuk memetakan dinamik ruang masa dalam adegan visual agar sesuai dengan token diskret padat untuk model bahasa. Tambahan pula, kaedah ini dibina pada MAGVIT.
Selepas itu, kajian ini menyerlahkan dua reka bentuk novel: Kuantiti Tanpa Carian (LFQ) dan penambahbaikan kepada model tokenizer.
Tiada kuantifikasi carian
#🎜🎜Va model terbaru telah mencapai Kemajuan yang besar telah dicapai, tetapi terdapat masalah dengan kaedah ini, iaitu hubungan antara peningkatan kualiti pembinaan semula dan kualiti generasi berikutnya tidak jelas. Ramai orang tersilap percaya bahawa menambah baik pembinaan semula adalah bersamaan dengan menambah baik penjanaan model bahasa, sebagai contoh, mengembangkan perbendaharaan kata boleh meningkatkan kualiti pembinaan semula. Walau bagaimanapun, peningkatan ini hanya terpakai kepada penjanaan perbendaharaan kata yang kecil dan akan menjejaskan prestasi model bahasa apabila perbendaharaan kata tersebut sangat besar Dimensi pembenaman buku kod dikurangkan kepada 0, iaitu, Buku Kod digantikan dengan satu. set integer , di mana
. Berbeza dengan model VQ-VAE, reka bentuk baharu ini menghapuskan sepenuhnya keperluan untuk carian terbenam, maka dinamakan LFQ. Kertas kerja ini mendapati bahawa LFQ boleh meningkatkan kualiti penjanaan model bahasa dengan menambah kosa kata. Seperti yang ditunjukkan oleh lengkung biru dalam Rajah 1, kedua-dua pembinaan semula dan penjanaan bertambah baik apabila saiz perbendaharaan kata bertambah—sifat yang tidak diperhatikan dalam kaedah VQ-VAE semasa. Terdapat banyak kaedah LFQ yang tersedia setakat ini, tetapi artikel ini membincangkan varian mudah. Khususnya, ruang terpendam LFQ diuraikan menjadi hasil Cartesan pembolehubah satu dimensi, iaitu
. Dengan mengandaikan bahawa diberi vektor ciri , setiap dimensi bagi perwakilan terkuantiti q (z) diperoleh daripada:
# 🎜🎜# Mengenai LFQ, indeks token q(z) ialah:
Jika tidak, artikel ini dalam Penalti entropi juga ditambah semasa proses latihan:
Peningkatan model tokenizer visual#🎜🎜 🎜🎜#
Untuk membina tokenizer imej-video bersama, reka bentuk semula diperlukan. Kajian mendapati bahawa berbanding dengan pengubah spatial, prestasi 3D CNN adalah lebih baik MAGVIT digabungkan; Jadual 5a membandingkan secara empirik reka bentuk dalam Rajah 2 dan mendapati bahawa CNN 3D penyebab berprestasi terbaik.
Artikel ini membuat pengubahsuaian seni bina lain untuk meningkatkan prestasi MAGVIT. Selain menggunakan lapisan CNN 3D sebab, makalah ini juga menukar pengekod bawah sampel daripada pengumpulan purata kepada lilitan berjalur dan menambah penormalan kumpulan penyesuaian sebelum blok baki pada setiap peleraian dalam penyahkod dll.
Hasil eksperimen
.Kertas kerja ini mengesahkan prestasi pembahagian perkataan yang dicadangkan melalui tiga bahagian percubaan: penjanaan video dan imej, pemampatan video dan pengecaman tindakan. Rajah 3 membandingkan secara visual tokenizer dengan hasil penyelidikan terdahulu
penjanaan video. Jadual 1 menunjukkan model kami mengatasi semua teknik sedia ada pada kedua-dua penanda aras, membuktikan bahawa tokenizer visual yang baik memainkan peranan penting dalam membolehkan LM menjana video berkualiti tinggi. Dengan menilai hasil penjanaan imej MAGVIT-v2, kajian ini mendapati model kami melebihi prestasi model resapan terbaik dari segi kualiti pensampelan (ID dan IS) dan kecekapan masa inferens (langkah persampelan Rajah 5 menunjukkan visualisasi). keputusan.
Mampatan video. Keputusan ditunjukkan dalam Jadual 3. Model kami mengatasi MAGVIT pada semua penunjuk dan mengatasi semua kaedah pada LPIPS.
Seperti yang ditunjukkan dalam Jadual 4, MAGVIT-v2 mengatasi MAGVIT terbaik sebelum ini dalam penilaian ini
Atas ialah kandungan terperinci Dalam penjanaan imej dan video, model bahasa mengalahkan model resapan buat kali pertama, dan tokenizer ialah kuncinya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
