


Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3
Model bahasa berskala besar semasa seperti GPT, LLaMA, dsb. telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi dan boleh memahami serta menjana kandungan teks yang kompleks. Walau bagaimanapun, bolehkah kita meluaskan pemahaman dan keupayaan penjanaan yang berkuasa ini kepada data multimodal? Idea ini beransur-ansur menjadi kenyataan. Model besar berbilang modal terkini LaVIT dibangunkan oleh Kuaishou dan Universiti Peking. Dengan menggabungkan data imej dan video, ia membolehkan model memahami kandungan multimedia yang besar dengan mudah dan membantu dalam penciptaan kandungan bergambar. Kemunculan LaVIT adalah sangat penting untuk pemahaman dan penciptaan kandungan multimedia. Ia bukan sahaja mengenal pasti objek, adegan dan emosi dalam imej dan video, tetapi juga menjana penerangan bahasa semula jadi yang berkaitan dengannya. Dengan cara ini, kami boleh menggunakan data berbilang modal dengan lebih baik dan mencipta kandungan grafik yang lebih jelas dan menarik. Pembangunan LaVIT ialah percubaan penting dalam model bahasa berskala besar dalam bidang berbilang modal. Ia dijangka membawa lebih banyak kemungkinan kepada pemprosesan dan penciptaan kandungan multimedia dan menggalakkan pembangunan selanjutnya dalam bidang pemprosesan bahasa semula jadi dan penglihatan komputer. .
Model kod Alamat: https://github.com/jy0205/LaVIT
Gambaran Keseluruhan Model
- LaVIT ialah model asas pelbagai mod am baharu yang boleh memahami dan menjana kandungan visual seperti model bahasa. Ia menggunakan pendekatan latihan yang serupa kepada model bahasa besar, menggunakan pendekatan autoregresif untuk meramalkan imej atau token teks seterusnya. Setelah dilatih, LaVIT boleh berfungsi sebagai antara muka multimodal umum yang boleh melaksanakan tugas pemahaman dan penjanaan pelbagai mod tanpa penalaan lebih lanjut. Sebagai contoh, LaVIT boleh mencapai fungsi berikut:
- LaVIT ialah model penjanaan teks-ke-imej yang berkuasa yang mampu menjana kualiti tinggi, nisbah aspek berbilang dan imej estetik tinggi berdasarkan gesaan teks yang diberikan. Berbanding dengan model penjanaan imej terkini seperti Parti, SDXL dan DALLE-3, LaVIT mempunyai keupayaan penjanaan imej yang setanding. Apa yang menjadikannya unik ialah keupayaannya menjana imej yang pelbagai sambil mengekalkan kualiti dan estetika yang tinggi. Sama ada dalam orientasi potret atau landskap, LaVIT mampu menghasilkan gubahan imej yang memuaskan. Dengan menggabungkan teknologi canggih dan data latihan berkualiti tinggi, LaVIT menyediakan pengguna dengan teks-ke-graf yang luar biasa
LaVIT ialah model pemahaman imej yang boleh membaca imej dan memahami semantiknya. Ia boleh menjana penerangan yang relevan untuk imej input dan menjawab soalan yang berkaitan. .
Peringkat 1: Tokenizer Visual Dinamik
Untuk dapat memahami dan menjana kandungan visual seperti bahasa semula jadi, LaVIT memperkenalkan tokenizer visual yang direka dengan baik untuk menukar kandungan visual seperti teks) (isyarat seperti berterusan) Urutan token yang sama, seperti bahasa asing yang LLM boleh faham. Penulis percaya bahawa untuk mencapai pemodelan visual dan bahasa bersatu, tokenizer visual (Tokenizer) harus mempunyai dua ciri berikut:
- Discretization: Token visual harus diwakili sebagai bentuk diskret seperti teks. Ini menggunakan borang perwakilan bersatu untuk dua modaliti, yang kondusif untuk LaVIT menggunakan kehilangan klasifikasi yang sama untuk pengoptimuman pemodelan pelbagai mod di bawah rangka kerja latihan generatif autoregresif bersatu.
- Dynamicifikasi: Tidak seperti token teks, patch imej mempunyai saling kebergantungan yang ketara antara mereka, menjadikannya agak mudah untuk membuat kesimpulan satu patch daripada yang lain. Oleh itu, pergantungan ini mengurangkan keberkesanan matlamat pengoptimuman ramalan token seterusnya LLM asal. LaVIT bercadang untuk mengurangkan lebihan antara patch visual dengan menggunakan penggabungan token, yang mengekodkan nombor dinamik token visual berdasarkan kerumitan semantik yang berbeza bagi imej yang berbeza. Dengan cara ini, untuk imej kerumitan yang berbeza, penggunaan pengekodan token dinamik meningkatkan lagi kecekapan pra-latihan dan mengelakkan pengiraan token berlebihan.
Rajah berikut ialah struktur tokenizer visual yang dicadangkan oleh LaVIT:
Gambar: (a) Penjana token visual dinamik (b) penggabungan token kepada visual
pemilih dan penggabung token. Seperti yang ditunjukkan dalam rajah, pemilih token digunakan untuk memilih blok imej yang paling bermaklumat, manakala penggabungan token memampatkan maklumat blok visual tidak bermaklumat tersebut ke dalam token yang disimpan untuk mencapai penggabungan token berlebihan. Keseluruhan pembahagian perkataan visual dinamik dilatih dengan memaksimumkan pembinaan semula semantik imej input.
Pemilih token
Pemilih token menerima N ciri peringkat blok imej sebagai input, dan matlamatnya adalah untuk menilai kepentingan setiap blok imej dan memilih blok dengan jumlah maklumat tertinggi , untuk mewakili sepenuhnya semantik keseluruhan imej. Untuk mencapai matlamat ini, modul ringan yang terdiri daripada berbilang lapisan MLP digunakan untuk meramalkan taburan π. Dengan pensampelan daripada taburan π, topeng keputusan binari dijana yang menunjukkan sama ada untuk menyimpan tampung imej yang sepadan.
Penggabung token
Penggabung token membahagikan N blok imej kepada dua kumpulan: kekalkan X_r dan buang X_d mengikut topeng keputusan yang dihasilkan. Tidak seperti membuang X_d secara langsung, penggabung token boleh mengekalkan semantik terperinci imej input ke tahap maksimum. Penggabung token terdiri daripada blok bertindan L, setiap satunya termasuk lapisan perhatian kendiri sebab, lapisan perhatian silang dan lapisan ke hadapan. Dalam lapisan perhatian kendiri sebab, setiap token dalam X_r hanya memberi perhatian kepada token sebelumnya untuk memastikan konsistensi dengan bentuk token teks dalam LLM. Strategi ini berprestasi lebih baik berbanding dengan perhatian diri dua arah. Lapisan perhatian silang mengambil token yang disimpan X_r sebagai pertanyaan dan menggabungkan token dalam X_d berdasarkan persamaan semantiknya.
Fasa 2: Pra-latihan generatif bersatu
Token visual yang diproses oleh tokenizer visual disambungkan dengan token teks untuk membentuk urutan berbilang modal sebagai input untuk latihan. Untuk membezakan kedua-dua modaliti, pengarang memasukkan token khas pada permulaan dan penghujung jujukan token imej: [IMG] dan [/IMG], yang digunakan untuk menunjukkan permulaan dan akhir kandungan visual. Untuk dapat menjana teks dan imej, LaVIT menggunakan dua bentuk sambungan imej-teks: [imej, teks] dan [teks;
Untuk jujukan input berbilang modal ini, LaVIT menggunakan pendekatan bersatu dan autoregresif untuk memaksimumkan secara langsung kemungkinan setiap jujukan berbilang modal untuk pra-latihan. Penyatuan lengkap ruang perwakilan dan kaedah latihan ini membantu LLM mempelajari interaksi dan penjajaran pelbagai mod dengan lebih baik. Selepas pra-latihan selesai, LaVIT mempunyai keupayaan untuk melihat imej dan boleh memahami serta menjana imej seperti teks. . , VizWiz) Mencapai prestasi terkemuka dalam tugasan.
Jadual 1 Penilaian tugasan pemahaman multimodal sifar tembakan
Penjanaan multimodal sifar tembakan
Dalam percubaan ini, memandangkan tokenizer visual yang dicadangkan dapat mewakili imej sebagai token diskret, LaVIT mempunyai keupayaan untuk mensintesis imej dengan menjana token visual seperti teks melalui autoregresi. Penulis menjalankan penilaian kuantitatif prestasi sintesis imej model di bawah keadaan teks sampel sifar, dan keputusan perbandingan ditunjukkan dalam Jadual 2.
Jadual 2 Teks tangkapan sifar kepada prestasi penjanaan imej model berbeza
Seperti yang dapat dilihat daripada jadual, LaVIT mengatasi semua model bahasa berbilang mod yang lain. Berbanding dengan Emu, LaVIT mencapai peningkatan selanjutnya pada model LLM yang lebih kecil, menunjukkan keupayaan penjajaran visual-verbal yang sangat baik. Tambahan pula, LaVIT mencapai prestasi yang setanding dengan Parti pakar teks-ke-imej terkini sambil menggunakan kurang data latihan.
Penjanaan imej pantas berbilang modal
LaVIT mampu menerima pelbagai kombinasi mod dengan lancar sebagai gesaan dan menjana imej yang sepadan tanpa sebarang penalaan halus. LaVIT menjana imej yang menggambarkan dengan tepat gaya dan semantik isyarat multimodal tertentu. Dan ia boleh mengubah suai imej input asal dengan isyarat multi-modal input. Model penjanaan imej tradisional seperti Stable Diffusion tidak dapat mencapai keupayaan ini tanpa data hiliran tambahan yang diperhalusi.
sample hasil generasi imej multi-modal
analisis qualitative
As ditunjukkan dalam angka di bawah, tokenizer dinamik Lavit boleh memilih secara dinamik yang paling bermaklumat berdasarkan imej kandungan Tampalan imej, kod yang dipelajari boleh menghasilkan kod visual dengan semantik peringkat tinggi.
Visualisasi tokenizer visual dinamik (kiri) dan buku kod yang dipelajari (kanan)
Ringkasan
Kemunculan LaVIT yang berjaya dalam pemprosesan tugasan yang berjaya. paradigma pembelajaran generatif autoregresif LLM dengan menggunakan tokenizer visual dinamik untuk mewakili penglihatan dan bahasa ke dalam perwakilan token diskret bersatu. Dengan mengoptimumkan di bawah matlamat penjanaan bersatu, LaVIT boleh menganggap imej sebagai bahasa asing, memahami dan menjananya seperti teks. Kejayaan kaedah ini memberikan inspirasi baharu untuk hala tuju pembangunan penyelidikan multimodal masa depan, menggunakan keupayaan penaakulan berkuasa LLM untuk membuka kemungkinan baharu bagi pemahaman dan penjanaan multimodal yang lebih bijak dan komprehensif.
🎜Atas ialah kandungan terperinci Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Worldcoin (WLD) menonjol dalam pasaran cryptocurrency dengan mekanisme pengesahan biometrik dan perlindungan privasi yang unik, menarik perhatian banyak pelabur. WLD telah melakukan yang luar biasa di kalangan altcoin dengan teknologi inovatifnya, terutamanya dalam kombinasi dengan teknologi kecerdasan buatan terbuka. Tetapi bagaimanakah aset digital akan berkelakuan dalam beberapa tahun akan datang? Mari kita meramalkan harga masa depan WLD bersama -sama. Ramalan harga WLD 2025 dijangka mencapai pertumbuhan yang signifikan di WLD pada tahun 2025. Analisis pasaran menunjukkan bahawa harga WLD purata boleh mencapai $ 1.31, dengan maksimum $ 1.36. Walau bagaimanapun, dalam pasaran beruang, harga mungkin jatuh ke sekitar $ 0.55. Harapan pertumbuhan ini disebabkan terutamanya oleh WorldCoin2.

Pertukaran yang menyokong urus niaga rantaian: 1. Binance, 2. Uniswap, 3 Sushiswap, 4. Kewangan Curve, 5. Thorchain, 6. 1 inci Pertukaran, 7.

Cadangan untuk memilih pertukaran cryptocurrency: 1. Untuk keperluan kecairan, keutamaan adalah Binance, Gate.io atau Okx, kerana kedalaman pesanannya dan rintangan volatilitas yang kuat. 2. Pematuhan dan Keselamatan, Coinbase, Kraken dan Gemini mempunyai sokongan pengawalseliaan yang ketat. 3. Fungsi inovatif, reka bentuk derivatif Kucoin yang lembut dan Bybit sesuai untuk pengguna lanjutan.

Jatuh di pasaran cryptocurrency telah menyebabkan panik di kalangan pelabur, dan Dogecoin (Doge) telah menjadi salah satu kawasan terkena paling sukar. Harganya jatuh dengan ketara, dan jumlah nilai kunci kewangan yang terdesentralisasi (DEFI) (TVL) juga menyaksikan penurunan yang ketara. Gelombang jualan "Black Monday" menyapu pasaran cryptocurrency, dan Dogecoin adalah yang pertama dipukul. Defitvlnya jatuh ke tahap 2023, dan harga mata wang jatuh 23.78% pada bulan lalu. Defitvl Dogecoin jatuh ke tahap rendah $ 2.72 juta, terutamanya disebabkan oleh penurunan 26.37% dalam indeks nilai SOSO. Platform defi utama lain, seperti DAO dan Thorchain yang membosankan, TVL juga menurun sebanyak 24.04% dan 20.

Aavenomics adalah cadangan untuk mengubah token protokol AAVE dan memperkenalkan repos token, yang telah melaksanakan kuorum untuk Aavedao. Marc Zeller, pengasas Rantaian Projek AAVE (ACI), mengumumkan ini pada X, dengan menyatakan bahawa ia menandakan era baru untuk perjanjian itu. Marc Zeller, pengasas Inisiatif Rantaian AAVE (ACI), mengumumkan pada X bahawa cadangan aavenomik termasuk mengubah token protokol AAVE dan memperkenalkan repos token, telah mencapai kuorum untuk Aavedao. Menurut Zeller, ini menandakan era baru untuk perjanjian itu. Ahli -ahli Aavedao mengundi untuk menyokong cadangan itu, yang 100 seminggu pada hari Rabu

Faktor kenaikan harga mata wang maya termasuk: 1. Peningkatan permintaan pasaran, 2. Menurunkan bekalan, 3. Berita positif yang dirangsang, 4. Sentimen pasaran optimis, 5. Persekitaran makroekonomi; Faktor penurunan termasuk: 1. Mengurangkan permintaan pasaran, 2. Peningkatan bekalan, 3.

Dalam dunia kriptografi yang ramai, peluang baru selalu muncul. Pada masa ini, aktiviti udara Kerneldao (kernel) menarik banyak perhatian dan menarik perhatian banyak pelabur. Jadi, apakah asalnya projek ini? Apakah faedah yang boleh diperoleh oleh pemegang BNB? Jangan risau, perkara berikut akan mendedahkannya satu demi satu untuk anda.

Platform yang mempunyai prestasi cemerlang dalam perdagangan, keselamatan dan pengalaman pengguna yang dimanfaatkan pada tahun 2025 adalah: 1. Okx, sesuai untuk peniaga frekuensi tinggi, menyediakan sehingga 100 kali leverage; 2. Binance, sesuai untuk peniaga berbilang mata wang di seluruh dunia, memberikan 125 kali leverage tinggi; 3. Gate.io, sesuai untuk pemain derivatif profesional, menyediakan 100 kali leverage; 4. Bitget, sesuai untuk orang baru dan peniaga sosial, menyediakan sehingga 100 kali leverage; 5. Kraken, sesuai untuk pelabur mantap, menyediakan 5 kali leverage; 6. Bybit, sesuai untuk penjelajah altcoin, menyediakan 20 kali leverage; 7. Kucoin, sesuai untuk peniaga kos rendah, menyediakan 10 kali leverage; 8. Bitfinex, sesuai untuk bermain senior
