Jadual Kandungan
Ringkasan
Rumah Peranti teknologi AI Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Jan 30, 2024 pm 03:24 PM
ai data

Model bahasa berskala besar semasa seperti GPT, LLaMA, dsb. telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi dan boleh memahami serta menjana kandungan teks yang kompleks. Walau bagaimanapun, bolehkah kita meluaskan pemahaman dan keupayaan penjanaan yang berkuasa ini kepada data multimodal? Idea ini beransur-ansur menjadi kenyataan. Model besar berbilang modal terkini LaVIT dibangunkan oleh Kuaishou dan Universiti Peking. Dengan menggabungkan data imej dan video, ia membolehkan model memahami kandungan multimedia yang besar dengan mudah dan membantu dalam penciptaan kandungan bergambar. Kemunculan LaVIT adalah sangat penting untuk pemahaman dan penciptaan kandungan multimedia. Ia bukan sahaja mengenal pasti objek, adegan dan emosi dalam imej dan video, tetapi juga menjana penerangan bahasa semula jadi yang berkaitan dengannya. Dengan cara ini, kami boleh menggunakan data berbilang modal dengan lebih baik dan mencipta kandungan grafik yang lebih jelas dan menarik. Pembangunan LaVIT ialah percubaan penting dalam model bahasa berskala besar dalam bidang berbilang modal. Ia dijangka membawa lebih banyak kemungkinan kepada pemprosesan dan penciptaan kandungan multimedia dan menggalakkan pembangunan selanjutnya dalam bidang pemprosesan bahasa semula jadi dan penglihatan komputer. .

Model kod Alamat: https://github.com/jy0205/LaVIT

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3


Gambaran Keseluruhan Model

  • LaVIT ialah model asas pelbagai mod am baharu yang boleh memahami dan menjana kandungan visual seperti model bahasa. Ia menggunakan pendekatan latihan yang serupa kepada model bahasa besar, menggunakan pendekatan autoregresif untuk meramalkan imej atau token teks seterusnya. Setelah dilatih, LaVIT boleh berfungsi sebagai antara muka multimodal umum yang boleh melaksanakan tugas pemahaman dan penjanaan pelbagai mod tanpa penalaan lebih lanjut. Sebagai contoh, LaVIT boleh mencapai fungsi berikut:
  • LaVIT ialah model penjanaan teks-ke-imej yang berkuasa yang mampu menjana kualiti tinggi, nisbah aspek berbilang dan imej estetik tinggi berdasarkan gesaan teks yang diberikan. Berbanding dengan model penjanaan imej terkini seperti Parti, SDXL dan DALLE-3, LaVIT mempunyai keupayaan penjanaan imej yang setanding. Apa yang menjadikannya unik ialah keupayaannya menjana imej yang pelbagai sambil mengekalkan kualiti dan estetika yang tinggi. Sama ada dalam orientasi potret atau landskap, LaVIT mampu menghasilkan gubahan imej yang memuaskan. Dengan menggabungkan teknologi canggih dan data latihan berkualiti tinggi, LaVIT menyediakan pengguna dengan teks-ke-graf yang luar biasa
Dalam LaVIT, imej dan teks diwakili sebagai token diskret. Oleh itu, ia boleh memanfaatkan isyarat multimodal untuk penjanaan imej, termasuk gabungan teks, imej+teks dan imej+imej. Penjanaan berbilang modal ini tidak memerlukan sebarang penalaan halus, dan sistem boleh menjana imej yang sepadan berdasarkan gesaan.

LaVIT ialah model pemahaman imej yang boleh membaca imej dan memahami semantiknya. Ia boleh menjana penerangan yang relevan untuk imej input dan menjawab soalan yang berkaitan. .

Peringkat 1: Tokenizer Visual Dinamik

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Untuk dapat memahami dan menjana kandungan visual seperti bahasa semula jadi, LaVIT memperkenalkan tokenizer visual yang direka dengan baik untuk menukar kandungan visual seperti teks) (isyarat seperti berterusan) Urutan token yang sama, seperti bahasa asing yang LLM boleh faham. Penulis percaya bahawa untuk mencapai pemodelan visual dan bahasa bersatu, tokenizer visual (Tokenizer) harus mempunyai dua ciri berikut:

  1. Discretization: Token visual harus diwakili sebagai bentuk diskret seperti teks. Ini menggunakan borang perwakilan bersatu untuk dua modaliti, yang kondusif untuk LaVIT menggunakan kehilangan klasifikasi yang sama untuk pengoptimuman pemodelan pelbagai mod di bawah rangka kerja latihan generatif autoregresif bersatu.
  2. Dynamicifikasi: Tidak seperti token teks, patch imej mempunyai saling kebergantungan yang ketara antara mereka, menjadikannya agak mudah untuk membuat kesimpulan satu patch daripada yang lain. Oleh itu, pergantungan ini mengurangkan keberkesanan matlamat pengoptimuman ramalan token seterusnya LLM asal. LaVIT bercadang untuk mengurangkan lebihan antara patch visual dengan menggunakan penggabungan token, yang mengekodkan nombor dinamik token visual berdasarkan kerumitan semantik yang berbeza bagi imej yang berbeza. Dengan cara ini, untuk imej kerumitan yang berbeza, penggunaan pengekodan token dinamik meningkatkan lagi kecekapan pra-latihan dan mengelakkan pengiraan token berlebihan.

Rajah berikut ialah struktur tokenizer visual yang dicadangkan oleh LaVIT:

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Gambar: (a) Penjana token visual dinamik (b) penggabungan token kepada visual

pemilih dan penggabung token. Seperti yang ditunjukkan dalam rajah, pemilih token digunakan untuk memilih blok imej yang paling bermaklumat, manakala penggabungan token memampatkan maklumat blok visual tidak bermaklumat tersebut ke dalam token yang disimpan untuk mencapai penggabungan token berlebihan. Keseluruhan pembahagian perkataan visual dinamik dilatih dengan memaksimumkan pembinaan semula semantik imej input.

Pemilih token

Pemilih token menerima N ciri peringkat blok imej sebagai input, dan matlamatnya adalah untuk menilai kepentingan setiap blok imej dan memilih blok dengan jumlah maklumat tertinggi , untuk mewakili sepenuhnya semantik keseluruhan imej. Untuk mencapai matlamat ini, modul ringan yang terdiri daripada berbilang lapisan MLP digunakan untuk meramalkan taburan π. Dengan pensampelan daripada taburan π, topeng keputusan binari dijana yang menunjukkan sama ada untuk menyimpan tampung imej yang sepadan.

Penggabung token

Penggabung token membahagikan N blok imej kepada dua kumpulan: kekalkan X_r dan buang X_d mengikut topeng keputusan yang dihasilkan. Tidak seperti membuang X_d secara langsung, penggabung token boleh mengekalkan semantik terperinci imej input ke tahap maksimum. Penggabung token terdiri daripada blok bertindan L, setiap satunya termasuk lapisan perhatian kendiri sebab, lapisan perhatian silang dan lapisan ke hadapan. Dalam lapisan perhatian kendiri sebab, setiap token dalam X_r hanya memberi perhatian kepada token sebelumnya untuk memastikan konsistensi dengan bentuk token teks dalam LLM. Strategi ini berprestasi lebih baik berbanding dengan perhatian diri dua arah. Lapisan perhatian silang mengambil token yang disimpan X_r sebagai pertanyaan dan menggabungkan token dalam X_d berdasarkan persamaan semantiknya.

Fasa 2: Pra-latihan generatif bersatu

Token visual yang diproses oleh tokenizer visual disambungkan dengan token teks untuk membentuk urutan berbilang modal sebagai input untuk latihan. Untuk membezakan kedua-dua modaliti, pengarang memasukkan token khas pada permulaan dan penghujung jujukan token imej: [IMG] dan [/IMG], yang digunakan untuk menunjukkan permulaan dan akhir kandungan visual. Untuk dapat menjana teks dan imej, LaVIT menggunakan dua bentuk sambungan imej-teks: [imej, teks] dan [teks;

Untuk jujukan input berbilang modal ini, LaVIT menggunakan pendekatan bersatu dan autoregresif untuk memaksimumkan secara langsung kemungkinan setiap jujukan berbilang modal untuk pra-latihan. Penyatuan lengkap ruang perwakilan dan kaedah latihan ini membantu LLM mempelajari interaksi dan penjajaran pelbagai mod dengan lebih baik. Selepas pra-latihan selesai, LaVIT mempunyai keupayaan untuk melihat imej dan boleh memahami serta menjana imej seperti teks. . , VizWiz) Mencapai prestasi terkemuka dalam tugasan.

Jadual 1 Penilaian tugasan pemahaman multimodal sifar tembakan

Penjanaan multimodal sifar tembakan

Dalam percubaan ini, memandangkan tokenizer visual yang dicadangkan dapat mewakili imej sebagai token diskret, LaVIT mempunyai keupayaan untuk mensintesis imej dengan menjana token visual seperti teks melalui autoregresi. Penulis menjalankan penilaian kuantitatif prestasi sintesis imej model di bawah keadaan teks sampel sifar, dan keputusan perbandingan ditunjukkan dalam Jadual 2.

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Jadual 2 Teks tangkapan sifar kepada prestasi penjanaan imej model berbeza

Seperti yang dapat dilihat daripada jadual, LaVIT mengatasi semua model bahasa berbilang mod yang lain. Berbanding dengan Emu, LaVIT mencapai peningkatan selanjutnya pada model LLM yang lebih kecil, menunjukkan keupayaan penjajaran visual-verbal yang sangat baik. Tambahan pula, LaVIT mencapai prestasi yang setanding dengan Parti pakar teks-ke-imej terkini sambil menggunakan kurang data latihan.

Penjanaan imej pantas berbilang modal

LaVIT mampu menerima pelbagai kombinasi mod dengan lancar sebagai gesaan dan menjana imej yang sepadan tanpa sebarang penalaan halus. LaVIT menjana imej yang menggambarkan dengan tepat gaya dan semantik isyarat multimodal tertentu. Dan ia boleh mengubah suai imej input asal dengan isyarat multi-modal input. Model penjanaan imej tradisional seperti Stable Diffusion tidak dapat mencapai keupayaan ini tanpa data hiliran tambahan yang diperhalusi.

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

sample hasil generasi imej multi-modal

analisis qualitative

As ditunjukkan dalam angka di bawah, tokenizer dinamik Lavit boleh memilih secara dinamik yang paling bermaklumat berdasarkan imej kandungan Tampalan imej, kod yang dipelajari boleh menghasilkan kod visual dengan semantik peringkat tinggi.

Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3

Visualisasi tokenizer visual dinamik (kiri) dan buku kod yang dipelajari (kanan)

Ringkasan

Kemunculan LaVIT yang berjaya dalam pemprosesan tugasan yang berjaya. paradigma pembelajaran generatif autoregresif LLM dengan menggunakan tokenizer visual dinamik untuk mewakili penglihatan dan bahasa ke dalam perwakilan token diskret bersatu. Dengan mengoptimumkan di bawah matlamat penjanaan bersatu, LaVIT boleh menganggap imej sebagai bahasa asing, memahami dan menjananya seperti teks. Kejayaan kaedah ini memberikan inspirasi baharu untuk hala tuju pembangunan penyelidikan multimodal masa depan, menggunakan keupayaan penaakulan berkuasa LLM untuk membuka kemungkinan baharu bagi pemahaman dan penjanaan multimodal yang lebih bijak dan komprehensif.

🎜

Atas ialah kandungan terperinci Bahasa grafik: Model besar pelbagai mod Kuaishou dan Beida adalah setanding dengan DALLE-3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD) menonjol dalam pasaran cryptocurrency dengan mekanisme pengesahan biometrik dan perlindungan privasi yang unik, menarik perhatian banyak pelabur. WLD telah melakukan yang luar biasa di kalangan altcoin dengan teknologi inovatifnya, terutamanya dalam kombinasi dengan teknologi kecerdasan buatan terbuka. Tetapi bagaimanakah aset digital akan berkelakuan dalam beberapa tahun akan datang? Mari kita meramalkan harga masa depan WLD bersama -sama. Ramalan harga WLD 2025 dijangka mencapai pertumbuhan yang signifikan di WLD pada tahun 2025. Analisis pasaran menunjukkan bahawa harga WLD purata boleh mencapai $ 1.31, dengan maksimum $ 1.36. Walau bagaimanapun, dalam pasaran beruang, harga mungkin jatuh ke sekitar $ 0.55. Harapan pertumbuhan ini disebabkan terutamanya oleh WorldCoin2.

Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apr 21, 2025 pm 11:39 PM

Pertukaran yang menyokong urus niaga rantaian: 1. Binance, 2. Uniswap, 3 Sushiswap, 4. Kewangan Curve, 5. Thorchain, 6. 1 inci Pertukaran, 7.

Apakah platform perdagangan blockchain hibrid? Apakah platform perdagangan blockchain hibrid? Apr 21, 2025 pm 11:36 PM

Cadangan untuk memilih pertukaran cryptocurrency: 1. Untuk keperluan kecairan, keutamaan adalah Binance, Gate.io atau Okx, kerana kedalaman pesanannya dan rintangan volatilitas yang kuat. 2. Pematuhan dan Keselamatan, Coinbase, Kraken dan Gemini mempunyai sokongan pengawalseliaan yang ketat. 3. Fungsi inovatif, reka bentuk derivatif Kucoin yang lembut dan Bybit sesuai untuk pengguna lanjutan.

'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency 'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency Apr 21, 2025 pm 02:48 PM

Jatuh di pasaran cryptocurrency telah menyebabkan panik di kalangan pelabur, dan Dogecoin (Doge) telah menjadi salah satu kawasan terkena paling sukar. Harganya jatuh dengan ketara, dan jumlah nilai kunci kewangan yang terdesentralisasi (DEFI) (TVL) juga menyaksikan penurunan yang ketara. Gelombang jualan "Black Monday" menyapu pasaran cryptocurrency, dan Dogecoin adalah yang pertama dipukul. Defitvlnya jatuh ke tahap 2023, dan harga mata wang jatuh 23.78% pada bulan lalu. Defitvl Dogecoin jatuh ke tahap rendah $ 2.72 juta, terutamanya disebabkan oleh penurunan 26.37% dalam indeks nilai SOSO. Platform defi utama lain, seperti DAO dan Thorchain yang membosankan, TVL juga menurun sebanyak 24.04% dan 20.

Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Apr 21, 2025 pm 06:24 PM

Aavenomics adalah cadangan untuk mengubah token protokol AAVE dan memperkenalkan repos token, yang telah melaksanakan kuorum untuk Aavedao. Marc Zeller, pengasas Rantaian Projek AAVE (ACI), mengumumkan ini pada X, dengan menyatakan bahawa ia menandakan era baru untuk perjanjian itu. Marc Zeller, pengasas Inisiatif Rantaian AAVE (ACI), mengumumkan pada X bahawa cadangan aavenomik termasuk mengubah token protokol AAVE dan memperkenalkan repos token, telah mencapai kuorum untuk Aavedao. Menurut Zeller, ini menandakan era baru untuk perjanjian itu. Ahli -ahli Aavedao mengundi untuk menyokong cadangan itu, yang 100 seminggu pada hari Rabu

Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Apr 21, 2025 am 08:57 AM

Faktor kenaikan harga mata wang maya termasuk: 1. Peningkatan permintaan pasaran, 2. Menurunkan bekalan, 3. Berita positif yang dirangsang, 4. Sentimen pasaran optimis, 5. Persekitaran makroekonomi; Faktor penurunan termasuk: 1. Mengurangkan permintaan pasaran, 2. Peningkatan bekalan, 3.

Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Apr 21, 2025 pm 01:03 PM

Dalam dunia kriptografi yang ramai, peluang baru selalu muncul. Pada masa ini, aktiviti udara Kerneldao (kernel) menarik banyak perhatian dan menarik perhatian banyak pelabur. Jadi, apakah asalnya projek ini? Apakah faedah yang boleh diperoleh oleh pemegang BNB? Jangan risau, perkara berikut akan mendedahkannya satu demi satu untuk anda.

Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Apr 21, 2025 pm 11:24 PM

Platform yang mempunyai prestasi cemerlang dalam perdagangan, keselamatan dan pengalaman pengguna yang dimanfaatkan pada tahun 2025 adalah: 1. Okx, sesuai untuk peniaga frekuensi tinggi, menyediakan sehingga 100 kali leverage; 2. Binance, sesuai untuk peniaga berbilang mata wang di seluruh dunia, memberikan 125 kali leverage tinggi; 3. Gate.io, sesuai untuk pemain derivatif profesional, menyediakan 100 kali leverage; 4. Bitget, sesuai untuk orang baru dan peniaga sosial, menyediakan sehingga 100 kali leverage; 5. Kraken, sesuai untuk pelabur mantap, menyediakan 5 kali leverage; 6. Bybit, sesuai untuk penjelajah altcoin, menyediakan 20 kali leverage; 7. Kucoin, sesuai untuk peniaga kos rendah, menyediakan 10 kali leverage; 8. Bitfinex, sesuai untuk bermain senior

See all articles