Rumah Peranti teknologi AI Model besar berbilang modal Kuaishou dan Beida: imej adalah bahasa asing, setanding dengan kejayaan DALLE-3

Model besar berbilang modal Kuaishou dan Beida: imej adalah bahasa asing, setanding dengan kejayaan DALLE-3

Jan 30, 2024 pm 04:36 PM
industri lavit

Segmentasi perkataan visual dinamik, perwakilan grafik dan teks bersatu, Kuaishou dan Universiti Peking bekerjasama untuk mencadangkan model asas LaVIT untuk meneliti senarai tugasan pemahaman dan penjanaan pelbagai mod.

Model bahasa berskala besar semasa seperti GPT, LLaMA, dll. telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi, dan mereka dapat memahami serta menjana kandungan teks yang kompleks. Walau bagaimanapun, adakah kita telah mempertimbangkan untuk memindahkan pemahaman dan keupayaan penjanaan yang berkuasa ini kepada data multimodal? Ini akan membolehkan kami dengan mudah memahami sejumlah besar imej dan video dan mencipta kandungan bergambar yang kaya. Untuk merealisasikan visi ini, Kuaishou dan Universiti Peking baru-baru ini bekerjasama untuk membangunkan model besar berbilang modal baharu yang dipanggil LaVIT. LaVIT secara beransur-ansur mengubah idea ini menjadi realiti, dan kami menantikan perkembangan selanjutnya.

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

  • Tajuk kertas: Unified Language-Vision Pralatihan dalam LLM dengan Dynamic Discrete Visual Tokenization

  • Alamat kertas: https://arxiv.org/abs/2309.0466 //github.com/jy0205/LaVIT

  • Gambaran Keseluruhan Model

LaVIT ialah model asas pelbagai mod am baharu, serupa dengan model bahasa, yang boleh memahami dan menjana kandungan visual. Paradigma latihan LaVIT menggunakan pengalaman kejayaan model bahasa yang besar dan menggunakan pendekatan autoregresif untuk meramalkan imej atau token teks seterusnya. Selepas latihan, LaVIT boleh berfungsi sebagai antara muka universal berbilang mod yang boleh melaksanakan tugas pemahaman dan penjanaan pelbagai mod tanpa penalaan lebih lanjut. Sebagai contoh, LaVIT mempunyai keupayaan berikut: LaVIT ialah model penjanaan imej lanjutan yang boleh menjana nisbah aspek berbilang aspek berkualiti tinggi dan imej estetik tinggi berdasarkan gesaan teks. Keupayaan penjanaan imej LaVIT lebih baik dibandingkan dengan model penjanaan imej terkini seperti Parti, SDXL dan DALLE-3. Ia boleh mencapai penjanaan teks ke imej berkualiti tinggi dengan berkesan, memberikan pengguna lebih banyak pilihan dan pengalaman visual yang lebih baik.

Penjanaan imej berdasarkan gesaan berbilang modal: Memandangkan dalam LaVIT, imej dan teks diwakili secara seragam sebagai token diskret, ia boleh menerima gabungan berbilang modal (seperti teks, imej + teks, imej + imej) sebagai gesaan untuk menjana imej yang sepadan tanpa sebarang penalaan halus.

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

Fahami kandungan imej dan jawab soalan: Memandangkan imej input, LaVIT dapat membaca kandungan imej dan memahami semantiknya. Sebagai contoh, model boleh menyediakan kapsyen untuk imej input dan menjawab soalan yang sepadan. .

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3Fasa 1 : Tokenizer Visual Dinamik

Untuk dapat memahami dan menjana kandungan visual seperti bahasa semula jadi, LaVIT memperkenalkan tokenizer visual yang direka dengan baik untuk menukar kandungan visual (isyarat berterusan) kepada urutan token seperti teks, sama seperti Seperti asing bahasa yang LLM boleh faham. Penulis percaya bahawa untuk mencapai visi bersatu dan pemodelan bahasa, tokenizer visual (Tokenizer) harus mempunyai dua ciri berikut:

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

Discretization: Token visual harus diwakili sebagai bentuk diskret seperti teks. Ini menggunakan borang perwakilan bersatu untuk dua modaliti, yang kondusif untuk LaVIT menggunakan kehilangan klasifikasi yang sama untuk pengoptimuman pemodelan pelbagai mod di bawah rangka kerja latihan generatif autoregresif bersatu.

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3Dynamic

ifikasi: Tidak seperti token teks, patch imej mempunyai kesalingbergantungan yang ketara antara mereka, menjadikannya agak mudah untuk membuat kesimpulan satu patch daripada yang lain. Oleh itu, pergantungan ini mengurangkan keberkesanan matlamat pengoptimuman ramalan token seterusnya LLM asal. LaVIT bercadang untuk mengurangkan lebihan antara patch visual dengan menggunakan penggabungan token, yang mengekodkan nombor dinamik token visual berdasarkan kerumitan semantik yang berbeza bagi imej yang berbeza. Dengan cara ini, untuk imej kerumitan yang berbeza, penggunaan pengekodan token dinamik meningkatkan lagi kecekapan pra-latihan dan mengelakkan pengiraan token berlebihan.

Angka berikut ialah struktur pembahagian kata visual yang dicadangkan oleh LaVIT:

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

Rajah: (a) Penjana token visual dinamik (b) penggabung token

Tokenizer visual dinamik termasuk pemilih token dan penggabung token. Seperti yang ditunjukkan dalam rajah, pemilih token digunakan untuk memilih blok imej yang paling bermaklumat, manakala penggabungan token memampatkan maklumat blok visual tidak bermaklumat tersebut ke dalam token yang disimpan untuk mencapai penggabungan token berlebihan. Keseluruhan pembahagian perkataan visual dinamik dilatih dengan memaksimumkan pembinaan semula semantik imej input.

Pemilih token

Pemilih token menerima N ciri peringkat blok imej sebagai input adalah untuk menilai kepentingan setiap blok imej dan memilih blok dengan jumlah maklumat tertinggi untuk mewakili keseluruhan imej. Untuk mencapai matlamat ini, modul ringan yang terdiri daripada berbilang lapisan MLP digunakan untuk meramalkan taburan π. Dengan pensampelan daripada taburan π, topeng keputusan binari dijana yang menunjukkan sama ada untuk menyimpan tampung imej yang sepadan.

Penggabung token

Penggabung token membahagikan N blok imej kepada dua kumpulan: kekalkan X_r dan buang X_d mengikut topeng keputusan yang dihasilkan. Tidak seperti membuang X_d secara langsung, penggabung token boleh mengekalkan semantik terperinci imej input ke tahap maksimum. Penggabung token terdiri daripada blok bertindan L, setiap satunya termasuk lapisan perhatian kendiri sebab, lapisan perhatian silang dan lapisan ke hadapan. Dalam lapisan perhatian kendiri sebab, setiap token dalam X_r hanya memberi perhatian kepada token sebelumnya untuk memastikan konsistensi dengan bentuk token teks dalam LLM. Strategi ini berprestasi lebih baik berbanding dengan perhatian diri dua arah. Lapisan perhatian silang mengambil token yang disimpan X_r sebagai pertanyaan dan menggabungkan token dalam X_d berdasarkan persamaan semantiknya.

Fasa 2: Pra-latihan generatif bersatu

Token visual yang diproses oleh pembahagian perkataan visual disambungkan dengan token teks untuk membentuk urutan berbilang modal sebagai input semasa latihan. Untuk membezakan kedua-dua modaliti, pengarang memasukkan token khas pada permulaan dan penghujung jujukan token imej: [IMG] dan [/IMG], yang digunakan untuk menunjukkan permulaan dan akhir kandungan visual. Untuk dapat menjana teks dan imej, LaVIT menggunakan dua bentuk sambungan imej-teks: [imej, teks] dan [teks;

Untuk jujukan input berbilang modal ini, LaVIT menggunakan pendekatan bersatu dan autoregresif untuk memaksimumkan secara langsung kemungkinan setiap jujukan berbilang modal untuk pra-latihan. Penyatuan lengkap ruang perwakilan dan kaedah latihan ini membantu LLM mempelajari interaksi dan penjajaran pelbagai mod dengan lebih baik. Selepas pra-latihan selesai, LaVIT mempunyai keupayaan untuk melihat imej dan boleh memahami serta menjana imej seperti teks.

Eksperimen

Pemahaman multimodal sifar tangkapan

LaVIT telah mencapai hasil terkini pada tugas pemahaman multimodal tangkapan sifar seperti penjanaan kapsyen imej (NoCaps, Flickr30k (VQA) menjawab soalan visual , OKVQA, GQA, VizWiz) Prestasi terkemuka. . mempunyai keupayaan untuk mensintesis imej dengan menjana token visual seperti teks melalui autoregresi. Penulis menjalankan penilaian kuantitatif prestasi sintesis imej model di bawah keadaan teks sampel sifar, dan keputusan perbandingan ditunjukkan dalam Jadual 2.

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

Jadual 2 Teks tangkapan sifar kepada prestasi penjanaan imej model berbeza

Seperti yang dapat dilihat daripada jadual, LaVIT mengatasi semua model bahasa berbilang mod yang lain. Berbanding dengan Emu, LaVIT mencapai peningkatan selanjutnya pada model LLM yang lebih kecil, menunjukkan keupayaan penjajaran visual-verbal yang sangat baik. Tambahan pula, LaVIT mencapai prestasi yang setanding dengan Parti pakar teks-ke-imej terkini sambil menggunakan kurang data latihan.

Penjanaan imej gesaan berbilang modal

LaVIT mampu menerima dengan lancar berbilang kombinasi modal sebagai gesaan dan menjana imej yang sepadan tanpa sebarang penalaan halus. LaVIT menjana imej yang menggambarkan dengan tepat gaya dan semantik isyarat multimodal tertentu. Dan ia boleh mengubah suai imej input asal dengan isyarat multi-modal input. Model penjanaan imej tradisional seperti Stable Diffusion tidak dapat mencapai keupayaan ini tanpa data hiliran tambahan yang diperhalusi. ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

Contoh hasil penjanaan imej pelbagai modal

Analisis kualitatif

Seperti yang ditunjukkan dalam rajah di bawah, tokenizer dinamik LaVIT boleh memilih blok imej yang paling bermaklumat secara dinamik berdasarkan kandungan imej, dan kod yang dipelajari boleh menghasilkan pengekodan visual dengan semantik peringkat tinggi.

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

Visualisasi tokenizer visual dinamik (kiri) dan buku kod yang dipelajari (kanan)

Ringkasan

Kemunculan paradigma pelbagai tugasan yang berjaya menyediakan proses inovatif yang berjaya. paradigma pembelajaran generatif autoregresif LLM dengan menggunakan tokenizer visual dinamik untuk mewakili penglihatan dan bahasa ke dalam perwakilan token diskret bersatu. Dengan mengoptimumkan di bawah matlamat penjanaan bersatu, LaVIT boleh menganggap imej sebagai bahasa asing, memahami dan menjananya seperti teks. Kejayaan kaedah ini memberikan inspirasi baharu untuk hala tuju pembangunan penyelidikan multimodal masa depan, menggunakan keupayaan penaakulan berkuasa LLM untuk membuka kemungkinan baharu bagi pemahaman dan penjanaan multimodal yang lebih bijak dan komprehensif.

Atas ialah kandungan terperinci Model besar berbilang modal Kuaishou dan Beida: imej adalah bahasa asing, setanding dengan kejayaan DALLE-3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

See all articles