Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa-AI-php.cn

Jadual Kandungan

Seni Bina Model

Set data dalam 109 bahasa

melatih model besar

Rumah

Peranti teknologi

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

王林

Apr 12, 2023 am 09:31 AM

model bahasa google

Kemajuan pemprosesan bahasa semula jadi dalam beberapa tahun kebelakangan ini sebahagian besarnya datang daripada model bahasa berskala besar setiap model baharu yang dikeluarkan mendorong jumlah parameter dan data latihan ke tahap tertinggi baharu, dan juga akan Menjalankan a pembunuhan beramai-ramai kedudukan penanda aras sedia ada!

Sebagai contohPada bulan April tahun ini, Google mengeluarkan 540 bilion parameter model bahasa PaLM (Pathways Language Model) dalam bahasa dan penaakulan Ia telah berjaya mengatasi manusia dalam beberapa siri penilaian, terutamanya prestasi cemerlangnya dalam senario pembelajaran sampel kecil beberapa pukulan juga dianggap sebagai hala tuju pembangunan model bahasa generasi seterusnya.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Begitu juga Model Bahasa VisualMalah, juga Usaha yang gigih dapat menghasilkan keajaiban , anda boleh meningkatkan prestasi dengan meningkatkan saiz model melalui .

Sudah tentu, jika hanyalah model bahasa visual untuk berbilang tugas , ia jelas tidak begitu universal, dan ia mesti menyokong input dalam berbilang bahasa Hanya keluaran.

Baru-baru ini, Google telah menaik taraf sambungan PaLM kepada PALI (Model Bahasa dan Imej Laluan), yang mempunyai kedua-dua pemahaman berbilang bahasa dan imej keupayaan, sambil menyokong 100+ bahasa untuk melaksanakan pelbagai aplikasi imej dan bahasa merentas penglihatan, bahasa dan berbilang modal, seperti menjawab soalan visual, kapsyen imej, pengesanan objek, klasifikasi imej, OCR , teks penaakulan, dsb.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Pautan kertas: https://arxiv.org/abs/2209.06794

Model ini dilatih menggunakan koleksi imej awam, yang termasuk anotasi yang dirangkak secara automatik dalam 109 bahasa, yang juga dipanggil set data WebLI dalam artikel.

Model PaLI yang dilatih di WebLI mencapai prestasi terkini pada berbilang imej dan penanda aras bahasa, seperti COCO-Captions, TextCaps, VQAv2, OK-VQA, TextVQA , dsb. dsb., juga mengatasi tanda aras kapsyen visual berbilang bahasa dan menjawab soalan visual model terdahulu.

Seni Bina Model

Salah satu matlamat PALI adalah untuk mengkaji prestasi dan skala model bahasa dan visual Adakah sambungan pada sama, terutamanya kebolehskalaan model imej bahasa?

Jadi reka bentuk seni bina model adalah sangat mudah, terutamanya untuk kemudahan eksperimen, terutamanya untuk kebolehgunaan semula dan kebolehskalaan. Model

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

terdiri daripada pengekod Transformer yang memproses teks input dan penyahkod Transformer autoregresif yang menjana teks output.

Apabila memproses imej, input kepada pengekod Transformer juga termasuk perkataan visual yang mewakili imej yang diproses oleh ViT.

Reka bentuk utama model PaLI ialah penggunaan semula para penyelidik menggunakan pemberat penglihatan mod tunggal dan model bahasa yang dilatih sebelum ini (seperti mT5-XXL dan ViT besar) sebagai benih. daripada model, Penggunaan semula ini bukan sahaja memindahkan keupayaan mod tunggal, latihan, tetapi juga menjimatkan kos pengiraan.

Komponen visual model menggunakan ViT-e, seni bina ViT terbesar setakat ini, yang mempunyai struktur yang sama dengan 1.8 bilion parameter ViT-G model, Dan menggunakan parameter latihan yang sama, perbezaannya ialah ia dikembangkan kepada 4 bilion parameter.

Walaupun peraturan penskalaan telah dikaji dalam kedua-dua bidang visual dan bahasa, tingkah laku penskalaan telah kurang diterokai dalam model gabungan penglihatan dan bahasa Meluaskan skala model tulang belakang visual mungkin membawa kepada ketepuan keuntungan dalam tugas klasifikasi.

Para penyelidik juga mengesahkan perkara ini, dan dapat diperhatikan bahawa ViT-e hanya lebih baik sedikit daripada ViT-G pada ImageNet, tetapi ViT-e mempunyai peningkatan yang hebat pada tugas bahasa visual PaLI. Contohnya, ViT-e mengatasi ViT-G dengan hampir 3 mata CIDEr pada tugas sari kata COCO. 3 mata lebih daripada ViT-G dalam tugasan. Ini juga membayangkan ruang untuk menggunakan model rangka ViT yang lebih besar dalam tugas bahasa visual pada masa hadapan.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Para penyelidik mengguna pakai tulang belakang mT5 sebagai komponen pemodelan bahasa, menggunakan mT5-Large (1 bilion parameter) yang telah dilatih. dan mT5-XXL (13 bilion parameter) untuk memulakan penyahkod-pengekod bahasa PaLI dan kemudian meneruskan latihan hibrid mengenai banyak tugas bahasa, termasuk tugas pemahaman bahasa tulen, yang juga membantu mengelakkan bencana melupakan pemahaman bahasa dan kapasiti penjanaan mT5.

Akhirnya, kami mendapat tiga model PALI yang berbeza saiz.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Set data dalam 109 bahasa

Penyelidikan lanjutan berkaitan pembelajaran mendalam menunjukkan bahawa semakin besar model, semakin banyak data latihan diperlukan Set ini juga lebih besar.

Jadi untuk mengkaji secara menyeluruh dan melepaskan potensi model pra-latihan imej bahasa, penyelidik merangkak sejumlah besar data imej dan teks daripada Internet dan membina set data baharu WebLI , yang merangkumi 12 bilion teks alt dan 10 bilion imej dalam 109 bahasa.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Selain menggunakan teks web untuk anotasi, penyelidik juga menggunakan API penglihatan awan untuk melaksanakan pengecaman OCR pada imej, menghasilkan 29 bilion imej- OCR pasangan data.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Menggunakan hampir pendua untuk menyahduplikasi imej daripada bahagian latihan, pengesahan dan ujian 68 set data bahasa visual dan visual biasa untuk mengelakkan kebocoran data di hiliran tugas penilaian.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Untuk meningkatkan lagi kualiti data, penyelidik juga akan menjaringkan dan melaraskan berdasarkan persamaan silang mod "imej dan teks alt" ambang, dan akhirnya hanya mengekalkan 10% daripada imej, sejumlah 1 bilion imej digunakan untuk melatih PaLI

melatih model besar

Sejak bahasa visual task is multi-modal , jadi model perlu mempunyai pelbagai keupayaan pemprosesan semantik dan mempunyai matlamat yang berbeza. Contohnya, sesetengah tugas memerlukan penyetempatan objek setempat untuk menyelesaikan tugasan dengan tepat, manakala tugasan lain mungkin memerlukan lebih banyak maklumat semantik global.

Begitu juga, sesetengah tugasan bahasa mungkin memerlukan jawapan yang panjang, manakala yang lain memerlukan jawapan yang padat.

Untuk menyelesaikan semua matlamat yang tidak konsisten ini, penyelidik mengambil kesempatan daripada kekayaan data pra-latihan WebLI dan memperkenalkan gabungan tugas pra-latihan (Pretraining Task Mixture) untuk menyediakan model untuk pelbagai aplikasi hiliran.

Untuk menjadikan model lebih serba boleh untuk menyelesaikan pelbagai tugas, pengarang mengelaskan semua tugas ke dalam API biasa tunggal (input: imej + teks; output: teks), membenarkan perkongsian Pengetahuan berbilang didayakan antara tugas imej dan bahasa, juga dengan tetapan pra-latihan.

Sasaran yang digunakan untuk pra-latihan diunjurkan ke dalam API yang sama sebagai campuran berwajaran, dengan matlamat kedua-duanya mengekalkan keupayaan untuk menggunakan semula komponen model sambil melatih model untuk melaksanakan tugas baharu .

Model menggunakan rangka kerja T5X dan Flaxformer sumber terbuka dan dilatih dengan Flax dalam JAX Bahagian visual ViT-e menggunakan rangka kerja BigVision sumber terbuka untuk menjana vektor perkataan bahasa bahagian dan bahagian visual. Vektor tampalan dilarikan dan digunakan bersama sebagai input penyahkod pengekod berbilang mod Pengekod dimulakan menggunakan latihan pra-latihan mT5-XXL. Semasa proses latihan PaLI, pemberat komponen visual dibekukan dan hanya pemberat pengekod-penyahkod multimodal dikemas kini.

Dalam bahagian percubaan, penyelidik membandingkan PaLI pada penanda aras bahasa visual biasa, dan model PaLI mencapai hasil terkini dalam tugasan ini, malah melebihi yang sangat besar yang dicadangkan dalam literatur sebelumnya. Model.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Sebagai contoh, 17 bilion parameter PALI berprestasi lebih baik daripada 80 bilion parameter model Flamingo pada beberapa tugasan VQA dan kapsyen imej.

Dan PALI juga mengekalkan prestasi yang baik dalam bahasa tunggal atau tugas visual tunggal, walaupun ini bukan matlamat latihan utama PALI.

Kami juga mengkaji cara komponen model imej dan bahasa berinteraksi dari segi sambungan model, dan di mana model tersebut menghasilkan keuntungan terbesar.

Kesimpulan akhir ialah penskalaan bersama (scaling) kedua-dua komponen ini menghasilkan prestasi terbaik, khususnya untuk komponen visual yang memerlukan parameter yang agak sedikit Penskalaan adalah kritikal, tetapi penskalaan juga penting untuk meningkatkan prestasi pada tugasan berbilang bahasa.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Selepas menilai PaLI pada penanda aras Crossmodal-3600 dalam 35 bahasa, boleh didapati bahawa tugas tajuk berbilang bahasa mendapat manfaat lebih daripada sambungan daripada model PaLI.

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Untuk mengelak daripada mewujudkan atau mengukuhkan bias yang tidak adil dalam model bahasa dan imej yang besar, perlu ada sedikit pemahaman tentang data yang digunakan dan cara model digunakan data itu Untuk mengekalkan ketelusan, menguji kesaksamaan model dan menjalankan analisis data yang bertanggungjawab, artikel itu menyediakan Kad Data dan Kad Model

Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa

Atas ialah kandungan terperinci Melatih ViT terbesar dalam sejarah dengan mudah? Google meningkatkan model bahasa visual PaLI: menyokong 100+ bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7505

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Google Pixel 9 dan Pixel 9 Pro dikhabarkan akan memperoleh Creative Assistant AI selepas dikeluarkan Jun 22, 2024 am 10:50 AM

Pada masa ini, empat telefon pintar Pixel baharu dijangka mendarat pada musim luruh ini. Untuk mengimbas kembali, siri ini dikhabarkan akan menampilkan Pixel 9 dan Pixel 9 Pro semasa pelancaran. Walau bagaimanapun, Pixel 9 Pro akan menjadi saingan kepada iPhone 16 Pro dan bukannya Pixel 8 Pro (curr

Google Pixel 9 Pro XL diuji dengan mod desktop Aug 29, 2024 pm 01:09 PM

Google telah memperkenalkan Mod Ganti DisplayPort dengan siri Pixel 8, dan ia hadir pada barisan Pixel 9 yang baru dilancarkan. Walaupun ia terdapat terutamanya untuk membolehkan anda mencerminkan paparan telefon pintar dengan skrin yang disambungkan, anda juga boleh menggunakannya untuk desktop

Google AI mengumumkan Gemini 1.5 Pro dan Gemma 2 untuk pembangun Jul 01, 2024 am 07:22 AM

Google AI telah mula menyediakan pembangun akses kepada tetingkap konteks lanjutan dan ciri penjimatan kos, bermula dengan model bahasa besar (LLM) Gemini 1.5 Pro. Sebelum ini tersedia melalui senarai tunggu, penuh 2 juta token konteks windo

Google Tensor G4 bagi Pixel 9 Pro XL ketinggalan di belakang Tensor G2 dalam Genshin Impact Aug 24, 2024 am 06:43 AM

Google baru-baru ini bertindak balas terhadap kebimbangan prestasi mengenai Tensor G4 barisan Pixel 9. Syarikat itu berkata bahawa SoC tidak direka untuk mengalahkan penanda aras. Sebaliknya, pasukan memberi tumpuan untuk menjadikannya berprestasi baik di kawasan yang Google mahukan c

Pembongkaran APK beta apl Google mendedahkan sambungan baharu yang akan datang kepada pembantu AI Gemini Jul 30, 2024 pm 01:06 PM

Pembantu AI Google, Gemini, bersedia untuk menjadi lebih berkebolehan, jika pembongkaran APK bagi kemas kini terkini (v15.29.34.29 beta) perlu dipertimbangkan. Pembantu AI baharu raksasa teknologi itu dilaporkan boleh mendapatkan beberapa sambungan baharu. Sambungan ini wi

Telefon pintar Google Pixel 9 tidak akan dilancarkan dengan Android 15 walaupun terdapat komitmen kemas kini selama tujuh tahun Aug 01, 2024 pm 02:56 PM

Siri Pixel 9 hampir tiba, telah dijadualkan untuk keluaran 13 Ogos. Berdasarkan khabar angin baru-baru ini, Pixel 9, Pixel 9 Pro dan Pixel 9 Pro XL akan mencerminkan Pixel 8 dan Pixel 8 Pro (sekira $749 di Amazon) dengan bermula dengan storan 128 GB.

Mod desktop Google Pixel baharu dipamerkan dalam video baharu yang mungkin alternatif Motorola Ready For dan Samsung DeX Aug 08, 2024 pm 03:05 PM

Beberapa bulan telah berlalu sejak Pihak Berkuasa Android menunjukkan mod desktop Android baharu yang telah disembunyikan oleh Google dalam Android 14 QPR3 Beta 2.1. Tiba di hadapan Google menambah sokongan Mod Alt DisplayPort untuk Pixel 8 dan Pixel 8

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

See all articles