Pada 22 Januari, keluarga model siri Yi mengalu-alukan ahli baharu: Yi Vision Language (Yi-VL) model besar bahasa berbilang modal secara rasmi dibuka kepada dunia. Dilaporkan bahawa model Yi-VL dibangunkan berdasarkan model bahasa Yi dan termasuk dua versi, Yi-VL-34B dan Yi-VL-6B. Alamat sumber terbuka model Yi-VL:
- https://huggingface.co/01-ai
- https://www.modelscope.cn/organization/01ai
Dengan keupayaan pemahaman imej dan teks dan penjanaan dialog yang sangat baik, model Yi-VL telah mencapai keputusan utama pada set data Inggeris MMMU dan set data Cina CMMMU, menunjukkan kekuatannya yang kukuh dalam tugas antara disiplin yang kompleks.
MMMU (nama penuh Massive Multi-discipline Multi-modal Understanding & Reasoning) set data mengandungi 11,500 data daripada enam disiplin teras (seni dan reka bentuk, perniagaan, sains, Kesihatan dan perubatan, kemanusiaan dan sains sosial, serta teknologi dan kejuruteraan) masalah yang melibatkan jenis imej yang sangat heterogen dan maklumat teks-imej yang berjalin memerlukan permintaan yang sangat tinggi terhadap persepsi lanjutan dan keupayaan penaakulan. Pada set ujian ini, Yi-VL-34B mengatasi siri model besar berbilang mod dengan ketepatan 41.6%, kedua selepas GPT-4V (55.7%)
, menunjukkan pemahaman pengetahuan antara disiplin yang kukuh dan keupayaan Aplikasi. . " Kelebihan unik orang Cina. CMMMU mengandungi kira-kira 12,000 soalan multimodal Cina yang diperoleh daripada peperiksaan universiti, kuiz dan buku teks. Antaranya, GPT-4V mempunyai ketepatan 43.7% pada set ujian ini, diikuti oleh Yi-VL-34B dengan ketepatan 36.5%, menerajui model pelbagai mod sumber terbuka sedia ada. . ?
Mari kita lihat dua contoh dahulu:
Anda boleh melihat bahawa berdasarkan keupayaan pemahaman teks yang kuat dari model bahasa Yi, anda boleh mendapatkan penglihatan berbilang mod yang baik dengan hanya menjajarkan gambar . Model bahasa - Ini juga merupakan salah satu sorotan teras model Yi-VL.
Yi-VL reka bentuk seni bina model dan gambaran keseluruhan proses kaedah latihan. Pada reka bentuk seni bina, model Yi-VL adalah berdasarkan seni bina LLaVA sumber terbuka dan mengandungi tiga modul utama:
- digunakan untuk Transformer pendek) untuk pengekodan imej, menggunakan Model OpenClip ViT-H/14 sumber terbuka memulakan parameter boleh dilatih dan belajar mengekstrak ciri daripada pasangan "teks imej" berskala besar, memberikan model keupayaan untuk memproses dan memahami imej.
- Modul Unjuran membawa keupayaan untuk menjajarkan ciri imej secara ruang dengan ciri teks kepada model. Modul ini terdiri daripada Multilayer Perceptron (MLP) yang mengandungi normalisasi lapisan. Reka bentuk ini membolehkan model menggabungkan dan memproses maklumat visual dan teks dengan lebih berkesan, meningkatkan ketepatan pemahaman dan penjanaan pelbagai mod.
Pengenalan model bahasa berskala besar Yi-34B-Chat dan Yi-6B-Chat menyediakan Yi-VL dengan keupayaan pemahaman dan penjanaan bahasa yang berkuasa. Bahagian model ini menggunakan teknologi pemprosesan bahasa semula jadi termaju untuk membantu Yi-VL memahami secara mendalam struktur bahasa yang kompleks dan menjana output teks yang koheren dan relevan. Dalam kaedah latihan
, proses latihan model Yi-VL dibahagikan kepada tiga peringkat yang direka dengan teliti, bertujuan untuk meningkatkan keupayaan pemprosesan visual dan bahasa model secara menyeluruh.
- Fasa 1: Zero One Wish menggunakan 100 juta set data berganding "teks imej" untuk melatih modul ViT dan Unjuran. Pada peringkat ini, resolusi imej ditetapkan kepada 224x224 untuk meningkatkan keupayaan pemerolehan pengetahuan ViT dalam seni bina tertentu sambil mendayakan penjajaran yang cekap dengan model bahasa yang besar.
- Peringkat kedua: Zero One Thing meningkatkan resolusi imej ViT kepada 448x448 Penambahbaikan ini menjadikan model lebih baik dalam mengenali butiran visual yang kompleks. Peringkat ini menggunakan kira-kira 25 juta pasangan teks imej.
Peringkat ketiga: Zero One Wish membuka parameter keseluruhan model untuk latihan, dengan matlamat untuk meningkatkan prestasi model dalam interaksi sembang pelbagai mod. Data latihan merangkumi pelbagai sumber data, dengan jumlah kira-kira 1 juta pasangan "teks imej", memastikan keluasan dan keseimbangan data.
Pasukan teknikal Zero-One Everything juga mengesahkan bahawa ia boleh berdasarkan pemahaman bahasa yang berkuasa dan keupayaan penjanaan model bahasa Yi, dan menggunakan kaedah latihan pelbagai mod lain seperti BLIP, Flamingo, EVA , dsb. untuk cepat melatih model yang boleh melaksanakan model teks grafik Multimodal yang cekap untuk pemahaman imej dan dialog teks grafik yang lancar. Model siri Yi boleh digunakan sebagai model bahasa asas untuk model multimodal, menyediakan pilihan baharu untuk komuniti sumber terbuka. 🎜🎜Pada masa ini, model Yi-VL dibuka kepada orang ramai di platform seperti Hugging Face dan ModelScope Pengguna boleh mengalami prestasi cemerlang model ini dalam pelbagai senario seperti dialog grafik dan teks melalui pautan berikut. Selamat datang untuk menerokai fungsi berkuasa model bahasa berbilang mod Yi-VL dan alami pencapaian teknologi AI yang canggih. 🎜Atas ialah kandungan terperinci Model besar Yi-VL ialah sumber terbuka dan menduduki tempat pertama dalam MMMU dan CMMMU. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!