Alibaba telah membuka model besar baharu, yang sangat mengujakan~
Mengikuti Tongyi Qianwen-7B(Qwen-7B), Alibaba Cloud telah melancarkan model bahasa visual berskala besar Qwen-VL, Dan ia akan menjadi sumber terbuka terus sebaik sahaja ia masuk dalam talian.
Qwen-VL ialah model berbilang modal besar berdasarkan Tongyi Qianwen-7B Secara khusus, ia menyokong berbilang input seperti imej, teks dan bingkai pengesanan, dan bukan sahaja boleh mengeluarkan teks, tetapi juga bingkai Pengesanan boleh. output
Contohnya, kita masukkan gambar Aniya Melalui bentuk soal jawab, Qwen-VL-Chat boleh meringkaskan kandungan gambar dan mengesan Aniya dalam gambar dengan tepat
Dalam tugasan ujian, Qwen-VL menunjukkan kekuatan "Hexagonal Warrior", menduduki tempat pertama dalam penilaian bahasa Inggeris standard bagi empat kategori utama tugasan berbilang modal (Zero-shot Caption/VQA/DocVQA/Grounding Keputusan yang paling maju telah dicapai).
Sebaik sahaja berita sumber terbuka keluar, ia serta-merta menarik perhatian meluas
Mari kita lihat persembahan khusus!
Pertama sekali, mari kita lihat secara keseluruhan ciri-ciri model siri Qwen-VL:
Dari segi kebolehan kedudukan visual, walaupun gambar sangat kompleks dan banyak watak, Qwen-VL masih boleh beraksi mengikut keperluan Mengenal pasti Hulk dan Spider-Man dengan tepat
Qwen-VL menggunakan Qwen-7B sebagai model bahasa asas dalam butiran teknikal, dan dengan memperkenalkan pengekod visual ViT dan penyesuai bahasa visual menyedari kedudukan, model ini boleh menyokong input isyarat VisualProses latihan khusus dibahagikan kepada tiga langkah:
Dalam penilaian bahasa Inggeris standard Qwen-VL, penyelidik menguji empat kategori utama tugas berbilang modal (Kapsyen Zero-shot/VQA/DocVQA/Grounding)
Mengikut keputusan The best, Qwen-VL keputusan dicapai apabila membandingkan dengan LVLM sumber terbuka dengan saiz yang sama
Selain itu, penyelidik membina set ujian TouchStone berdasarkan mekanisme pemarkahan GPT-4.
Qwen-VL-Chat mencapai teknologi terkini (SOTA) dalam ujian perbandingan ini
Jika anda berminat dengan Qwen-VL, anda boleh mencari demo di komuniti sihir dan huggingface Datang dan cuba terus. Pautan disediakan pada penghujung artikel
Qwen-VL menyokong penyelidik dan pembangun untuk pembangunan sekunder dan membenarkan penggunaan komersial. Tetapi perlu diingat bahawa jika anda ingin menggunakannya secara komersial, anda perlu mengisi permohonan soal selidik terlebih dahulu
Pautan projek: https://modelscope.cn/models/qwen/Qwen-VL/summary
https://modelscope .cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen -VL-Chat
https://github.com/QwenLM/Qwen-VL
Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/abs/2308.12966
Atas ialah kandungan terperinci Model gergasi Ali adalah sumber terbuka lagi! Ia mempunyai pemahaman imej yang lengkap dan fungsi pengecaman objek Ia dilatih berdasarkan set masalah umum 7B dan boleh dilaksanakan untuk aplikasi komersial.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!