Menyegarkan prestasi sifar pukulan terbaik industri dalam berbilang ujian penanda aras.
Model bersatu yang boleh memahami kandungan input modal yang berbeza (teks, imej, video, audio, data penderia gerakan IMU) dan menjana tindak balas teks Teknologi ini berdasarkan Llama 2 dan datang daripada Meta.
Semalam, penyelidikan ke atas model besar berbilang modal AnyMAL menarik perhatian komuniti penyelidik AI.
Model Bahasa Besar (LLM) terkenal dengan saiz dan kerumitannya yang besar, yang sangat meningkatkan keupayaan mesin untuk memahami dan menyatakan bahasa manusia. Kemajuan dalam LLM telah membolehkan kemajuan ketara dalam bidang bahasa visual, merapatkan jurang antara pengekod imej dan LLM, menggabungkan keupayaan inferens mereka. Penyelidikan LLM multimodal sebelumnya telah memfokuskan pada model yang menggabungkan teks dengan modaliti lain, seperti model teks dan imej, atau pada model bahasa proprietari yang bukan sumber terbuka.
Jika ada cara yang lebih baik untuk mencapai kefungsian pelbagai mod dan membenamkan pelbagai modaliti dalam LLM, adakah ini akan membawa kita pengalaman yang berbeza?
letak contoh
Untuk menyelesaikan masalah ini, penyelidik dari Meta baru-baru ini melancarkan AnyMAL (Any-Modality Augmented Language Model). Ini ialah koleksi pengekod berbilang modal yang dilatih untuk menukar data daripada pelbagai modaliti (termasuk imej, video, audio dan data penderia gerakan IMU) ke dalam ruang pembenaman teks LLM
Alamat kertas: https://huggingface. co/papers/2309.16058
Menurut huraian, sumbangan utama penyelidikan ini adalah seperti berikut:
Penyelesaian yang cekap dan berskala dicadangkan untuk membina LLM pelbagai modal. Artikel ini menyediakan lapisan unjuran yang dipralatih pada set data besar yang mengandungi pelbagai modaliti (cth., 200 juta imej, 2.2 juta segmen audio, 500,000 siri masa IMU, 28 juta segmen video), semuanya Semua sejajar dengan model besar yang sama (LLaMA-2- 70B-chat), mendayakan isyarat kontekstual berbilang modal berjalin.
Kajian ini memperhalusi model menggunakan set arahan berbilang modal merentas tiga modaliti (imej, video dan audio), meliputi pelbagai tugas tanpa had melangkaui domain menjawab soalan mudah (QA). Set data ini mengandungi data arahan yang dikumpul manusia berkualiti tinggi, jadi kajian ini menggunakannya sebagai penanda aras untuk tugas inferens pelbagai mod yang kompleks
Model terbaik dalam kertas ini mencapai keputusan yang baik dalam penilaian automatik dan manusia pada pelbagai tugas dan modaliti Berbanding dengan model dalam literatur sedia ada, ketepatan relatif VQAv2 meningkat sebanyak 7.0%, CIDEr bagi sari kata imej COCO ralat sifar meningkat sebanyak 8.4%, dan CIDEr AudioCaps meningkat sebanyak 14.5%. SOTA
kaedah
Gambaran keseluruhan kaedah
Diperlukan untuk disemak
dengan menggunakan data multimodal berpasangan termasuk isyarat modal khusus dan naratif teks), kajian ini telah melatih LLM untuk mencapai pelbagai -keupayaan pemahaman modal, seperti yang ditunjukkan dalam Rajah 2. Khususnya, kami melatih penyesuai ringan untuk setiap modaliti yang menayangkan isyarat input ke dalam ruang pembenaman token teks LLM tertentu. Dengan cara ini, ruang pembenaman token teks LLM menjadi ruang pembenaman token bersama, di mana token boleh mewakili teks atau modaliti lain Berkenaan kajian penjajaran imej, kami menggunakan subset bersih set data LAION-2B, Kaedah CAT digunakan untuk penapisan dan mana-mana muka yang boleh dikesan adalah kabur. Untuk kajian penjajaran audio, set data AudioSet (2.1M), AudioCaps (46K) dan CLOTHO (5K) telah digunakan. Selain itu, kami juga menggunakan set data Ego4D untuk IMU dan penjajaran teks (528K) Untuk set data yang besar, penskalaan pra-latihan kepada model parameter 70B memerlukan banyak sumber, selalunya memerlukan penggunaan pembungkus FSDP pada berbilang GPU Model dipecahkan. Untuk meningkatkan skala latihan dengan berkesan, kami melaksanakan strategi pengkuantitian (4-bit dan 8-bit) dalam tetapan berbilang modal, di mana bahagian LLM model dibekukan dan hanya tokenizer modal boleh dilatih. Pendekatan ini mengurangkan keperluan memori mengikut urutan magnitud. Oleh itu, 70B AnyMAL boleh melengkapkan latihan pada GPU VRAM 80GB tunggal dengan saiz kelompok 4. Berbanding dengan FSDP, kaedah pengkuantitian yang dicadangkan dalam artikel ini hanya menggunakan separuh daripada sumber GPU, tetapi mencapai daya pemprosesan yang sama🎜Menggunakan set data arahan berbilang mod untuk penalaan halus bermakna menggunakan set data arahan berbilang mod untuk penalaan halus
Untuk meningkatkan lagi keupayaan model untuk mengikuti arahan untuk modaliti input yang berbeza, kami mengkaji penggunaan set data arahan berbilang modal Penalaan halus tambahan telah dilakukan pada set data penalaan arahan (MM-IT) terkini. Secara khusus, kami menggabungkan input sebagai [] supaya sasaran tindak balas adalah berdasarkan kedua-dua arahan teks dan input modal. Penyelidikan dijalankan ke atas dua situasi berikut: (1) melatih lapisan unjuran tanpa mengubah parameter LLM atau (2) menggunakan penyesuaian tahap rendah (Penyesuaian Peringkat Rendah) untuk melaraskan lagi tingkah laku LM. Kajian ini menggunakan set data tertala arahan yang dikumpul secara manual dan data sintetik.
Eksperimen dan keputusan
Penjanaan kapsyen imej ialah teknologi kecerdasan buatan yang digunakan untuk menjana kapsyen yang sepadan secara automatik untuk imej. Teknologi ini menggabungkan penglihatan komputer dan kaedah pemprosesan bahasa semula jadi untuk menghasilkan kapsyen deskriptif yang berkaitan dengan imej dengan menganalisis kandungan dan ciri imej, serta memahami semantik dan sintaks. Penjanaan kapsyen imej mempunyai aplikasi yang luas dalam banyak bidang, termasuk carian imej, anotasi imej, pengambilan imej, dsb. Dengan menjana tajuk secara automatik, kefahaman imej dan ketepatan enjin carian boleh dipertingkatkan, memberikan pengguna mendapatkan semula imej dan pengalaman menyemak imbas yang lebih baik
Jadual 2 menunjukkan keputusan dalam COCO dan tugasan yang ditandakan dengan "Penerangan Terperinci" (MM- Prestasi penjanaan kapsyen imej tangkapan sifar pada subset set data MM-IT daripada IT-Cap). Seperti yang dapat dilihat, varian AnyMAL menunjukkan prestasi yang lebih baik daripada garis dasar pada kedua-dua set data. Terutama, tiada jurang yang ketara dalam prestasi antara varian AnyMAL-13B dan AnyMAL-70B. Keputusan ini menunjukkan bahawa keupayaan LLM asas untuk penjanaan kapsyen imej ialah teknik kecerdasan buatan yang digunakan untuk menjana kapsyen yang sepadan secara automatik untuk imej. Teknologi ini menggabungkan penglihatan komputer dan kaedah pemprosesan bahasa semula jadi untuk menghasilkan kapsyen deskriptif yang berkaitan dengan imej dengan menganalisis kandungan dan ciri imej, serta memahami semantik dan sintaks. Penjanaan kapsyen imej mempunyai aplikasi yang luas dalam banyak bidang, termasuk carian imej, anotasi imej, pengambilan imej, dsb. Dengan mengautomasikan penjanaan kapsyen, kefahaman imej dan ketepatan enjin carian boleh dipertingkatkan, memberikan pengguna mendapatkan semula imej dan pengalaman menyemak imbas Tugas ini kurang memberi kesan, tetapi banyak bergantung pada saiz data dan kaedah pendaftaran.
Penulisan semula yang diperlukan ialah: Penilaian manusia terhadap tugas inferens pelbagai mod
Rajah 3 menunjukkan AnyMAL membandingkan dengan garis dasar (LLaVA: 34.4% kadar kemenangan dan prestasi MiniGPT4: 27) kukuh dan jurang dengan sampel beranotasi manusia sebenar adalah kecil (41.1% kadar kemenangan). Terutamanya, model yang diperhalusi dengan set arahan penuh menunjukkan kadar kemenangan keutamaan tertinggi, menunjukkan pemahaman visual dan keupayaan penaakulan yang setanding dengan respons beranotasi manusia. Perlu juga diperhatikan bahawa BLIP-2 dan InstructBLIP berprestasi buruk pada pertanyaan terbuka ini (masing-masing 4.1% dan 16.7% kadar kemenangan keutamaan), walaupun mereka berprestasi baik pada penanda aras VQA awam (lihat Jadual 4).
Penanda Aras VQA
Dalam Jadual 4, kami menunjukkan prestasi pukulan sifar pada dataset Meme Kebencian, VQAv2, TextVQA, ScienceQA, VizWiz dan tanda aras yang dilaporkan dalam OKVQA masing-masing. keputusan sampel telah dibandingkan. Penyelidikan kami menumpukan pada penilaian sifar pukulan untuk menganggarkan prestasi model dengan paling tepat pada pertanyaan terbuka pada masa inferens penanda aras QA video.
Menjana semula sari kata audio
Jadual 5 menunjukkan hasil penjanaan semula sari kata audio pada set data penanda aras AudioCaps. AnyMAL dengan ketara mengatasi model sari kata audio tercanggih lain dalam kesusasteraan (cth., CIDEr +10.9pp, SPICE +5.8pp), menunjukkan bahawa kaedah yang dicadangkan bukan sahaja terpakai untuk penglihatan tetapi juga untuk pelbagai modaliti. Model teks 70B menunjukkan kelebihan yang jelas berbanding dengan varian 7B dan 13B.
Menariknya, berdasarkan kaedah, jenis dan masa penyerahan kertas AnyMAL, Meta nampaknya merancang untuk mengumpul data berbilang modal melalui set kepala realiti campuran/metaverse yang baru dilancarkan. Hasil penyelidikan ini mungkin disepadukan ke dalam barisan produk Metaverse Meta, atau tidak lama lagi digunakan untuk aplikasi pengguna
Sila baca artikel asal untuk mendapatkan butiran lanjut.
Atas ialah kandungan terperinci Versi berbilang modal Llama2 dalam talian, Meta mengeluarkan AnyMAL. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!