model bahasa besar multimodal (LLMS): merapatkan jurang antara teks dan penglihatan
Dunia kita berpengalaman melalui pelbagai deria - bahasa, penglihatan, bau, dan sentuhan - membolehkan kita memahami persekitaran kita. Manusia sangat mahir dalam penalaran linguistik dan memori visual. Sebagai model generatif AI (genai), penyelidik memberi tumpuan kepada menggabungkan multimodaliti untuk mengembangkan keupayaan mereka. Model bahasa besar tradisional (LLM) terhad kepada input dan output teks, mengabaikan modaliti lain seperti imej, video, atau audio. Walaupun LLMS cemerlang dalam tugas -tugas seperti menjawab soalan, ringkasan, terjemahan, dan penjanaan kod, mengintegrasikan modaliti lain (mewujudkan LLM multimodal) membuka potensi yang besar. Sebagai contoh, menggabungkan data teks dan imej membolehkan aplikasi seperti menjawab soalan visual, segmentasi imej, dan pengesanan objek. Menambah video meningkatkan keupayaan untuk analisis media canggih.
Genai merangkumi model pembelajaran mesin yang mampu menghasilkan kandungan baru. Model teks-ke-teks, sebagai contoh, menjana teks dari input teks. Walau bagaimanapun, memperluaskan LLM dengan modaliti lain membuka pintu kepada teks-ke-ke-video, teks-video, teks-ke-ucapan, imej-ke-imej, dan aplikasi imej-ke-video. Ini dikenali sebagai model multimodal besar (LLM multimodal). Latihan model ini melibatkan dataset besar yang mengandungi teks dan modaliti lain, membolehkan algoritma mempelajari hubungan antara semua jenis input. Secara asasnya, model -model ini tidak terhad kepada jenis input/output tunggal; Mereka menyesuaikan diri dengan pelbagai modaliti. Ini menyediakan sistem dengan pemahaman yang lebih kaya tentang input deria.
Artikel ini dibahagikan kepada dua bahagian: yang pertama meneroka aplikasi dan seni bina LLM multimodal, sementara yang kedua (tidak termasuk di sini) memperincikan latihan model penglihatan yang lebih kecil.
Menggabungkan jenis data yang berbeza untuk membuat LLM multimodal memberikan cabaran, terutamanya apabila mengendalikan data 1D, 2D, dan 3D secara serentak. Ini memerlukan pendekatan berturut-turut, langkah demi langkah dengan kurasi data yang teliti untuk mengoptimumkan prestasi model.
Perbincangan ini memberi tumpuan kepada teks dan imej. Imej dan video, tidak seperti teks, bervariasi dalam saiz dan resolusi, yang memerlukan pra -proses yang mantap untuk menyeragamkan input. Imej, video, arahan, dan metadata mesti bersedia untuk memudahkan proses pemikiran yang koheren dan konsistensi logik semasa kesimpulan. Model yang dilatih dalam teks, imej, dan data video dipanggil model bahasa penglihatan yang besar (LVLMS).
Imej berikut (dari kertas QWEN2-VL) menggambarkan model penglihatan berdasarkan QWEN2 LLM, mampu mengendalikan pelbagai tugas visual.
Bahagian berikut terperinci aplikasi khusus (contoh kod yang ditinggalkan untuk keringkasan):
1. Tajuk Imej: Menjana Penerangan Teks Imej.
1. Dua menara VLM: Imej dan teks dikodkan secara berasingan dan dilatih dengan objektif bersama untuk menyelaraskan maklumat dari kedua-dua modaliti.
2. VLM dua kaki: Sama seperti dua menara, tetapi termasuk lapisan gabungan untuk menggabungkan ciri-ciri imej dan teks sebelum objektif bersama.
4. VLMS dengan arsitektur pengekod-decoder: Imej diproses oleh pengekod, teks oleh penyahkod, dengan ciri-ciri yang digabungkan (melalui concatenation atau silang) sebelum penyahkodan.
rujukan (senarai yang disediakan dalam teks asal)
Atas ialah kandungan terperinci Memperkasakan AI dengan Deria: Perjalanan ke LLM Multimodal Bahagian 1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!