Rumah > Peranti teknologi > AI > Memperkasakan AI dengan Deria: Perjalanan ke LLM Multimodal Bahagian 1

Memperkasakan AI dengan Deria: Perjalanan ke LLM Multimodal Bahagian 1

Lisa Kudrow
Lepaskan: 2025-03-08 10:05:09
asal
898 orang telah melayarinya

model bahasa besar multimodal (LLMS): merapatkan jurang antara teks dan penglihatan

Dunia kita berpengalaman melalui pelbagai deria - bahasa, penglihatan, bau, dan sentuhan - membolehkan kita memahami persekitaran kita. Manusia sangat mahir dalam penalaran linguistik dan memori visual. Sebagai model generatif AI (genai), penyelidik memberi tumpuan kepada menggabungkan multimodaliti untuk mengembangkan keupayaan mereka. Model bahasa besar tradisional (LLM) terhad kepada input dan output teks, mengabaikan modaliti lain seperti imej, video, atau audio. Walaupun LLMS cemerlang dalam tugas -tugas seperti menjawab soalan, ringkasan, terjemahan, dan penjanaan kod, mengintegrasikan modaliti lain (mewujudkan LLM multimodal) membuka potensi yang besar. Sebagai contoh, menggabungkan data teks dan imej membolehkan aplikasi seperti menjawab soalan visual, segmentasi imej, dan pengesanan objek. Menambah video meningkatkan keupayaan untuk analisis media canggih.

Jadual Kandungan

  • Pengenalan kepada Multimodal LLMS
  • dataset dan preprocessing
  • Aplikasi Multimodal LLMS
    • Captioning Image
    • Pengekstrakan maklumat
    • Tafsiran Visual dan Penalaran
    • Pengiktirafan Watak Optik (OCR)
    • Pengesanan dan Segmentasi Objek
  • Senibina model bahasa penglihatan yang besar (LVLMS)
    • dua menara VLMS
    • Dua kaki VLMS
    • vlms dengan pengekod imej, pengekod teks & decoder
    • VLMS dengan arsitektur pengekod-decoder
  • Kesimpulan

Pengenalan kepada Multimodal LLMS

Genai merangkumi model pembelajaran mesin yang mampu menghasilkan kandungan baru. Model teks-ke-teks, sebagai contoh, menjana teks dari input teks. Walau bagaimanapun, memperluaskan LLM dengan modaliti lain membuka pintu kepada teks-ke-ke-video, teks-video, teks-ke-ucapan, imej-ke-imej, dan aplikasi imej-ke-video. Ini dikenali sebagai model multimodal besar (LLM multimodal). Latihan model ini melibatkan dataset besar yang mengandungi teks dan modaliti lain, membolehkan algoritma mempelajari hubungan antara semua jenis input. Secara asasnya, model -model ini tidak terhad kepada jenis input/output tunggal; Mereka menyesuaikan diri dengan pelbagai modaliti. Ini menyediakan sistem dengan pemahaman yang lebih kaya tentang input deria.

Artikel ini dibahagikan kepada dua bahagian: yang pertama meneroka aplikasi dan seni bina LLM multimodal, sementara yang kedua (tidak termasuk di sini) memperincikan latihan model penglihatan yang lebih kecil.

dataset dan preprocessing

Menggabungkan jenis data yang berbeza untuk membuat LLM multimodal memberikan cabaran, terutamanya apabila mengendalikan data 1D, 2D, dan 3D secara serentak. Ini memerlukan pendekatan berturut-turut, langkah demi langkah dengan kurasi data yang teliti untuk mengoptimumkan prestasi model.

Perbincangan ini memberi tumpuan kepada teks dan imej. Imej dan video, tidak seperti teks, bervariasi dalam saiz dan resolusi, yang memerlukan pra -proses yang mantap untuk menyeragamkan input. Imej, video, arahan, dan metadata mesti bersedia untuk memudahkan proses pemikiran yang koheren dan konsistensi logik semasa kesimpulan. Model yang dilatih dalam teks, imej, dan data video dipanggil model bahasa penglihatan yang besar (LVLMS).

Aplikasi Multimodal LLMS

Imej berikut (dari kertas QWEN2-VL) menggambarkan model penglihatan berdasarkan QWEN2 LLM, mampu mengendalikan pelbagai tugas visual.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

Rajah di bawah menunjukkan bagaimana model bahasa multimodal (MMLM) memproses imej, teks, audio, dan data video untuk mencapai pelbagai objektif. MMLM teras mengintegrasikan modaliti ini untuk pemprosesan gabungan.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 Bahagian berikut terperinci aplikasi khusus (contoh kod yang ditinggalkan untuk keringkasan):

1. Tajuk Imej: Menjana Penerangan Teks Imej.

2. Pengekstrakan maklumat: Mendapatkan ciri khusus atau titik data dari imej (mis., Warna objek, teks).

3. Tafsiran & Penalaran Visual: Menganalisis imej dan melaksanakan tugas penalaran berdasarkan maklumat visual.

4. Pengiktirafan watak optik (OCR): Mengekstrak teks dari imej.

5. Pengesanan & Segmentasi Objek: Mengenalpasti dan mengklasifikasikan objek dalam imej, berpotensi membahagikannya ke kawasan yang berbeza.

Senibina model bahasa penglihatan yang besar (LVLMS)

Matlamat LVLMS adalah untuk menyatukan ciri dari imej, video, dan teks. Beberapa seni bina sedang diterokai untuk pra-latihan:

1. Dua menara VLM: Imej dan teks dikodkan secara berasingan dan dilatih dengan objektif bersama untuk menyelaraskan maklumat dari kedua-dua modaliti.

2. VLM dua kaki: Sama seperti dua menara, tetapi termasuk lapisan gabungan untuk menggabungkan ciri-ciri imej dan teks sebelum objektif bersama. Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

3. VLMS dengan Pengekod Imej - Pengekod Teks & Decoder: Pengekod imej memproses imej, manakala data teks diproses oleh encoder dan penyahkod yang berasingan, yang membolehkan interaksi yang lebih kompleks.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

4. VLMS dengan arsitektur pengekod-decoder: Imej diproses oleh pengekod, teks oleh penyahkod, dengan ciri-ciri yang digabungkan (melalui concatenation atau silang) sebelum penyahkodan.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

Kesimpulan

LLM multimodal, terutamanya VLM, dilatih pada dataset teks imej untuk merapatkan jurang antara data visual dan teks. Mereka cemerlang dalam tugas visual, tetapi mencapai prestasi tinggi memerlukan dataset yang besar dan sumber pengiraan. Walaupun mampu banyak tugas visual, batasan kekal dalam penalaran kompleks dan pengekstrakan data. Penyelidikan dan pembangunan lebih lanjut adalah penting untuk mengatasi batasan -batasan ini dan membuka kunci potensi penuh LLM multimodal.

rujukan (senarai yang disediakan dalam teks asal)

Atas ialah kandungan terperinci Memperkasakan AI dengan Deria: Perjalanan ke LLM Multimodal Bahagian 1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan