Pautan penjejakan kemajuan (Awesome-MLLM, kemas kini masa nyata): https://github.com/BradyFU/Awesome-Multimodal-Large-Language- Model
Dalam beberapa tahun kebelakangan ini, penyelidikan mengenai Model Bahasa Besar (LLM) telah mencapai kemajuan yang ketara (seperti GPT- 3 , LLaMa, ChatGPT, GPT-4), model ini telah menunjukkan prestasi cemerlang pada pelbagai tugas pemprosesan bahasa semula jadi (NLP).
Dengan pra-latihan mengenai data besar-besaran, LLM telah memperoleh pengetahuan yang kaya dan keupayaan penaakulan yang kuat. Hanya masukkan beberapa arahan pengguna dan model ini boleh menghuraikan arahan, membuat inferens dan memberikan jawapan yang memenuhi jangkaan pengguna.
Sesetengah keupayaan tipikal LLM termasuk:
Idea utamanya ialah menggunakan LLM sebagai "otak" untuk menyepadukan, menaakul, menganalisis dan membuat keputusan mengenai memasukkan maklumat pelbagai mod untuk menyelesaikan tugasan yang disampaikan oleh manusia.
Dari perspektif membangunkan kecerdasan buatan am, berbanding dengan LLM, MLLM telah mengambil satu lagi langkah ke hadapan dan mempunyai kelebihan berikut:
· Lebih sesuai dengan tabiat manusia memahami dunia. Manusia mempunyai pelbagai deria dan menerima maklumat daripada pelbagai modaliti, yang selalunya saling melengkapi dan bersinergi. Oleh itu, menggunakan maklumat berbilang modal secara amnya boleh lebih memahami dan menyelesaikan tugasan yang kompleks;
Dengan menyokong input berbilang modal, pengguna boleh menyampaikan maklumat dengan cara yang lebih fleksibel;LLM biasanya hanya boleh menyelesaikan tugasan berkaitan NLP, manakala MLLM boleh menyelesaikan lebih banyak tugas dengan mengakses pelbagai mod.
Dari perspektif reka bentuk sistem, MLLM boleh dibahagikan kepada dua kategori:
· LLM berfungsi sebagai penaakulan dan menyokong Input pelbagai mod sistem penaakulan kognitif;
· LLM sebagai sistem kerjasama pelbagai alat perancang/penjadual/pembuat keputusan.
Yang pertama secara amnya menukar maklumat berbilang modal ke dalam bentuk yang LLM boleh terus terima dan proses melalui antara muka penukaran berbilang modal yang boleh dilatih . , membolehkan LLM melaksanakan kognisi dan penaakulan berdasarkan maklumat pelbagai mod dan arahan pengguna ini.
Yang terakhir biasanya menggunakan LLM sebagai perancang/penjadual/pembuat keputusan[1] untuk menguraikan tugasan kompleks yang dihantar oleh pengguna kepada sub-tugas yang lebih mudah, menghantarnya ke model/alat yang sesuai, dan akhirnya menyepadukan hasil dan output .
Kami menggunakan perspektif lain, memfokuskan pada teknologi utama dan kaedah pelaksanaan di sebalik MLLM, menjalankan penyelidikan dan ringkasan tentang kerja berkaitan, dan membahagikan MLLM kepada kategori berikut:
· Penalaan Arahan Multimodal
· Pembelajaran Dalam Konteks Pelbagaimod
·Rangkaian Pemikiran Pelbagai Modal
· LLM -Penaakulan Visual Berbantu
Di bawah ini kami akan memberikan pengenalan ringkas kepada jenis kerja ini.
Kaedah asas penalaan halus arahan berbilang mod ialah menggunakan templat bersatu untuk menyatukan semua jenis data dan Bentuk arahan menerangkan keperluan tugasan , membentuk data arahan berbilang modal, dan kemudian menggunakan data ini untuk memperhalusi MLLM.
Disebabkan ketekalan borang arahan semasa latihan dan ujian, LLM boleh bergantung pada pemahaman semantik dan keupayaan penaakulannya untuk membuat generalisasi dengan lebih fleksibel kepada tugasan lain dan mendapatkan sampel sifar yang berkuasa kebolehan.
Bentuk asas data arahan multimodal boleh diringkaskan sebagai (arahan, input multimodal, jawapan) triplet.
Cara intuitif untuk mendapatkan data jenis ini adalah dengan mengubah set data penanda aras Kami mengambil Kapsyen Imej sebagai contoh, seperti yang ditunjukkan dalam Rajah 1 di bawah:
Rajah 1. Contoh data arahan pelbagai mod
Data Kapsyen Asal Sampel termasuk gambar dan penerangan teks (Ground Truth) Data berpasangan data-GT ini secara semula jadi membentuk bahagian input dan jawapan berbilang mod bagi data arahan. Bahagian perintah
ialah perihalan tugas yang sepadan, yang biasanya ditulis secara manual atau dijana dengan memanggil GPT.
Apabila memperhalusi arahan berbilang modal, MLLM menukar input berbilang modal dan menghantarnya ke LLM, yang meramalkan jawapan berdasarkan maklumat berbilang mod dan teks arahan.
Idea teras pembelajaran konteks pelbagai mod ialah belajar daripada analogi. Sebagai contoh, bentuk yang biasa kita temui semasa belajar adalah seperti berikut:
Dengan mengkaji contoh, apabila kita menghadapi masalah baru, kita boleh menggunakan kategori Belajar idea asas dan kaedah masalah perkadaran untuk menyelesaikan masalah baharu.
Selain itu, contoh soalan juga boleh menyeragamkan format jawapan kami, yang lebih kondusif untuk mendapatkan jawapan yang betul yang memenuhi keperluan yang diharapkan.
Seperti yang ditunjukkan dalam Rajah 2 di bawah, biarkan model meramalkan hasil pengiraan 3x7 melalui contoh.
Rajah 2. Contoh data konteks pelbagai mod, menggunakan contoh untuk membenarkan model meramalkan hasil pengiraan 3x7
Rantai pemikiran ialah satu siri langkah penaakulan pertengahan [2]. Idea asas rantaian pemikiran pelbagai mod adalah untuk menjadikan model belajar mengeluarkan langkah perantaraan langkah demi langkah, dan akhirnya membuat kesimpulan jawapan akhir, seperti yang ditunjukkan dalam Rajah 3 di bawah:
Rajah 3. Contoh data rantaian pemikiran pelbagai mod
Berbanding dengan jawapan yang mengeluarkan secara langsung, rantai pemikiran:
· Lebih sesuai dengan tabiat penaakulan manusia: berdasarkan langkah dan keputusan penaakulan sebelumnya, secara beransur-ansur membawa kepada jawapan muktamad;
· Sesuai untuk tugasan penaakulan yang kompleks, menyelesaikan masalah kompleks langkah demi langkah, meningkatkan Ketepatan jawapan.
Gunakan LLM sebagai mekanisme membuat keputusan dan penaakulan, panggil pelbagai model dan alatan pelbagai mod dan integrasikan output, dapatkan keputusan akhir jawab. Mengikut cara untuk menyelesaikan tugas, ia secara amnya boleh dibahagikan kepada model roda tunggal dan model berbilang roda.
Idea asas model pusingan tunggal ialah LLM bertindak sebagai perancang, penjadual dan pembuat keputusan untuk menyelaraskan pelbagai model/alat untuk menyelesaikan tugasan fungsi berikut[1]:
· Perancang: Uraikan tugasan kompleks kepada subtugasan yang boleh diselesaikan;
· Penjadual:menghantar subtugas kepada model/alat yang sesuai; > Uruskan susunan pelaksanaan subtugas dan integrasikan hasil subtugas untuk mendapatkan jawapan akhir.
Model berbilang pusingan adalah berdasarkan idea lelaran dan terus mengumpul kognisi visual sehingga ia cukup yakin untuk mendapatkan jawapan akhir. Dalam proses ini, LLM perlu mengintegrasikan langkah-langkah sebelumnya (soalan yang dibangkitkan dan maklumat kognitif visual yang diperoleh) untuk menentukan sama ada jawapan akhir boleh dikeluarkan [3].Untuk kertas berkaitan, sila lihat: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
Atas ialah kandungan terperinci Pengenalan terbaru kepada 'Multimodal LLM'! Data dan prosiding dibungkus dan dibawa pergi terus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!