Walaupun model berbilang modal yang besar (seperti GPT4-Vision, Gemini, dll.) telah menunjukkan imej umum dan keupayaan pemahaman teks yang hebat apabila prestasi pemahaman teks tidak memuaskan, masalah yang memerlukan pengetahuan profesional. Malah GPT4-Vision tidak dapat menjawab soalan berintensif pengetahuan dengan berkesan (seperti yang ditunjukkan dalam Rajah 1), yang menimbulkan cabaran kepada banyak aplikasi peringkat perusahaan.
GPT4-Vision boleh memperolehi pengetahuan yang berkaitan melalui retriever pengetahuan pelbagai mod PreFLMR dan menjana jawapan yang tepat. Rajah menunjukkan output sebenar model.
Retrieval-Augmented Generation (RAG) menyediakan cara yang mudah dan berkesan untuk menyelesaikan masalah ini, membolehkan model berbilang modal yang besar menjadi seperti "pakar domain" dalam bidang tertentu. Prinsip kerjanya adalah seperti berikut: pertama, gunakan retriever pengetahuan ringan (Knowledge Retriever) untuk mendapatkan semula pengetahuan profesional yang berkaitan daripada pangkalan data profesional (seperti Wikipedia atau pangkalan pengetahuan perusahaan kemudian, model berskala besar mengambil pengetahuan dan soalan ini sebagai input). dan output Jawapan tepat. Pengetahuan "keupayaan mengingat semula" pengekstrak pengetahuan pelbagai mod secara langsung mempengaruhi sama ada model berskala besar boleh memperoleh pengetahuan profesional yang tepat semasa menjawab soalan penaakulan.
Baru-baru ini, Makmal Kecerdasan Buatan Jabatan Kejuruteraan Maklumat Universiti Cambridge telah membuka sepenuhnya perolehan semula pengetahuan interaksi lewat berbilang mod sejagat pra-terlatih, PraFLMR (Pra-trained Fine-grained Retriever Multi-modal interaksi lewat) . Berbanding dengan model biasa pada masa lalu, PreFLMR mempunyai ciri-ciri berikut:
PreFLMR ialah model pra-latihan umum yang boleh menyelesaikan berbilang sub-tugas dengan berkesan seperti mendapatkan semula teks, mendapatkan semula imej dan mendapatkan pengetahuan. Pra-dilatih pada berjuta-juta tahap data berbilang modal, model ini berfungsi dengan baik dalam berbilang tugas mendapatkan semula hiliran. Di samping itu, sebagai model asas yang sangat baik, PreFLMR boleh berkembang dengan cepat menjadi model khusus domain yang sangat baik selepas penalaan halus untuk data peribadi.
Rajah 2: Model PreFLMR mencapai prestasi perolehan semula pelbagai mod yang sangat baik pada pelbagai tugas pada masa yang sama, dan merupakan model asas pra-latihan yang sangat kuat.
2. Traditional Dense Passage Retrieval (DPR) hanya menggunakan satu vektor untuk mewakili pertanyaan (Query) atau dokumen (Document). Model FLMR yang diterbitkan oleh pasukan Cambridge di NeurIPS 2023 membuktikan bahawa reka bentuk perwakilan vektor tunggal DPR boleh membawa kepada kehilangan maklumat yang terperinci, menyebabkan DPR berprestasi rendah dalam tugas mendapatkan semula yang memerlukan pemadanan maklumat yang baik. Terutama dalam tugas berbilang modal, pertanyaan pengguna mengandungi maklumat pemandangan yang kompleks, dan memampatkannya menjadi vektor satu dimensi sangat menghalang keupayaan ekspresif ciri. PreFLMR mewarisi dan menambah baik struktur FLMR, memberikannya kelebihan unik dalam pencarian pengetahuan pelbagai mod.
Rajah 3: PreFLMR mengekod pertanyaan (Pertanyaan, 1, 2, 3 di sebelah kiri) dan dokumen (Dokumen, 4 di sebelah kanan) pada tahap aksara (peringkat Token), berbanding dengan pengekodan semua sistem DPR yang memampatkan maklumat ke dalam vektor satu dimensi mempunyai kelebihan maklumat terperinci.
3. PreFLMR boleh mengekstrak dokumen yang berkaitan daripada pangkalan pengetahuan yang besar berdasarkan arahan yang dimasukkan oleh pengguna (seperti "Ekstrak dokumen yang boleh digunakan untuk menjawab soalan berikut" atau "Ekstrak dokumen yang berkaitan dengan item dalam gambar. "), Membantu model besar berbilang modal untuk meningkatkan prestasi tugasan soal jawab pengetahuan profesional dengan ketara.
Rajah 4: PreFLMR pada masa yang sama boleh mengendalikan tugasan pertanyaan berbilang mod untuk mengekstrak dokumen berdasarkan dokumen, mengekstrak dokumen berdasarkan imej bersama-sama, mengekstrak imej berdasarkan dokumen, dan mengekstrak dokumen berdasarkan imej. .
Pasukan Universiti Cambridge mempunyai tiga model bersumber terbuka dengan saiz yang berbeza Parameter model dari kecil hingga besar ialah: PreFLMR_ViT-B (207M), PreFLMR_ViT-L (422M), PreFLMR_ViT-G (2B). , Untuk pengguna memilih mengikut keadaan sebenar.
Selain model sumber terbuka PreFLMR sendiri, projek ini juga telah memberikan dua sumbangan penting dalam hala tuju penyelidikan ini:
Berikut akan memperkenalkan secara ringkas set data M2KR, model PreFLMR dan analisis keputusan eksperimen.
Untuk melatih dan menilai model perolehan semula berbilang mod am secara berskala, pengarang menyusun sepuluh set data yang tersedia secara terbuka dan menukarnya kepada format perolehan dokumen masalah yang bersatu. Tugas asal set data ini termasuk kapsyen imej, dialog berbilang modal, dsb. Rajah di bawah menunjukkan soalan (baris pertama) dan dokumen yang sepadan (baris kedua) untuk lima tugasan. . Pertanyaan dikodkan sebagai ciri peringkat Token. Untuk setiap vektor dalam matriks pertanyaan, PreFLMR mencari vektor terdekat dalam matriks dokumen dan mengira produk titik, dan kemudian menjumlahkan produk titik maksimum ini untuk mendapatkan perkaitan akhir.
Model PreFLMR adalah berdasarkan Pengambilan Berbilang Modal Interaksi Lewat Berbutir Halus (FLMR) yang diterbitkan dalam NeurIPS 2023 dan menjalani penambahbaikan model dan pra-latihan berskala besar pada M2KR. Berbanding dengan DPR, FLMR dan PreFLMR menggunakan matriks yang terdiri daripada semua vektor token untuk mencirikan dokumen dan pertanyaan. Token termasuk token teks dan token imej yang ditayangkan ke dalam ruang teks. Interaksi lewat ialah algoritma untuk mengira korelasi antara dua matriks perwakilan dengan cekap. Kaedah khusus ialah: untuk setiap vektor dalam matriks pertanyaan, cari vektor terdekat dalam matriks dokumen dan hitung hasil darab titik. Produk titik maksimum ini kemudiannya dijumlahkan untuk mendapatkan korelasi akhir. Dengan cara ini, setiap perwakilan token boleh menjejaskan korelasi akhir secara eksplisit, dengan itu mengekalkan maklumat terperinci peringkat token. Terima kasih kepada enjin perolehan semula pasca interaksi yang berdedikasi, PreFLMR hanya mengambil masa 0.2 saat untuk mengekstrak 100 dokumen yang berkaitan daripada 400,000 dokumen, yang meningkatkan kebolehgunaan dalam senario RAG.
Pra-latihan untuk PreFLMR terdiri daripada empat peringkat berikut:
Pada masa yang sama, pengarang menunjukkan bahawa PreFLMR boleh diperhalusi lebih lanjut pada sub-set data (seperti OK-VQA, Infoseek) untuk mendapatkan prestasi perolehan semula yang lebih baik pada tugas tertentu.
Hasil perolehan semula terbaik: Model PreFLMR berprestasi terbaik menggunakan ViT-G sebagai pengekod imej dan ColBERT-base-v2 sebagai pengekod teks, dengan jumlah dua bilion parameter. Ia mencapai prestasi melebihi model garis dasar pada 7 subtugas pengambilan M2KR (WIT, OVEN, Infoseek, E-VQA, OKVQA, dll.).
Pengekodan visual lanjutan adalah lebih berkesan: Pengarang mendapati bahawa menaik taraf pengekod imej ViT daripada ViT-B (86M) kepada ViT-L (307M) membawa peningkatan prestasi yang ketara, tetapi menaik taraf pengekod teks ColBERT daripada pangkalan (110M) ) berkembang kepada besar (345M) menyebabkan kemerosotan prestasi dan menyebabkan masalah ketidakstabilan latihan. Keputusan eksperimen menunjukkan bahawa untuk sistem perolehan semula pelbagai mod interaktif kemudiannya, meningkatkan parameter pengekod visual membawa pulangan yang lebih besar. Pada masa yang sama, menggunakan berbilang lapisan Perhatian silang untuk unjuran teks imej mempunyai kesan yang sama seperti menggunakan satu lapisan, jadi reka bentuk rangkaian unjuran teks imej tidak perlu terlalu rumit.
PreFLMR menjadikan RAG lebih berkesan: Pada tugasan menjawab soalan visual berintensif pengetahuan, menggunakan PreFLMR untuk peningkatan perolehan sangat meningkatkan prestasi sistem akhir: 94% dan 275% peningkatan prestasi masing-masing dicapai pada Infoseek dan EVQA penalaan halus yang mudah, model berasaskan BLIP-2 boleh mengalahkan model PALI-X dengan ratusan bilion parameter dan sistem PaLM-Bison+Lens dipertingkatkan dengan Google API.
Model PreFLMR yang dicadangkan oleh Makmal Kecerdasan Buatan Cambridge ialah model perolehan semula pelbagai mod interaktif am sumber terbuka yang pertama. Selepas pra-latihan pada berjuta-juta data pada M2KR, PreFLMR menunjukkan prestasi yang kukuh dalam berbilang subtugas mendapatkan semula. Set data M2KR, berat model dan kod PreFLMR tersedia di halaman utama projek https://preflmr.github.io/. . 2cf 9872-Abstract-Conference.html
Pangkalan kod: https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-AnsweringBlog versi bahasa Inggeris: https://www.jinghong-chen.net/preflmr-sota-open- bersumberkan -multi/
Atas ialah kandungan terperinci Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!