Rumah > Peranti teknologi > AI > teks badan

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama

PHPz
Lepaskan: 2024-03-25 20:50:47
ke hadapan
400 orang telah melayarinya

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama



  • Pautan kertas: https://arxiv.org/abs/2402.08327
  • 544-b8d4-53eaa55d. westx .seetacloud.com:8443/
  • Pautan laman utama projek: https://preflmr.github.io/
  • Tajuk kertas: PreFLMR-Inctioned Multi-Grained Layer Retriever

Latar Belakang

Walaupun model berbilang modal yang besar (seperti GPT4-Vision, Gemini, dll.) telah menunjukkan imej umum dan keupayaan pemahaman teks yang hebat apabila prestasi pemahaman teks tidak memuaskan, masalah yang memerlukan pengetahuan profesional. Malah GPT4-Vision tidak dapat menjawab soalan berintensif pengetahuan dengan berkesan (seperti yang ditunjukkan dalam Rajah 1), yang menimbulkan cabaran kepada banyak aplikasi peringkat perusahaan.

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama

GPT4-Vision boleh memperolehi pengetahuan yang berkaitan melalui retriever pengetahuan pelbagai mod PreFLMR dan menjana jawapan yang tepat. Rajah menunjukkan output sebenar model.

Retrieval-Augmented Generation (RAG) menyediakan cara yang mudah dan berkesan untuk menyelesaikan masalah ini, membolehkan model berbilang modal yang besar menjadi seperti "pakar domain" dalam bidang tertentu. Prinsip kerjanya adalah seperti berikut: pertama, gunakan retriever pengetahuan ringan (Knowledge Retriever) untuk mendapatkan semula pengetahuan profesional yang berkaitan daripada pangkalan data profesional (seperti Wikipedia atau pangkalan pengetahuan perusahaan kemudian, model berskala besar mengambil pengetahuan dan soalan ini sebagai input). dan output Jawapan tepat. Pengetahuan "keupayaan mengingat semula" pengekstrak pengetahuan pelbagai mod secara langsung mempengaruhi sama ada model berskala besar boleh memperoleh pengetahuan profesional yang tepat semasa menjawab soalan penaakulan.

Baru-baru ini, Makmal Kecerdasan Buatan Jabatan Kejuruteraan Maklumat Universiti Cambridge telah membuka sepenuhnya perolehan semula pengetahuan interaksi lewat berbilang mod sejagat pra-terlatih, PraFLMR (Pra-trained Fine-grained Retriever Multi-modal interaksi lewat) . Berbanding dengan model biasa pada masa lalu, PreFLMR mempunyai ciri-ciri berikut:

PreFLMR ialah model pra-latihan umum yang boleh menyelesaikan berbilang sub-tugas dengan berkesan seperti mendapatkan semula teks, mendapatkan semula imej dan mendapatkan pengetahuan. Pra-dilatih pada berjuta-juta tahap data berbilang modal, model ini berfungsi dengan baik dalam berbilang tugas mendapatkan semula hiliran. Di samping itu, sebagai model asas yang sangat baik, PreFLMR boleh berkembang dengan cepat menjadi model khusus domain yang sangat baik selepas penalaan halus untuk data peribadi.

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama

Rajah 2: Model PreFLMR mencapai prestasi perolehan semula pelbagai mod yang sangat baik pada pelbagai tugas pada masa yang sama, dan merupakan model asas pra-latihan yang sangat kuat.

2. Traditional Dense Passage Retrieval (DPR) hanya menggunakan satu vektor untuk mewakili pertanyaan (Query) atau dokumen (Document). Model FLMR yang diterbitkan oleh pasukan Cambridge di NeurIPS 2023 membuktikan bahawa reka bentuk perwakilan vektor tunggal DPR boleh membawa kepada kehilangan maklumat yang terperinci, menyebabkan DPR berprestasi rendah dalam tugas mendapatkan semula yang memerlukan pemadanan maklumat yang baik. Terutama dalam tugas berbilang modal, pertanyaan pengguna mengandungi maklumat pemandangan yang kompleks, dan memampatkannya menjadi vektor satu dimensi sangat menghalang keupayaan ekspresif ciri. PreFLMR mewarisi dan menambah baik struktur FLMR, memberikannya kelebihan unik dalam pencarian pengetahuan pelbagai mod.

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama

Rajah 3: PreFLMR mengekod pertanyaan (Pertanyaan, 1, 2, 3 di sebelah kiri) dan dokumen (Dokumen, 4 di sebelah kanan) pada tahap aksara (peringkat Token), berbanding dengan pengekodan semua sistem DPR yang memampatkan maklumat ke dalam vektor satu dimensi mempunyai kelebihan maklumat terperinci.

3. PreFLMR boleh mengekstrak dokumen yang berkaitan daripada pangkalan pengetahuan yang besar berdasarkan arahan yang dimasukkan oleh pengguna (seperti "Ekstrak dokumen yang boleh digunakan untuk menjawab soalan berikut" atau "Ekstrak dokumen yang berkaitan dengan item dalam gambar. "), Membantu model besar berbilang modal untuk meningkatkan prestasi tugasan soal jawab pengetahuan profesional dengan ketara.

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama


Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama

Rajah 4: PreFLMR pada masa yang sama boleh mengendalikan tugasan pertanyaan berbilang mod untuk mengekstrak dokumen berdasarkan dokumen, mengekstrak dokumen berdasarkan imej bersama-sama, mengekstrak imej berdasarkan dokumen, dan mengekstrak dokumen berdasarkan imej. .

Pasukan Universiti Cambridge mempunyai tiga model bersumber terbuka dengan saiz yang berbeza Parameter model dari kecil hingga besar ialah: PreFLMR_ViT-B (207M), PreFLMR_ViT-L (422M), PreFLMR_ViT-G (2B). , Untuk pengguna memilih mengikut keadaan sebenar.

Selain model sumber terbuka PreFLMR sendiri, projek ini juga telah memberikan dua sumbangan penting dalam hala tuju penyelidikan ini:

  1. Projek ini juga sumber terbuka dataset berskala besar untuk latihan dan menilai perolehan pengetahuan am, Penanda Aras Pengambilan Pengetahuan Pelbagai Modal (M2KR), yang mengandungi 10 subtugas pencarian yang telah dikaji secara meluas dalam komuniti akademik dan sejumlah lebih daripada satu juta pasangan perolehan.
  2. Dalam kertas kerja, pasukan Universiti Cambridge membandingkan pengekod imej dan pengekod teks dengan saiz dan prestasi yang berbeza, dan meringkaskan amalan terbaik untuk mengembangkan parameter dan pralatihan sistem perolehan pengetahuan pasca interaksi berbilang mod untuk pengambilan Umum masa hadapan model menyediakan panduan empirikal.

Berikut akan memperkenalkan secara ringkas set data M2KR, model PreFLMR dan analisis keputusan eksperimen.

M2KR Dataset

Untuk melatih dan menilai model perolehan semula berbilang mod am secara berskala, pengarang menyusun sepuluh set data yang tersedia secara terbuka dan menukarnya kepada format perolehan dokumen masalah yang bersatu. Tugas asal set data ini termasuk kapsyen imej, dialog berbilang modal, dsb. Rajah di bawah menunjukkan soalan (baris pertama) dan dokumen yang sepadan (baris kedua) untuk lima tugasan. . Pertanyaan dikodkan sebagai ciri peringkat Token. Untuk setiap vektor dalam matriks pertanyaan, PreFLMR mencari vektor terdekat dalam matriks dokumen dan mengira produk titik, dan kemudian menjumlahkan produk titik maksimum ini untuk mendapatkan perkaitan akhir.

Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertamaModel PreFLMR adalah berdasarkan Pengambilan Berbilang Modal Interaksi Lewat Berbutir Halus (FLMR) yang diterbitkan dalam NeurIPS 2023 dan menjalani penambahbaikan model dan pra-latihan berskala besar pada M2KR. Berbanding dengan DPR, FLMR dan PreFLMR menggunakan matriks yang terdiri daripada semua vektor token untuk mencirikan dokumen dan pertanyaan. Token termasuk token teks dan token imej yang ditayangkan ke dalam ruang teks. Interaksi lewat ialah algoritma untuk mengira korelasi antara dua matriks perwakilan dengan cekap. Kaedah khusus ialah: untuk setiap vektor dalam matriks pertanyaan, cari vektor terdekat dalam matriks dokumen dan hitung hasil darab titik. Produk titik maksimum ini kemudiannya dijumlahkan untuk mendapatkan korelasi akhir. Dengan cara ini, setiap perwakilan token boleh menjejaskan korelasi akhir secara eksplisit, dengan itu mengekalkan maklumat terperinci peringkat token. Terima kasih kepada enjin perolehan semula pasca interaksi yang berdedikasi, PreFLMR hanya mengambil masa 0.2 saat untuk mengekstrak 100 dokumen yang berkaitan daripada 400,000 dokumen, yang meningkatkan kebolehgunaan dalam senario RAG.

Pra-latihan untuk PreFLMR terdiri daripada empat peringkat berikut:

  • Pralatihan pengekod teks: Pertama, model perolehan teks pasca interaksi dipralatih pada MSMARCO (set data perolehan pengetahuan teks tulen) sebagai pengekod teks PreFLMR.
  • Lapisan unjuran teks imej pra-latihan: Kedua, latih lapisan unjuran teks imej pada M2KR dan bekukan bahagian lain. Peringkat ini hanya menggunakan vektor imej unjuran untuk mendapatkan semula, bertujuan untuk mengelakkan model daripada terlalu bergantung pada maklumat teks.
  • Pralatihan berterusan: Pengekod teks dan lapisan unjuran imej-ke-teks kemudiannya dilatih secara berterusan pada tugas menjawab soalan visual berintensif pengetahuan berkualiti tinggi dalam E-VQA, M2KR. Peringkat ini bertujuan untuk meningkatkan keupayaan perolehan pengetahuan halus PreFLMR.
  • Latihan Pencapaian Sejagat: Akhir sekali, latih semua pemberat pada keseluruhan set data M2KR, bekukan pengekod imej sahaja. Pada masa yang sama, parameter pengekod teks pertanyaan dan pengekod teks dokumen dibuka kunci dan dilatih secara berasingan. Peringkat ini bertujuan untuk meningkatkan keupayaan mendapatkan semula umum PreFLMR.

Pada masa yang sama, pengarang menunjukkan bahawa PreFLMR boleh diperhalusi lebih lanjut pada sub-set data (seperti OK-VQA, Infoseek) untuk mendapatkan prestasi perolehan semula yang lebih baik pada tugas tertentu.

Hasil eksperimen dan pengembangan menegak

Hasil perolehan semula terbaik: Model PreFLMR berprestasi terbaik menggunakan ViT-G sebagai pengekod imej dan ColBERT-base-v2 sebagai pengekod teks, dengan jumlah dua bilion parameter. Ia mencapai prestasi melebihi model garis dasar pada 7 subtugas pengambilan M2KR (WIT, OVEN, Infoseek, E-VQA, OKVQA, dll.).

Pengekodan visual lanjutan adalah lebih berkesan: Pengarang mendapati bahawa menaik taraf pengekod imej ViT daripada ViT-B (86M) kepada ViT-L (307M) membawa peningkatan prestasi yang ketara, tetapi menaik taraf pengekod teks ColBERT daripada pangkalan (110M) ) berkembang kepada besar (345M) menyebabkan kemerosotan prestasi dan menyebabkan masalah ketidakstabilan latihan. Keputusan eksperimen menunjukkan bahawa untuk sistem perolehan semula pelbagai mod interaktif kemudiannya, meningkatkan parameter pengekod visual membawa pulangan yang lebih besar. Pada masa yang sama, menggunakan berbilang lapisan Perhatian silang untuk unjuran teks imej mempunyai kesan yang sama seperti menggunakan satu lapisan, jadi reka bentuk rangkaian unjuran teks imej tidak perlu terlalu rumit.

PreFLMR menjadikan RAG lebih berkesan: Pada tugasan menjawab soalan visual berintensif pengetahuan, menggunakan PreFLMR untuk peningkatan perolehan sangat meningkatkan prestasi sistem akhir: 94% dan 275% peningkatan prestasi masing-masing dicapai pada Infoseek dan EVQA penalaan halus yang mudah, model berasaskan BLIP-2 boleh mengalahkan model PALI-X dengan ratusan bilion parameter dan sistem PaLM-Bison+Lens dipertingkatkan dengan Google API.

Kesimpulan

Model PreFLMR yang dicadangkan oleh Makmal Kecerdasan Buatan Cambridge ialah model perolehan semula pelbagai mod interaktif am sumber terbuka yang pertama. Selepas pra-latihan pada berjuta-juta data pada M2KR, PreFLMR menunjukkan prestasi yang kukuh dalam berbilang subtugas mendapatkan semula. Set data M2KR, berat model dan kod PreFLMR tersedia di halaman utama projek https://preflmr.github.io/. . 2cf 9872-Abstract-Conference.html

Pangkalan kod: https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-AnsweringBlog versi bahasa Inggeris: https://www.jinghong-chen.net/preflmr-sota-open- bersumberkan -multi/

  • FLMR Pengenalan: https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/

Atas ialah kandungan terperinci Sumber terbuka pasukan Cambridge: memperkasakan aplikasi RAG model besar berbilang modal, retriever pengetahuan pasca interaktif berbilang modal sejagat pra-terlatih yang pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan