Open source multi-modal large models may begin to take off.
Semasa Llama 3.1 meraih tajuk utama, satu lagi keluaran yang sangat penting tiba-tiba muncul - set data pelbagai mod sumber terbuka dengan skala yang belum pernah berlaku sebelum ini. Untuk model besar, kepentingan set data tidak perlu diperkatakan, malah boleh dikatakan mustahil untuk memiliki model besar tanpa set data yang besar. Kini adalah masa apabila pembangunan model berbilang modal besar (LMM) berkembang pesat Set data berbilang modal sumber terbuka dengan skala yang cukup besar telah menjadi "keperluan tegar" dalam bidang ini. Walau bagaimanapun, berbanding set data teks sumber terbuka, set data multimodal sumber terbuka sedia ada adalah lebih kecil dan kurang pelbagai, dan sumbernya pada asasnya adalah dokumen HTML - ini mengehadkan keluasan data dan kepelbagaian. Ini sudah pasti mengehadkan pembangunan LMM sumber terbuka dan menjadikan perbezaan antara LMM sumber terbuka dan LMM sumber tertutup sangat besar. Baru-baru ini, pasukan bersama dari University of Washington, Salesforce Research, dan Universiti Stanford telah mengisi jurang ini dan membina set data sumber terbuka berbilang mod berjalin peringkat trilion-token MINT-1T (Multimodal INTerleaved). Tidak syak lagi, ini adalah set data multimodal sumber terbuka terbesar yang tersedia pada masa ini.
- Alamat set data: https://github.com/mlfoundations/MINT-1T
- Alamat kertas: https://arxiv.org/abs/2406.11271
-
1T: Menskalakan Data Multimodal Sumber Terbuka sebanyak 10x: Set Data Multimodal dengan Satu Trilion Token
MINT-1T mengandungi sejumlah satu trilion token teks dan tiga bilion imej, dan ia mempunyai HTML/PDF/ ArXiv banyak sumber lain. Sebelum kemunculan MINT-1T, set data sumber terbuka terbesar dalam bidang ini ialah OBELICS, yang mengandungi 115 bilion token teks dan 353 juta imej, dan sumbernya hanya HTML. Rajah 1 membandingkan set data ini.
Pertama, pasukan mengumpul sejumlah besar data berbilang modal daripada pelbagai sumber (termasuk HTML, PDF, ArXiv), Rajah 2 menunjukkan data berbilang mod sumber-sumber yang berbeza ini.
Kemudian, untuk meningkatkan kualiti dan keselamatan data, mereka melakukan penapisan kualiti teks, penapisan imej, penapisan keselamatan (termasuk mengalih keluar imej NSFW dan maklumat yang boleh dikenal pasti secara peribadi), dan penyahduplikasian. Rajah 3 menggambarkan secara ringkas proses penapisan data ini.
Akhirnya, set data MINT-1T yang mereka perolehi mengandungi 922 bilion token HTML, 106 bilion token PDF dan 9 bilion token ArXiv. Perlu diingat bahawa keseluruhan proses pemprosesan data menggunakan kira-kira 4.2 juta jam CPU. Jadual 1 membandingkan beberapa set data multimodal sumber terbuka atau tertutup biasa.
Pasukan juga bereksperimen dengan kesan penggunaan set data ini untuk melatih model berbilang modal dan membandingkannya dengan set data lain.
Seni bina model yang mereka gunakan ialah XGen-MM Salesforce, dan perkara yang mereka nilai ialah pembelajaran konteks dan keupayaan penaakulan berbilang imej model selepas belajar pada set data. Penanda aras penilaian termasuk: penanda aras penerangan visual (COCO dan TextCaps), penanda aras menjawab soalan visual (VQAv2, OK-VQA, TextVQA dan VizWiz), dan penanda aras penaakulan berbilang imej (MMMU dan Mantis-Eval).
Latihan tentang dokumen HTML
Pasukan pertama kali membandingkan bahagian HTML MINT-1T; juga dengan kumpulan data OBELICS sebelumnya pada dokumen HTML, mereka melatih dua model dengan 10 bilion token berbilang modal berdasarkan dua set data ini, dan menilai prestasi pembelajaran konteks mereka.
Jadual 2 memberikan prestasi 4 pukulan dan 8 pukulan pada penanda aras biasa.
🎜Adalah dapat dilihat bahawa untuk tugasan VQA (menjawab soalan visual), model yang dilatih pada dokumen HTML MINT-1T berprestasi lebih baik daripada model yang dilatih pada OBELICS, tetapi yang pertama berprestasi lebih teruk pada tugas penerangan visual. Secara purata, OBELICS lebih baik sedikit daripada MINT-1T (HTML).Tambahkan dokumen PDF dan ArXiv Selepas itu, pasukan menguji set data penuh MINT-1T, yang mengandungi dokumen HTML, PDF dan ArXiv pada masa yang sama. Mereka biasanya mencuba 10 bilion token multimodal, 50% daripada HTML, 45% daripada PDF dan 5% daripada ArXiv. Hasilnya juga ditunjukkan dalam Jadual 2. Dapat dilihat bahawa model yang dilatih pada data campuran MINT-1T mengatasi prestasi model yang dilatih pada OBELICS dan MINT-1T (HTML) pada kebanyakan penanda aras. Pada tugasan penaakulan pelbagai mod yang lebih kompleks, seperti yang ditunjukkan dalam Jadual 3, model yang dilatih dengan MINT-1T adalah lebih baik daripada model yang dilatih dengan OBELICS pada MMMU, tetapi tidak sebaik penanda aras Mantis-Eval yang terakhir. Untuk ujian yang lebih terperinci dan kesan seni bina model, sila rujuk kertas asal. Bolehkah set data berbilang modal sumber terbuka berskala ultra besar ini menjadi titik permulaan siri legenda, akhirnya mencipta siri model besar berbilang mod seperti model siri Llama? Sama-sama kita tunggu dan lihat. The above is the detailed content of Trillions of tokens! The birth of the largest multimodal data set in history. For more information, please follow other related articles on the PHP Chinese website!