Sejak tahun ini, Apple jelas telah meningkatkan penekanan dan pelaburannya dalam kecerdasan buatan generatif (GenAI). Pada mesyuarat pemegang saham Apple baru-baru ini, Ketua Pegawai Eksekutif Apple Tim Cook berkata bahawa syarikat itu merancang untuk membuat kemajuan yang ketara dalam bidang GenAI tahun ini. Di samping itu, Apple mengumumkan bahawa ia telah meninggalkan projek pembuatan kereta selama 10 tahun, yang menyebabkan beberapa ahli pasukan yang pada asalnya terlibat dalam pembuatan kereta mula beralih ke bidang GenAI.
Melalui inisiatif ini, Apple telah menunjukkan kepada dunia luar keazaman mereka untuk mengukuhkan GenAI. Pada masa ini, teknologi dan produk GenAI dalam bidang pelbagai modal telah menarik banyak perhatian, terutamanya Sora OpenAI. Apple sememangnya berharap untuk membuat satu kejayaan dalam bidang ini.
Dalam kertas penyelidikan yang dikarang bersama "MM1: Kaedah, Analisis & Insights daripada Pra-latihan LLM Multimodal", Apple mendedahkan hasil penyelidikan mereka berdasarkan pra-latihan multimodal dan melancarkan perpustakaan yang mengandungi sehingga 30B siri multimodal Parametrik LLM model.
Alamat kertas: https://arxiv.org/pdf/2403.09611.pdf
Dalam penyelidikan, pasukan menjalankan perbincangan mendalam tentang kritikal komponen seni bina pemilihan dan data yang berbeza. Melalui pemilihan pengekod imej yang teliti, penyambung bahasa visual dan pelbagai data pra-latihan, mereka meringkaskan beberapa garis panduan reka bentuk yang penting. Secara khusus, sumbangan utama kajian ini merangkumi aspek-aspek berikut.
Pertama, penyelidik menjalankan eksperimen ablasi berskala kecil pada keputusan seni bina model dan pemilihan data pra-latihan, dan menemui beberapa trend yang menarik. Kepentingan aspek reka bentuk pemodelan adalah dalam susunan berikut: peleraian imej, kehilangan dan kapasiti pengekod visual, dan data pra-latihan pengekod visual.
Kedua, penyelidik menggunakan tiga jenis data pra-latihan yang berbeza: kapsyen imej, teks imej bersilang dan data teks biasa. Mereka mendapati bahawa mengenai prestasi beberapa tangkapan dan teks sahaja, data latihan berjalin dan teks sahaja adalah sangat penting, manakala untuk prestasi tangkapan sifar, data sari kata adalah yang paling penting. Arah aliran ini berterusan selepas penalaan halus diselia (SFT), menunjukkan bahawa keputusan prestasi dan pemodelan yang dibentangkan semasa pra-latihan dikekalkan selepas penalaan halus.
Akhirnya, penyelidik membina MM1, siri model pelbagai mod dengan parameter sehingga 30 bilion (yang lain 3 bilion dan 7 bilion), yang terdiri daripada model padat dan varian pakar campuran (MoE), Bukan sahaja mencapai SOTA dalam metrik pra-latihan, ia juga mengekalkan prestasi kompetitif selepas menyelia penalaan halus pada siri penanda aras pelbagai mod sedia ada.
Model MM1 pra-latihan berprestasi cemerlang pada sari kata dan tugasan soal jawab dalam senario beberapa syot, mengatasi prestasi Emu2, Flamingo dan IDEFICS. MM1 selepas penalaan halus diselia juga menunjukkan daya saing yang kukuh pada 12 penanda aras pelbagai mod.
Terima kasih kepada pra-latihan berbilang modal berskala besar, MM1 mempunyai prestasi yang baik dalam ramalan konteks, penaakulan berbilang imej dan rantaian pemikiran. Begitu juga, MM1 menunjukkan keupayaan pembelajaran beberapa pukulan yang kuat selepas penalaan arahan.
Membina MLLM (Model Bahasa Besar Berbilang Modal) ialah satu model bahasa besar berbilang mod. Walaupun reka bentuk seni bina peringkat tinggi dan proses latihan adalah jelas, kaedah pelaksanaan khusus tidak selalunya jelas. Dalam kerja ini, penyelidik menerangkan secara terperinci ablasi yang dilakukan untuk membina model berprestasi tinggi. Mereka meneroka tiga arah keputusan reka bentuk utama:
Tetapan ablasi
Memandangkan latihan MLLM yang besar menggunakan banyak sumber, para penyelidik menggunakan tetapan ablasi yang dipermudahkan. Konfigurasi asas ablasi adalah seperti berikut:
Untuk menilai keputusan reka bentuk yang berbeza, penyelidik menggunakan prestasi sifar pukulan dan beberapa pukulan (4 dan 8 sampel) pada pelbagai tugasan VQA dan penerangan imej: COCO Captioning, NoCaps, TextCaps, VQAv2 , TextVQA, VizWiz , GQA dan OK-VQA.
Eksperimen Ablasi Seni Bina Model
Para penyelidik menganalisis komponen yang membolehkan LLM memproses data visual. Secara khusus, mereka mengkaji (1) cara untuk melatih pengekod visual secara optimum, dan (2) cara menyambungkan ciri visual ke ruang LLM (lihat Rajah 3 kiri).
Percubaan ablasi data pra-latihan
Secara amnya, latihan model dibahagikan kepada dua peringkat: pra-latihan dan penalaan arahan. Peringkat pertama menggunakan data skala rangkaian, dan peringkat terakhir menggunakan data susun khusus misi. Perkara berikut memfokuskan pada fasa pra-latihan artikel ini dan memperincikan pemilihan data penyelidik (Rajah 3 kanan).
Terdapat dua jenis data yang biasa digunakan untuk melatih MLLM: data kapsyen yang terdiri daripada perihalan pasangan imej dan teks dan dokumen bersilang teks imej daripada web. Jadual 2 ialah senarai lengkap set data:
Para penyelidik mengumpul keputusan ablasi sebelum ini dan menentukan resipi akhir untuk latihan pra-latihan pelbagai mod MM1:
Untuk meningkatkan prestasi model, penyelidik mengembangkan saiz LLM kepada parameter 3B, 7B dan 30B. Semua model tidak dibekukan sepenuhnya dengan pralatihan dengan saiz kelompok 512 jujukan dengan panjang jujukan 4096, sehingga 16 imej setiap jujukan dan resolusi 378 × 378. Semua model telah dilatih menggunakan rangka kerja AXLearn.
Mereka melakukan carian grid pada kadar pembelajaran pada skala kecil, 9M, 85M, 302M dan 1.2B, menggunakan regresi linear dalam ruang log untuk membuat kesimpulan perubahan daripada model yang lebih kecil kepada yang lebih besar (lihat Rajah 6), hasilnya ialah ramalan daripada kadar pembelajaran puncak optimum η memandangkan bilangan parameter (tidak terbenam) N:
dilanjutkan oleh Campuran Pakar (KPM). Dalam eksperimen, penyelidik meneroka lebih lanjut cara untuk melanjutkan model padat dengan menambah lebih ramai pakar pada lapisan FFN model bahasa.
Untuk menukar model padat kepada MoE, cuma gantikan penyahkod bahasa padat dengan penyahkod bahasa MoE. Untuk melatih MoE, para penyelidik menggunakan hiperparameter latihan yang sama dan tetapan latihan yang sama seperti Dense Backbone 4, termasuk data latihan dan token latihan.
Berkenaan keputusan pra-latihan berbilang modal, para penyelidik menilai model pra-latihan pada tugasan sempadan atas dan VQA dengan gesaan yang sesuai. Jadual 3 menilai keputusan sifar sampel dan beberapa sampel:
Akhir sekali, penyelidik memperkenalkan penalaan halus diselia (SFT) yang dilatih di bahagian atas model.
Mereka mengikuti LLaVA-1.5 dan LLaVA-NeXT dan mengumpul kira-kira 1 juta sampel SFT daripada set data yang berbeza. Memandangkan resolusi imej yang lebih tinggi secara intuitif membawa kepada prestasi yang lebih baik, para penyelidik juga menggunakan kaedah SFT yang dilanjutkan kepada resolusi tinggi.
Hasil penalaan halus yang diselia adalah seperti berikut:
Jadual 4 menunjukkan perbandingan dengan SOTA, "-Chat" mewakili model MM1 selepas penalaan halus diselia.
Pertama sekali, secara purata, MM1-3B-Chat dan MM1-7B-Chat mengatasi semua model tersenarai dengan saiz yang sama. MM1-3B-Chat dan MM1-7B-Chat berprestasi baik pada VQAv2, TextVQA, ScienceQA, MMBench dan penanda aras terkini (MMMU dan MathVista).
Kedua, penyelidik meneroka dua model KPM: 3B-MoE (64 pakar) dan 6B-MoE (32 pakar). Model MoE Apple mencapai prestasi yang lebih baik daripada model padat dalam hampir semua penanda aras. Ini menunjukkan potensi besar untuk pengembangan lanjut KPM.
Ketiga, untuk model saiz 30B, MM1-30B-Chat berprestasi lebih baik daripada Emu2-Chat37B dan CogVLM-30B pada TextVQA, SEED dan MMMU. MM1 juga mencapai prestasi keseluruhan yang kompetitif berbanding LLaVA-NeXT.
Walau bagaimanapun, LLaVA-NeXT tidak menyokong inferens berbilang imej, dan juga tidak menyokong petunjuk beberapa tangkapan, kerana setiap imej diwakili sebagai 2880 token yang dihantar kepada LLM, manakala jumlah bilangan token dalam MM1 hanyalah 720. Ini mengehadkan aplikasi tertentu yang melibatkan berbilang imej.
Rajah 7b menunjukkan kesan resolusi imej input pada prestasi purata metrik penilaian SFT, dan Rajah 7c menunjukkan bahawa apabila data pra-latihan meningkat, prestasi model terus bertambah baik.
Impak peleraian imej. Rajah 7b menunjukkan kesan resolusi imej input ke atas prestasi purata metrik penilaian SFT.
Impak pra-latihan: Rajah 7c menunjukkan bahawa apabila data pra-latihan meningkat, prestasi model terus bertambah baik.
Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Model besar Apple MM1 memasuki pasaran: 30 bilion parameter, multi-modal, seni bina MoE, lebih separuh daripada pengarang adalah orang Cina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!