Sama seperti haiwan mempunyai mata, Cambrian-1 daripada pasukan Yann LeCun membolehkan AI memperoleh keupayaan pembelajaran perwakilan visual yang berkuasa.
Sepanjang zaman, ramai ahli falsafah telah meneroka persoalan ini: Adakah pemahaman makna bahasa perlu berdasarkan pancaindera? Walaupun ahli falsafah tidak bersetuju, satu perkara yang jelas: asas deria yang kukuh dan berkesan sekurang-kurangnya dapat membantu.
Sebagai contoh, saintis secara amnya percaya bahawa kemunculan penglihatan semasa Letupan Cambrian merupakan langkah penting dalam evolusi haiwan awal ini bukan sahaja membantu haiwan mencari makanan dengan lebih baik dan mengelakkan pemangsa, tetapi juga membantu evolusi haiwan itu sendiri; Malah, kebanyakan pengetahuan pada manusia (dan hampir semua haiwan) diperoleh melalui pengalaman deria yang berinteraksi dengan fizikal, seperti penglihatan, pendengaran, sentuhan, rasa dan bau. Pengalaman deria ini adalah asas untuk pemahaman kita tentang dunia di sekeliling kita dan merupakan kunci untuk membantu kita mengambil tindakan dan membuat keputusan.
Idea ini bukan sahaja boleh digunakan untuk meneroka konsep falsafah, tetapi juga mempunyai nilai praktikal terutamanya pembangunan model bahasa besar multimodal (MLLM) baru-baru ini telah membawa pembelajaran perwakilan visual dan pemahaman bahasa kepada teras aplikasi praktikal. Model bahasa mempamerkan tingkah laku penskalaan yang sangat kuat, dan kemajuan terkini dalam pembelajaran multimodal telah banyak mendapat manfaat daripada LLM yang lebih besar dan lebih baik.
Sebaliknya, pilihan reka bentuk untuk komponen visual masih belum diterokai sepenuhnya, dan penerokaan dalam bidang ini agak terputus hubungan daripada penyelidikan mengenai pembelajaran perwakilan visual. Ini terutamanya kerana penyelidikan dalam bidang ini sangat sukar: MLLM melibatkan proses latihan dan penilaian yang kompleks, dan terdapat banyak pilihan reka bentuk untuk dipertimbangkan.
Baru-baru ini, pasukan Xie Saining dan Yann LeCun dari Universiti New York meneroka MLLM dengan visi sebagai pusat untuk mengisi jurang ini; mereka juga membina model siri Cambrian-1 (Cambrian 1) berdasarkan hasil penerokaan ini. (Artikel ini mempunyai tiga pengarang bersama: Shengbang Tong, Ellis Brown dan Penghao Wu.)
Tajuk kertas: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
reka bentuk penyambung : Mereka mereka bentuk penyambung jenis baharu yang dinamik dan sedar ruang, yang boleh menyepadukan ciri visual dengan LLM sambil turut mengurangkan bilangan token.
Resipi Penalaan Halus Arahan: Mereka membincangkan strategi dan langkah praktikal untuk penalaan halus arahan.
Penilaian penanda aras: Mereka menganalisis penanda aras MLLM sedia ada dan secara intuitif membahagikannya kepada 4 kumpulan, dan kemudian mencadangkan penanda aras CV-Bench yang berpaksikan visi baharu.
Membina tiang-tiang ini, pasukan membina model siri Cambrian-1, yang mendahului pelbagai penanda aras dan sangat mahir dalam tugas-tugas bertumpu penglihatan. Pasukan itu juga mengeluarkan berat model kajian, kod sumber terbuka, set data dan rancangan terperinci untuk latihan dan penilaian model.
Asas LLM berbilang mod
Komponen utama penyelidikan MLLM termasuk model bahasa besar, pengekod visual, penyambung multimodal, proses pemasangan data, strategi penalaan halus arahan, penilaian dan penanda aras. Sila rujuk kertas asal untuk arahan khusus dan penyelidikan berkaitan.
Menilai perwakilan visual melalui MLLM
Pengekod visual yang digunakan pada masa ini dalam MLLM adalah terutamanya CLIP, kerana ia sudah diselaraskan terlebih dahulu dengan bahasa dan mudah disesuaikan dengan ruang token LLM. Walau bagaimanapun, keutamaan bahasa yang kuat boleh menjadi pedang bermata dua: kedua-duanya boleh mengimbangi kekurangan dalam mempelajari perwakilan visual yang berkesan dan menyekat cerapan yang diperoleh daripada penyelidikan meluas tentang pembelajaran perwakilan visual.
Pasukan secara sistematik menilai kesan pelbagai pilihan pengekod visual (lihat Rajah 2) ke atas keupayaan pelbagai mod MLLM.
Mereka juga menyokong penggunaan penilaian MLLM sebagai rangka kerja yang teguh untuk menilai kaedah perwakilan visual untuk lebih mencerminkan cabaran persepsi yang pelbagai dalam senario dunia sebenar, dengan itu membimbing orang ramai untuk membangunkan perwakilan visual yang lebih baik. Di bawah ini kami akan memperkenalkan secara ringkas proses penyelidikan dan penemuan Untuk butiran lanjut, sila rujuk kertas asal.
Tanda Aras Analisis
Berdasarkan 23 rangkaian tulang belakang visual yang berbeza, pasukan melatih MLLM menggunakan proses penalaan halus arahan dua peringkat: mula-mula melatih penyambung berdasarkan data penyesuai 1.2M ShareGPT-4V, dan kemudian halus- penalaan pada arahan 737K Penalaan halus penyambung dan LLM serentak pada data.
Dengan membandingkan prestasi model dengan atau tanpa input visual (lihat Rajah 3), pasukan membuat penemuan berikut:
Penemuan 1: Kebanyakan penanda aras gagal mengukur dengan tepat keupayaan bertumpu penglihatan, dan beberapa yang terdapat hanya bilangan penanda aras yang sangat kecil yang boleh mengukur keupayaan ini.
Cambrian Vision-Centric Benchmark (CV-Bench)
Untuk menangani batasan penanda aras berpusatkan penglihatan sedia ada, pasukan mencadangkan CV-Bench. Ia mengandungi 2638 sampel yang diperiksa manusia, yang jauh lebih banyak daripada penanda aras MLLM bertumpu penglihatan lain - 3.5x lebih daripada RealWorldQA dan 8.8x lebih daripada MMVP.
Seperti yang ditunjukkan dalam Rajah 4 dan Jadual 1, CV-Bench boleh menilai keupayaan pemahaman 2D melalui hubungan ruang dan kiraan sasaran, dan boleh menilai keupayaan pemahaman 3D melalui susunan kedalaman dan jarak relatif.
Penemuan 2: Penanda aras penglihatan sedia ada boleh disesuaikan dengan berkesan untuk tugas VQA, membolehkan penilaian keupayaan MLLM bertumpu penglihatan.
Skim penalaan halus arahan
MLLM bermula dengan pra-latihan LLM dan rangkaian tulang belakang visual, dan kemudian menyambungkan modul ini melalui penyambung seperti projektor (MLP). Pasukan itu meneroka skema penalaan halus arahan yang berbeza melalui eksperimen yang meluas dan membuat penemuan berikut.
Mengenai pilihan antara latihan satu peringkat dan latihan dwi peringkat, pasukan mendapati:
Penemuan 3: Latihan dwi peringkat bermanfaat;
Dari segi sama ada hendak membekukan pengekod visual, pasukan mendapati:
Penemuan 4: Terdapat banyak faedah untuk tidak membekukan pengekod visual. Model yang diselia bahasa sentiasa berfaedah;
Menggunakan MLLM sebagai penilai representasi visual
Pasukan mengkaji penggunaan MLLM untuk menilai representasi visual Hasilnya ditunjukkan dalam Rajah 6. Penemuan adalah seperti berikut:
Pencarian Tinggi. pengekod boleh Meningkatkan prestasi dengan ketara pada penanda aras graf atau bertumpu penglihatan, dan seni bina berasaskan rangkaian konvolusi sangat sesuai untuk tugasan tersebut.
Mereka juga mengkaji sama ada penalaan halus berterusan MLLM berdasarkan model penyeliaan sendiri boleh mencapai prestasi yang serupa dengan model seliaan bahasa Hasilnya ditunjukkan dalam Rajah 7.
Penemuan 6: Pengawasan bahasa mempunyai kelebihan yang kuat, tetapi dengan data yang mencukupi dan penalaan halus yang sesuai, jurang prestasi boleh dikurangkan melalui kaedah SSL.
Gabungkan berbilang pengekod visual
Pasukan juga meneroka kemungkinan menggabungkan berbilang pengekod visual untuk membina MLLM yang lebih berkuasa, dan hasilnya ditunjukkan dalam Jadual 3.
Penemuan 7: Menggabungkan berbilang pengekod visual (termasuk model SSL visual) meningkatkan prestasi MLLM pada pelbagai penanda aras yang berbeza, terutamanya untuk tugas bertumpu penglihatan.
Spatial Vision Aggregator (SVA): Reka bentuk baharu penyambung
Untuk mengagregatkan ciri secara berkesan daripada berbilang pengekod visual dan mengelakkan kehilangan maklumat yang diperkenalkan melalui interpolasi, mereka menggunakan set pertanyaan tersirat yang boleh dipelajari, yang boleh berinteraksi dengan berbilang ciri visual melalui lapisan perhatian silang.
Secara khusus, pendekatan baharu ini menyepadukan dua prinsip reka bentuk bertumpu penglihatan baharu:
Memperkenalkan bias aruhan spatial dengan mentakrifkan ruang pengagregatan secara eksplisit bagi setiap token dalam pertanyaan .
Mengagregatkan ciri visual berbilang kali merentas lapisan LLM membolehkan model mengakses dan menyepadukan maklumat visual yang diperlukan berulang kali.
Kaedah pembinaan baharu ini boleh menyesuaikan secara fleksibel kepada berbilang pengekod visual dengan resolusi ciri yang berbeza, sambil mengekalkan struktur spatial data visual semasa pengagregatan dan penyepaduan dengan LLM.
Menggunakan gabungan model penglihatan terbaik dari bahagian sebelumnya dan LLM asas Vicuna-1.5-7B, pasukan menunjukkan kegunaan modul SVA.
Jadual 4 menunjukkan: SVA mengatasi dua teknik yang berbeza pada semua kategori penanda aras, dengan peningkatan besar pada kategori OCR dan jadual (memerlukan pemahaman ciri resolusi tinggi).
Melangkah lebih jauh, mereka menjalankan eksperimen ablasi berdasarkan gabungan OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 Hasilnya ditunjukkan dalam Jadual 5.
Penemuan 8: Pincang induksi ruang dan interaksi mendalam antara LLM dan ciri visual membantu mengagregat dan memekatkan ciri visual dengan lebih baik.
Data penalaan halus arahan untuk latihan MLLM
Pengumpulan data
Kumpulkan data penalaan halus arahan daripada sumber data sedia ada:
Pasukan menggunakan kedua-dua tanda aras berbilang modal dan data interaksi (contohnya , jawapan soalan visual (VQA) dan data OCR), sejumlah kecil data pematuhan arahan bahasa tulen berkualiti tinggi juga telah dikumpulkan. Mereka juga mengasingkan data ke dalam kategori yang berbeza: perbualan umum, OCR, mengira, pengekodan, matematik, sains dan data bahasa tulen. Rajah 9 menunjukkan sumber data.
Enjin pengumpulan data Internet yang disasarkan: Seperti yang ditunjukkan dalam Rajah 9, pengagihan data adalah tidak seimbang.
Untuk mencipta data penalaan halus arahan berasaskan pengetahuan berskala besar, boleh dipercayai dan berkualiti tinggi, pasukan mencadangkan enjin data. Enjin boleh memilih domain sasaran dan subdomain (seperti fizik) dan kemudian menggunakan LLM seperti GPT-4 untuk mengenal pasti topik (seperti undang-undang Newton). Ia kemudian mencari sumber maklumat yang boleh dipercayai seperti Wikipedia untuk setiap topik. Pasukan itu mendapati pasangan teks imej yang diekstrak daripada Wikipedia adalah berkualiti tinggi.
Selepas itu, pasukan menggunakan penghurai untuk mengekstrak tuple perihalan imej, dan kemudian menyuapkan teks perihalan ke LLM, seperti GPT-3.5, untuk menjana pasangan soalan dan jawapan jenis arahan tentang imej melalui gesaan yang direka dengan teliti . Pasangan dan imej soalan-jawapan ini membentuk set data VQA mereka.
Cambrian-10M: Mereka mencipta kumpulan data penalaan halus arahan yang besar dan menamakannya Cambrian-10M, yang mengandungi kira-kira 9784k titik data. Rajah 9 menunjukkan komposisinya.
Penyusunan semula data
Untuk meningkatkan keseimbangan data dan melaraskan perkadaran data (lihat Rajah 10 dan 11), pasukan menyusun semula Cambrian-10M.
Akhirnya mendapat dataset Cambrian-7M yang lebih kecil tetapi berkualiti tinggi. Jadual 6 dan 7 menggambarkan faedah menyusun semula data arahan: walaupun terdapat lebih sedikit sampel dalam Cambrian-7M, prestasi yang terhasil adalah lebih baik.
Memudahkan "Fenomena Mesin Menjawab" melalui gesaan sistem
Mereka juga mengkaji apa yang dipanggil Fenomena Mesin Jawapan. Mereka memerhatikan bahawa MLLM yang terlatih mungkin mahir dalam mengendalikan penanda aras VQA, tetapi kekurangan keupayaan perbualan asas dan mengeluarkan respons yang pendek dan kaku secara lalai. Sebabnya ialah jawapan yang diperlukan untuk soalan penanda aras selalunya terhad kepada satu pilihan atau perkataan, tidak seperti kes penggunaan yang lebih umum dan realistik. Fenomena yang sama telah diperhatikan dalam kajian LLM yang lain.
Mereka membuat spekulasi bahawa punca masalah ini ialah data penalaan halus arahan mengandungi terlalu banyak tugasan VQA tindak balas pendek, yang boleh membawa kepada pelupaan bencana dalam LLM.
Untuk menyelesaikan masalah ini, pasukan menyepadukan sistem tambahan gesaan semasa latihan. Contohnya, untuk soalan yang menghasilkan satu perkataan atau frasa dalam jawapan, tambahkan sesuatu seperti "Gunakan satu perkataan atau frasa untuk menjawab soalan ini" dalam gesaan. Telah didapati bahawa gesaan sistem sedemikian boleh meningkatkan keupayaan perbualan model dengan ketara sambil mengekalkan prestasi garis dasar model. Rajah 12 memberikan contoh.
Selain itu, gesaan sistem juga boleh meningkatkan keupayaan penaakulan dengan menggalakkan model menggunakan rantai pemikiran.
Prestasi terbaik lagi
Akhirnya, menggunakan cerapan yang diperoleh semasa kajian penerokaan, pasukan itu melatih keluarga baharu model MLLM: Cambrian-1. Mereka melatih model menggunakan rangkaian tulang belakang LLM dengan saiz yang berbeza: LLaMA-3-Instruct-8B, Vicuna-1.5-13B, Hermes-2-Yi-34B.
Komponen penglihatan mereka menggabungkan 4 model melalui Spatial Vision Aggregator (SVA): OpenAI CLIP ViT-L/14@336, SigLIP ViT-SO400M/14@384, OpenCLIP ConvNeXt-XXL@1024, DINOv2 ViT-LIN 518. Mereka telah melatih penyambung menggunakan data penyesuai 2.5M dan kemudian memperhalusinya menggunakan pencampuran data Cambrian-7M.
Jadual 8 dan Rajah 13 memberikan hasil penilaian model.
Seperti yang anda lihat, Cambrian-1 mengatasi model sumber terbuka seperti LLaVA-NeXT dan Mini-Gemini. Terima kasih kepada SVA, Cambrian-1 juga boleh mengendalikan tugas yang memerlukan pemprosesan imej beresolusi tinggi dengan sangat baik, walaupun hanya menggunakan 576 token imej, iaitu hanya kira-kira 1/ daripada bilangan token yang digunakan oleh LLaVA-NeXT dan Mini-Gemini 5.
Cambrian-1 juga mencapai prestasi yang setanding dengan model proprietari terbaik seperti GPT-4V, Gemini-Pro dan MM-1 pada pelbagai penanda aras.
Rajah 14 memberikan beberapa contoh, dan anda dapat melihat bahawa walaupun Cambrian-1 hanya menggunakan 576 token, ia boleh memberi perhatian kepada butiran dalam imej dengan berkesan.
Selain itu, dapat dilihat dari penamaan Cambrian-1 bahawa ini adalah pasukan yang bercita-cita tinggi. Marilah kita menantikan peningkatan generasi seterusnya bagi siri model ini.
Atas ialah kandungan terperinci Kelahiran Cambrian No. 1: Pasukan Xie Saining dan Yann LeCun mengeluarkan LLM berbilang modal sumber terbuka yang paling berkuasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!