Kelahiran Cambrian No. 1: Pasukan Xie Saining dan Yann LeCun mengeluarkan LLM berbilang modal sumber terbuka yang paling berkuasa-AI-php.cn

Sama seperti haiwan mempunyai mata, Cambrian-1 daripada pasukan Yann LeCun membolehkan AI memperoleh keupayaan pembelajaran perwakilan visual yang berkuasa.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Sepanjang zaman, ramai ahli falsafah telah meneroka persoalan ini: Adakah pemahaman makna bahasa perlu berdasarkan pancaindera? Walaupun ahli falsafah tidak bersetuju, satu perkara yang jelas: asas deria yang kukuh dan berkesan sekurang-kurangnya dapat membantu.

Sebagai contoh, saintis secara amnya percaya bahawa kemunculan penglihatan semasa Letupan Cambrian merupakan langkah penting dalam evolusi haiwan awal ini bukan sahaja membantu haiwan mencari makanan dengan lebih baik dan mengelakkan pemangsa, tetapi juga membantu evolusi haiwan itu sendiri; Malah, kebanyakan pengetahuan pada manusia (dan hampir semua haiwan) diperoleh melalui pengalaman deria yang berinteraksi dengan fizikal, seperti penglihatan, pendengaran, sentuhan, rasa dan bau. Pengalaman deria ini adalah asas untuk pemahaman kita tentang dunia di sekeliling kita dan merupakan kunci untuk membantu kita mengambil tindakan dan membuat keputusan.

Idea ini bukan sahaja boleh digunakan untuk meneroka konsep falsafah, tetapi juga mempunyai nilai praktikal terutamanya pembangunan model bahasa besar multimodal (MLLM) baru-baru ini telah membawa pembelajaran perwakilan visual dan pemahaman bahasa kepada teras aplikasi praktikal. Model bahasa mempamerkan tingkah laku penskalaan yang sangat kuat, dan kemajuan terkini dalam pembelajaran multimodal telah banyak mendapat manfaat daripada LLM yang lebih besar dan lebih baik.

Sebaliknya, pilihan reka bentuk untuk komponen visual masih belum diterokai sepenuhnya, dan penerokaan dalam bidang ini agak terputus hubungan daripada penyelidikan mengenai pembelajaran perwakilan visual. Ini terutamanya kerana penyelidikan dalam bidang ini sangat sukar: MLLM melibatkan proses latihan dan penilaian yang kompleks, dan terdapat banyak pilihan reka bentuk untuk dipertimbangkan.

Baru-baru ini, pasukan Xie Saining dan Yann LeCun dari Universiti New York meneroka MLLM dengan visi sebagai pusat untuk mengisi jurang ini; mereka juga membina model siri Cambrian-1 (Cambrian 1) berdasarkan hasil penerokaan ini. (Artikel ini mempunyai tiga pengarang bersama: Shengbang Tong, Ellis Brown dan Penghao Wu.)

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Tajuk kertas: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
: https://arxiv.org/pdf/2406.16860
Laman web: https://cambrian-mllm.github.io
Kod: https://github.com/cambrian-mllm/ cambrian
Model: https://huggingface.co/nyu-visionx/
Data: https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench: https:/ /huggingface.co/datasets/nyu-visionx/CV-Bench
Penilaian: https://github.com/cambrian-mllm/cambrian

Secara khusus, mereka memperhalusi arahan MLLM Pelbagai jenis visual protokol penilaian perwakilan telah dibuat, seperti yang ditunjukkan dalam Rajah 1.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Pasukan berkata: "Motivasi untuk kajian kami berpunca daripada dua masalah yang berpotensi dalam penyelidikan pembelajaran multimodal semasa: 1) Pergantungan yang berlebihan dan pramatang pada bahasa, yang merupakan jalan pintas yang boleh menggantikan pembelajaran visual yang berkesan perwakilan; 2) Penanda aras sedia ada mungkin tidak memberikan panduan yang mencukupi untuk senario dunia sebenar - asas visual adalah penting untuk pemahaman pelbagai modal yang mantap "

Isu ini bukan tidak berasas, kerana penyelidik telah melakukannya. Saya mula menyedari bahawa visual. pembumian menjadi hambatan dalam menggunakan MLLM pada beberapa aplikasi dunia sebenar yang sukar.

Melihat daripada perspektif lain, protokol penilaian pembelajaran representasi visual tradisional telah menjadi tepu dan gagal menggambarkan pelbagai cabaran persepsi yang terdapat dalam pengedaran dunia sebenar. Sebaliknya, menggunakan bahasa dalam bentuk jawapan soalan visual (VQA) menyediakan protokol penilaian yang fleksibel dan mantap.

Matlamat kajian oleh Xie Saining dan pasukan Yann LeCun ini adalah untuk meneroka reka bentuk protokol baharu ini dan mendapatkan cerapan baharu untuk membimbing pembangunan perwakilan visual masa hadapan. Tambahan pula, untuk menilai dengan lebih baik perwakilan visual dalam tetapan komprehensif ini, mereka juga membangunkan CV-Bench penanda aras MLLM bertumpu penglihatan dengan menukar penanda aras penglihatan tradisional kepada format VQA.

Cambrian-1 dibina di atas lima tiang utama, yang setiap satunya memberikan pandangan penting tentang reka bentuk MLLM:

Perwakilan visual: Pasukan meneroka beberapa pengekod visual yang berbeza dan gabungannya
reka bentuk penyambung : Mereka mereka bentuk penyambung jenis baharu yang dinamik dan sedar ruang, yang boleh menyepadukan ciri visual dengan LLM sambil turut mengurangkan bilangan token.
Data penalaan halus arahan: Mereka menyusun data penalaan halus arahan visual berkualiti tinggi berdasarkan sumber data awam, yang khususnya menekankan kepentingan keseimbangan pengagihan. 🎜
Resipi Penalaan Halus Arahan: Mereka membincangkan strategi dan langkah praktikal untuk penalaan halus arahan.
Penilaian penanda aras: Mereka menganalisis penanda aras MLLM sedia ada dan secara intuitif membahagikannya kepada 4 kumpulan, dan kemudian mencadangkan penanda aras CV-Bench yang berpaksikan visi baharu.

Membina tiang-tiang ini, pasukan membina model siri Cambrian-1, yang mendahului pelbagai penanda aras dan sangat mahir dalam tugas-tugas bertumpu penglihatan. Pasukan itu juga mengeluarkan berat model kajian, kod sumber terbuka, set data dan rancangan terperinci untuk latihan dan penilaian model.

Asas LLM berbilang mod

Komponen utama penyelidikan MLLM termasuk model bahasa besar, pengekod visual, penyambung multimodal, proses pemasangan data, strategi penalaan halus arahan, penilaian dan penanda aras. Sila rujuk kertas asal untuk arahan khusus dan penyelidikan berkaitan.

Menilai perwakilan visual melalui MLLM

Pengekod visual yang digunakan pada masa ini dalam MLLM adalah terutamanya CLIP, kerana ia sudah diselaraskan terlebih dahulu dengan bahasa dan mudah disesuaikan dengan ruang token LLM. Walau bagaimanapun, keutamaan bahasa yang kuat boleh menjadi pedang bermata dua: kedua-duanya boleh mengimbangi kekurangan dalam mempelajari perwakilan visual yang berkesan dan menyekat cerapan yang diperoleh daripada penyelidikan meluas tentang pembelajaran perwakilan visual.

Pasukan secara sistematik menilai kesan pelbagai pilihan pengekod visual (lihat Rajah 2) ke atas keupayaan pelbagai mod MLLM.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Mereka juga menyokong penggunaan penilaian MLLM sebagai rangka kerja yang teguh untuk menilai kaedah perwakilan visual untuk lebih mencerminkan cabaran persepsi yang pelbagai dalam senario dunia sebenar, dengan itu membimbing orang ramai untuk membangunkan perwakilan visual yang lebih baik. Di bawah ini kami akan memperkenalkan secara ringkas proses penyelidikan dan penemuan Untuk butiran lanjut, sila rujuk kertas asal.

Tanda Aras Analisis

Berdasarkan 23 rangkaian tulang belakang visual yang berbeza, pasukan melatih MLLM menggunakan proses penalaan halus arahan dua peringkat: mula-mula melatih penyambung berdasarkan data penyesuai 1.2M ShareGPT-4V, dan kemudian halus- penalaan pada arahan 737K Penalaan halus penyambung dan LLM serentak pada data.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Dengan membandingkan prestasi model dengan atau tanpa input visual (lihat Rajah 3), pasukan membuat penemuan berikut:

Penemuan 1: Kebanyakan penanda aras gagal mengukur dengan tepat keupayaan bertumpu penglihatan, dan beberapa yang terdapat hanya bilangan penanda aras yang sangat kecil yang boleh mengukur keupayaan ini.

Cambrian Vision-Centric Benchmark (CV-Bench)

Untuk menangani batasan penanda aras berpusatkan penglihatan sedia ada, pasukan mencadangkan CV-Bench. Ia mengandungi 2638 sampel yang diperiksa manusia, yang jauh lebih banyak daripada penanda aras MLLM bertumpu penglihatan lain - 3.5x lebih daripada RealWorldQA dan 8.8x lebih daripada MMVP.

Seperti yang ditunjukkan dalam Rajah 4 dan Jadual 1, CV-Bench boleh menilai keupayaan pemahaman 2D melalui hubungan ruang dan kiraan sasaran, dan boleh menilai keupayaan pemahaman 3D melalui susunan kedalaman dan jarak relatif.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Penemuan 2: Penanda aras penglihatan sedia ada boleh disesuaikan dengan berkesan untuk tugas VQA, membolehkan penilaian keupayaan MLLM bertumpu penglihatan.

Skim penalaan halus arahan

MLLM bermula dengan pra-latihan LLM dan rangkaian tulang belakang visual, dan kemudian menyambungkan modul ini melalui penyambung seperti projektor (MLP). Pasukan itu meneroka skema penalaan halus arahan yang berbeza melalui eksperimen yang meluas dan membuat penemuan berikut.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Mengenai pilihan antara latihan satu peringkat dan latihan dwi peringkat, pasukan mendapati:

Penemuan 3: Latihan dwi peringkat bermanfaat;

Dari segi sama ada hendak membekukan pengekod visual, pasukan mendapati:

Penemuan 4: Terdapat banyak faedah untuk tidak membekukan pengekod visual. Model yang diselia bahasa sentiasa berfaedah;

Menggunakan MLLM sebagai penilai representasi visual

Pasukan mengkaji penggunaan MLLM untuk menilai representasi visual Hasilnya ditunjukkan dalam Rajah 6. Penemuan adalah seperti berikut:

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Pencarian Tinggi. pengekod boleh Meningkatkan prestasi dengan ketara pada penanda aras graf atau bertumpu penglihatan, dan seni bina berasaskan rangkaian konvolusi sangat sesuai untuk tugasan tersebut.

Mereka juga mengkaji sama ada penalaan halus berterusan MLLM berdasarkan model penyeliaan sendiri boleh mencapai prestasi yang serupa dengan model seliaan bahasa Hasilnya ditunjukkan dalam Rajah 7.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Penemuan 6: Pengawasan bahasa mempunyai kelebihan yang kuat, tetapi dengan data yang mencukupi dan penalaan halus yang sesuai, jurang prestasi boleh dikurangkan melalui kaedah SSL.

Gabungkan berbilang pengekod visual

Pasukan juga meneroka kemungkinan menggabungkan berbilang pengekod visual untuk membina MLLM yang lebih berkuasa, dan hasilnya ditunjukkan dalam Jadual 3.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Penemuan 7: Menggabungkan berbilang pengekod visual (termasuk model SSL visual) meningkatkan prestasi MLLM pada pelbagai penanda aras yang berbeza, terutamanya untuk tugas bertumpu penglihatan.

Spatial Vision Aggregator (SVA): Reka bentuk baharu penyambung

Untuk mengagregatkan ciri secara berkesan daripada berbilang pengekod visual dan mengelakkan kehilangan maklumat yang diperkenalkan melalui interpolasi, mereka menggunakan set pertanyaan tersirat yang boleh dipelajari, yang boleh berinteraksi dengan berbilang ciri visual melalui lapisan perhatian silang.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Secara khusus, pendekatan baharu ini menyepadukan dua prinsip reka bentuk bertumpu penglihatan baharu:

Memperkenalkan bias aruhan spatial dengan mentakrifkan ruang pengagregatan secara eksplisit bagi setiap token dalam pertanyaan .
Mengagregatkan ciri visual berbilang kali merentas lapisan LLM membolehkan model mengakses dan menyepadukan maklumat visual yang diperlukan berulang kali.

Kaedah pembinaan baharu ini boleh menyesuaikan secara fleksibel kepada berbilang pengekod visual dengan resolusi ciri yang berbeza, sambil mengekalkan struktur spatial data visual semasa pengagregatan dan penyepaduan dengan LLM.

Menggunakan gabungan model penglihatan terbaik dari bahagian sebelumnya dan LLM asas Vicuna-1.5-7B, pasukan menunjukkan kegunaan modul SVA.

Jadual 4 menunjukkan: SVA mengatasi dua teknik yang berbeza pada semua kategori penanda aras, dengan peningkatan besar pada kategori OCR dan jadual (memerlukan pemahaman ciri resolusi tinggi).

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Melangkah lebih jauh, mereka menjalankan eksperimen ablasi berdasarkan gabungan OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 Hasilnya ditunjukkan dalam Jadual 5.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Penemuan 8: Pincang induksi ruang dan interaksi mendalam antara LLM dan ciri visual membantu mengagregat dan memekatkan ciri visual dengan lebih baik.

Data penalaan halus arahan untuk latihan MLLM

Pengumpulan data

Kumpulkan data penalaan halus arahan daripada sumber data sedia ada:

Pasukan menggunakan kedua-dua tanda aras berbilang modal dan data interaksi (contohnya , jawapan soalan visual (VQA) dan data OCR), sejumlah kecil data pematuhan arahan bahasa tulen berkualiti tinggi juga telah dikumpulkan. Mereka juga mengasingkan data ke dalam kategori yang berbeza: perbualan umum, OCR, mengira, pengekodan, matematik, sains dan data bahasa tulen. Rajah 9 menunjukkan sumber data.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Enjin pengumpulan data Internet yang disasarkan: Seperti yang ditunjukkan dalam Rajah 9, pengagihan data adalah tidak seimbang.

Untuk mencipta data penalaan halus arahan berasaskan pengetahuan berskala besar, boleh dipercayai dan berkualiti tinggi, pasukan mencadangkan enjin data. Enjin boleh memilih domain sasaran dan subdomain (seperti fizik) dan kemudian menggunakan LLM seperti GPT-4 untuk mengenal pasti topik (seperti undang-undang Newton). Ia kemudian mencari sumber maklumat yang boleh dipercayai seperti Wikipedia untuk setiap topik. Pasukan itu mendapati pasangan teks imej yang diekstrak daripada Wikipedia adalah berkualiti tinggi.

Selepas itu, pasukan menggunakan penghurai untuk mengekstrak tuple perihalan imej, dan kemudian menyuapkan teks perihalan ke LLM, seperti GPT-3.5, untuk menjana pasangan soalan dan jawapan jenis arahan tentang imej melalui gesaan yang direka dengan teliti . Pasangan dan imej soalan-jawapan ini membentuk set data VQA mereka.

Cambrian-10M: Mereka mencipta kumpulan data penalaan halus arahan yang besar dan menamakannya Cambrian-10M, yang mengandungi kira-kira 9784k titik data. Rajah 9 menunjukkan komposisinya.

Penyusunan semula data

Untuk meningkatkan keseimbangan data dan melaraskan perkadaran data (lihat Rajah 10 dan 11), pasukan menyusun semula Cambrian-10M.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Akhirnya mendapat dataset Cambrian-7M yang lebih kecil tetapi berkualiti tinggi. Jadual 6 dan 7 menggambarkan faedah menyusun semula data arahan: walaupun terdapat lebih sedikit sampel dalam Cambrian-7M, prestasi yang terhasil adalah lebih baik.

Memudahkan "Fenomena Mesin Menjawab" melalui gesaan sistem

Mereka juga mengkaji apa yang dipanggil Fenomena Mesin Jawapan. Mereka memerhatikan bahawa MLLM yang terlatih mungkin mahir dalam mengendalikan penanda aras VQA, tetapi kekurangan keupayaan perbualan asas dan mengeluarkan respons yang pendek dan kaku secara lalai. Sebabnya ialah jawapan yang diperlukan untuk soalan penanda aras selalunya terhad kepada satu pilihan atau perkataan, tidak seperti kes penggunaan yang lebih umum dan realistik. Fenomena yang sama telah diperhatikan dalam kajian LLM yang lain.

Mereka membuat spekulasi bahawa punca masalah ini ialah data penalaan halus arahan mengandungi terlalu banyak tugasan VQA tindak balas pendek, yang boleh membawa kepada pelupaan bencana dalam LLM.

Untuk menyelesaikan masalah ini, pasukan menyepadukan sistem tambahan gesaan semasa latihan. Contohnya, untuk soalan yang menghasilkan satu perkataan atau frasa dalam jawapan, tambahkan sesuatu seperti "Gunakan satu perkataan atau frasa untuk menjawab soalan ini" dalam gesaan. Telah didapati bahawa gesaan sistem sedemikian boleh meningkatkan keupayaan perbualan model dengan ketara sambil mengekalkan prestasi garis dasar model. Rajah 12 memberikan contoh.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Selain itu, gesaan sistem juga boleh meningkatkan keupayaan penaakulan dengan menggalakkan model menggunakan rantai pemikiran.

Prestasi terbaik lagi

Akhirnya, menggunakan cerapan yang diperoleh semasa kajian penerokaan, pasukan itu melatih keluarga baharu model MLLM: Cambrian-1. Mereka melatih model menggunakan rangkaian tulang belakang LLM dengan saiz yang berbeza: LLaMA-3-Instruct-8B, Vicuna-1.5-13B, Hermes-2-Yi-34B.

Komponen penglihatan mereka menggabungkan 4 model melalui Spatial Vision Aggregator (SVA): OpenAI CLIP ViT-L/14@336, SigLIP ViT-SO400M/14@384, OpenCLIP ConvNeXt-XXL@1024, DINOv2 ViT-LIN 518. Mereka telah melatih penyambung menggunakan data penyesuai 2.5M dan kemudian memperhalusinya menggunakan pencampuran data Cambrian-7M.

Jadual 8 dan Rajah 13 memberikan hasil penilaian model.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Seperti yang anda lihat, Cambrian-1 mengatasi model sumber terbuka seperti LLaVA-NeXT dan Mini-Gemini. Terima kasih kepada SVA, Cambrian-1 juga boleh mengendalikan tugas yang memerlukan pemprosesan imej beresolusi tinggi dengan sangat baik, walaupun hanya menggunakan 576 token imej, iaitu hanya kira-kira 1/ daripada bilangan token yang digunakan oleh LLaVA-NeXT dan Mini-Gemini 5.

Cambrian-1 juga mencapai prestasi yang setanding dengan model proprietari terbaik seperti GPT-4V, Gemini-Pro dan MM-1 pada pelbagai penanda aras.

Rajah 14 memberikan beberapa contoh, dan anda dapat melihat bahawa walaupun Cambrian-1 hanya menggunakan 576 token, ia boleh memberi perhatian kepada butiran dalam imej dengan berkesan.

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

Selain itu, dapat dilihat dari penamaan Cambrian-1 bahawa ini adalah pasukan yang bercita-cita tinggi. Marilah kita menantikan peningkatan generasi seterusnya bagi siri model ini.

Atas ialah kandungan terperinci Kelahiran Cambrian No. 1: Pasukan Xie Saining dan Yann LeCun mengeluarkan LLM berbilang modal sumber terbuka yang paling berkuasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!