Kemunculan GPT-4o sekali lagi mencipta paradigma baharu untuk pembangunan model pelbagai mod!
Kenapa awak cakap macam tu?
OpenAI memanggilnya sebagai model berbilang modal "asli" pertama, yang bermaksud GPT-4o berbeza daripada semua model sebelumnya.
Model asas pelbagai mod tradisional biasanya menggunakan "pengekod" atau "penyahkod" khusus untuk setiap modaliti untuk memisahkan modaliti yang berbeza.
Walau bagaimanapun, pendekatan ini mengehadkan keupayaan model untuk menggabungkan maklumat rentas modal dengan berkesan.
GPT-4o ialah model latihan "hujung ke hujung pertama" yang boleh merangkumi mod teks, visual dan audio Semua input dan output diproses oleh satu rangkaian saraf.
Dan kini, model pertama industri yang berani mencabar GPT-4o telah muncul!
Baru-baru ini, penyelidik dari pasukan Meta mengeluarkan "Model Asas Modal Campuran" - Chameleon.
Alamat kertas: https://arxiv.org/pdf/2405.09818
Seperti GPT-4o, Chameleon menggunakan seni bina Transformer bersatu dan menggunakan teks, imej dan kod mod gabungan.
Dalam cara yang serupa dengan penjanaan teks, imej secara diskret "ditoken" (tokenisasi), dan akhirnya menjana dan menyimpulkan teks dan jujukan imej bersilang.
Dengan pendekatan "gabungan awal" ini, semua saluran paip dipetakan ke ruang perwakilan biasa dari awal, jadi model boleh memproses teks dan imej dengan lancar.
Kandungan berbilang modal yang dijana oleh Chameleon
Pada masa yang sama, reka bentuk sedemikian membawa cabaran teknikal yang ketara kepada latihan model.
Sehubungan itu, pasukan penyelidik Meta telah memperkenalkan satu siri inovasi seni bina dan teknologi latihan.
Hasilnya menunjukkan bahawa dalam tugasan teks biasa, prestasi 34 bilion parameter Chameleon (dilatih dengan 10 trilion token berbilang modal) adalah bersamaan dengan Gemini-Pro.
Menyegarkan SOTA pada jawapan soalan visual dan tanda aras anotasi imej, prestasinya hampir dengan GPT-4V.
Walau bagaimanapun, kedua-dua GPT-4o dan Chameleon adalah penerokaan awal generasi baharu model asas pelbagai mod "asli" hujung ke hujung.
Pada persidangan GTC 2024, Lao Huang menerangkan satu langkah penting ke arah visi muktamad AGI - kebolehoperasian pelbagai mod.
Pelepasan Chameleon hanyalah tindak balas terpantas kepada GPT-4o.
Sesetengah netizen berkata bahawa token masuk dan token keluar, yang mustahil untuk dijelaskan.
Sesetengah orang juga mendakwa bahawa OOS akan mengejar penyelidikan yang sangat kukuh yang dikeluarkan selepas kelahiran GPT-4o.
Walau bagaimanapun, pada masa ini model Chameleon menyokong modaliti yang dijana, terutamanya teks imej. Keupayaan pertuturan dalam GPT-4o tiada.
Kata netizen, lepas tu baru tambah modaliti lain (audio), kembangkan set data latihan, dan "masak" sekejap, kita akan dapat GPT-4o...?
Meta "I Saya sangat berbangga untuk menyokong pasukan ini Mari kita mengambil langkah ke arah menjadikan GPT-4o lebih dekat dengan komuniti sumber terbuka," kata pengarah pengurusan produk GPT-4o.
Mungkin tidak lama lagi kita akan mendapat versi sumber terbuka GPT-4o.
Seterusnya, mari kita lihat butiran teknikal model Chameleon.
Meta pertama kali dinyatakan dalam kertas Chameleon: Banyak model yang baru dikeluarkan masih tidak melaksanakan "multi-modaliti" hingga akhir.
Walaupun model ini menggunakan kaedah latihan hujung ke hujung, mereka masih memodelkan modaliti berbeza secara berasingan, menggunakan pengekod atau penyahkod berasingan.
Seperti yang dinyatakan pada permulaan, pendekatan ini mengehadkan keupayaan model untuk menangkap maklumat silang modal, dan menyukarkan untuk menjana dokumen berbilang modal yang benar-benar mengandungi sebarang bentuk maklumat.
Untuk memperbaiki kelemahan ini, Meta mencadangkan satu siri model asas "modal campuran" Chameleon - mampu menjana kandungan di mana kandungan teks dan imej digabungkan secara sewenang-wenangnya.
Hasil yang dihasilkan oleh Chameleon, teks dan imej kelihatan berjalin
Model asas yang dipanggil "mod campuran" bermakna Chameleon bukan sahaja menggunakan pendekatan hujung ke hujung untuk melatih dari awal, tetapi juga menggabungkan semua model semasa latihan Menyatakan maklumat dijalin dan dicampur bersama dan diproses menggunakan seni bina bersatu.
Bagaimana untuk mencampurkan maklumat daripada semua modaliti dan mewakilinya dalam seni bina model yang sama?
Jawapannya masih "token".
Selagi semuanya dinyatakan sebagai token, semua maklumat semua modaliti boleh dipetakan ke dalam ruang vektor yang sama, membolehkan Transformer memprosesnya dengan lancar.
Walau bagaimanapun, pendekatan ini akan membawa cabaran teknikal dari segi kestabilan pengoptimuman dan skalabiliti model.
Untuk menyelesaikan masalah ini, kertas kerja ini menginovasi seni bina model dengan sewajarnya dan menggunakan beberapa teknik latihan, termasuk penormalan QK dan Zloss.
Pada masa yang sama, kertas kerja itu juga mencadangkan kaedah penalaan halus LLM teks biasa kepada model berbilang modal.
Untuk mewakili semua modaliti sebagai token, anda terlebih dahulu memerlukan tokenizer yang berkuasa.
Untuk tujuan ini, pasukan Chameleon membangunkan pembahagian imej baharu berdasarkan kertas sebelumnya dalam Meta Berdasarkan buku kod bersaiz 8192, imej dengan spesifikasi 512×512 dikodkan kepada token diskret.
Tokenizer teks adalah berdasarkan pustaka sumber terbuka bahagian ayat yang dibangunkan oleh Google, dan tokenizer BPE yang mengandungi 65536 token teks dan 8192 token imej dilatih.
Untuk merangsang sepenuhnya potensi "modaliti campuran", data latihan juga dipecahkan dan dicampur dengan modaliti yang berbeza dan dipersembahkan kepada model, termasuk teks tulen, imej teks pasangan, dan teks , dokumen berbilang modal dengan imej berjalin.
Data teks biasa termasuk semua data pra-latihan yang digunakan oleh Llama 2 dan CodeLlama, berjumlah 2.9 trilion token.
Pasangan imej teks mengandungi beberapa data awam, berjumlah 1.4 bilion pasangan dan 1.5 trilion token.
Untuk data teks dan imej yang saling berkaitan, kertas kerja ini secara khusus menekankan bahawa ia tidak termasuk data daripada produk Meta, sepenuhnya menggunakan sumber data awam, dan menyusun sejumlah 400 bilion token.
Pralatihan Chameleon dijalankan dalam dua peringkat berasingan, masing-masing menyumbang 80% dan 20% daripada jumlah nisbah latihan.
Peringkat pertama latihan adalah untuk membiarkan model mempelajari data di atas dengan cara yang tidak diselia Pada permulaan peringkat kedua, kurangkan berat yang diperolehi pada peringkat pertama sebanyak 50% dan campurkan data yang lebih berkualiti untuk membolehkannya. model untuk meneruskan pembelajaran.
Apabila model berkembang kepada lebih daripada 8B parameter dan token 1T, masalah ketidakstabilan yang jelas akan berlaku pada peringkat latihan yang lebih akhir.
Memandangkan semua modaliti berkongsi berat model, setiap modaliti nampaknya mempunyai kecenderungan untuk meningkatkan norma dan "bersaing" dengan modaliti lain.
Ini tidak akan menyebabkan banyak masalah pada peringkat awal latihan, tetapi apabila latihan berlangsung dan data melebihi julat ungkapan bf16, akan berlaku fenomena perbezaan kerugian.
Para penyelidik mengaitkan ini dengan invarian terjemahan fungsi softmax Fenomena ini juga dipanggil "logit drift" dalam model mod tunggal.
Oleh itu, kertas kerja mencadangkan beberapa pelarasan seni bina dan kaedah pengoptimuman untuk memastikan kestabilan:
-Penormalan QK (penormalan kunci pertanyaan): gunakan norma lapisan pada pertanyaan dan vektor utama dalam modul perhatian, dengan itu mengawal secara langsung pertumbuhan norma input lapisan softmax.
-Memperkenalkan keciciran selepas lapisan perhatian dan lapisan suapan
-Menggunakan penyelarasan Zloss dalam fungsi kehilangan
Selain daripada sumber data dan seni bina yang telah didedahkan lebih awal kaedah latihan Skala kuasa pengkomputeran.
Model perkakasan ialah NVIDIA A100 dengan memori 80GB Versi 7B menggunakan 1024 GPU secara selari untuk melatih selama kira-kira 860,000 jam GPU melebihi 4.28 juta.
Sebagai sebuah syarikat yang pernah menggunakan sumber terbuka Llama 2, pasukan penyelidik Meta benar-benar bermurah hati Berbanding dengan GPT-4o, yang tidak mempunyai laporan teknikal pun, makalah dengan data dan maklumat berguna ini boleh. digambarkan sebagai "yang paling pemurah".
Dalam penilaian percubaan khusus, penyelidik membahagikannya kepada penilaian manual, ujian keselamatan dan penilaian garis dasar.
Selepas menggunakan empat kali lebih token daripada Llama 2 untuk latihan, Chameleon-34B telah mencapai keputusan yang menakjubkan dalam pelbagai ujian penanda aras mod tunggal.
Dalam penjanaan tugasan teks sahaja, penyelidik membandingkan ciri teks sahaja bagi model pra-latihan (bukan SFT) dengan LLM teks sahaja terkemuka yang lain.
Kandungan penilaian termasuk penaakulan akal, pemahaman bacaan, masalah matematik dan bidang pengetahuan dunia Keputusan penilaian ditunjukkan dalam jadual di bawah.
- Penaakulan Akal Waras dan Kefahaman Bacaan
Boleh diperhatikan berbanding Llama 2, Chameleon-7B dan Chameleon-34B lebih kompetitif. Malah, 34B malah mengatasi Llama-2 70B pada 5/8 tugasan, dan prestasinya bersamaan dengan Mixtral-8x7B.
- Matematik dan Pengetahuan Dunia
Walaupun telah dilatih mengenai modaliti lain, kedua-dua model Chameleon menunjukkan keupayaan matematik yang kukuh.
Pada GSM8k, Chameleon-7B berprestasi lebih baik daripada model Llama 2 skala parameter yang sepadan, dan prestasinya bersamaan dengan Mistral-7B.
Selain itu, Chameleon-34B berprestasi lebih baik daripada Llama 2-70B di maj@1 (61.4 vs 56.8) dan Mixtral-8x7B di maj@32 (77.0 vs 75.1).
Begitu juga, dalam operasi matematik, Chameleon-7B mengatasi Llama 2 dan setanding dengan Mistral-7B pada maj@4, manakala Chameleon-34B mengatasi Llama 2-70B dan hampir dengan Mixtral-8x7B pada maj@4 Performance pada maj@4 (24.7 lwn 28.4).
Secara keseluruhan, prestasi Chameleon melebihi Llama 2 dalam semua aspek dan hampir dengan Mistral-7B/8x7B pada beberapa tugasan.
Dalam tugasan teks ke imej, penyelidik secara khusus menilai dua tugasan khusus: menjawab soalan visual dan anotasi imej.
Chameleon mengalahkan model seperti Flamingo dan Llava-1.5 dalam menjawab soalan visual dan tugasan anotasi imej untuk menjadi SOTA Dalam tugasan teks biasa, ia juga berprestasi sama baik dengan model peringkat pertama seperti Mixtral 8x7B dan Gemini Pro.
Pada masa yang sama, untuk menilai lebih lanjut kualiti kandungan berbilang modal yang dihasilkan oleh model, kertas itu juga memperkenalkan eksperimen penilaian manusia sebagai tambahan kepada ujian penanda aras, dan mendapati bahawa Chameleon-34B berprestasi jauh lebih baik Jauh lebih baik daripada Gemini Pro dan GPT-4V.
Berbanding dengan GPT-4V dan Gemini Pro, hakim manusia masing-masing memperoleh 51.6% dan 60.4 kadar keutamaan.
Rajah di bawah menunjukkan perbandingan prestasi Chameleon dan model garis dasar dalam memahami dan menjana kandungan untuk set gesaan yang pelbagai daripada anotasi manusia.
Setiap soalan dijawab oleh tiga anotor manusia yang berbeza, dengan undian majoriti menjadi jawapan muktamad.
Untuk memahami kualiti anotor manusia dan sama ada soalan itu direka bentuk dengan sewajarnya, penyelidik juga meneliti tahap persetujuan antara anotasi yang berbeza.
Jadual 5 ialah ujian keselamatan yang dijalankan ke atas 20,000 gesaan sumber orang ramai dan 445 interaksi pasukan merah, menyebabkan model itu menghasilkan kandungan yang tidak selamat.
Berbanding dengan Gemini dan GPT-4V, Chameleon sangat berdaya saing apabila berhadapan dengan isyarat yang memerlukan tindak balas mod bercampur-campur.
Seperti yang anda boleh lihat daripada contoh, apabila menyelesaikan tugasan soal jawab, Chameleon bukan sahaja dapat memahami teks input + imej, tetapi juga menambah "gambar" yang sesuai pada kandungan output model.
Selain itu, imej yang dihasilkan oleh Chameleon biasanya kontekstual, menjadikan output kandungan berjalin ini sangat menarik kepada pengguna.
Di akhir kertas kerja, penyumbang yang mengambil bahagian dalam penyelidikan ini juga disenaraikan.
Termasuk pra-latihan, penjajaran dan keselamatan, penaakulan dan penilaian, peserta untuk semua projek.
Antaranya, * mewakili pengarang bersama, † mewakili penyumbang utama, ‡ mewakili ketua aliran kerja dan ♯ mewakili ketua projek.
Atas ialah kandungan terperinci Meta melancarkan 'Chameleon' untuk mencabar parameter GPT-4o, 34B mengetuai revolusi pelbagai modal! Latihan token 10 trilion menyegarkan SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!