Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah Transformer akan digoncang sebagai seni bina arus perdana untuk model AI yang besar? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang daripada surat berita industri Week50 2023 ?
Tafsiran khas Mengapa model besar berdasarkan KPM lebih wajar diberi perhatian?Tarikh: 12 Disember
Acara: Mistral AI sumber terbuka model Mixtral 8x7B berdasarkan seni bina MoE (Mixture-of-Experts, Mix of Experts) dan prestasinya mencapai tahap Llama 2 70B dan GPT-3.5" acara telah diadakan Tafsiran lanjutan
Pertama, jelaskan apa itu KPM dan selok-beloknya
1 Konsep:
MoE (Campuran Pakar) adalah model hibrid yang terdiri daripada pelbagai sub-model (iaitu pakar. setiap sub-model Ia adalah model tempatan yang mengkhusus dalam memproses subset ruang input Idea teras KPM ialah menggunakan rangkaian gating untuk memutuskan model mana yang harus dilatih oleh setiap data, dengan itu mengurangkan gangguan antara yang berbeza. jenis sampel.
2. Komponen utama:
Teknologi model pakar campuran (MoE) adalah teknologi pembelajaran mendalam yang dikawal oleh pintu jarang yang terdiri daripada model pakar dan model berpagar merealisasikan pengagihan tugas/data latihan di kalangan pakar yang berbeza model melalui rangkaian berpagar, membolehkan semua orang untuk Setiap model memberi tumpuan kepada tugas yang terbaik, dengan itu mencapai kesederhanaan model
① Dalam latihan rangkaian berpagar, setiap sampel akan diberikan kepada seorang atau lebih pakar; . Pembelajaran ensemble ialah proses melatih pelbagai model (pembelajar asas) untuk menyelesaikan masalah yang sama, dan hanya menggabungkan ramalan mereka (seperti mengundi atau purata). Matlamat utama pembelajaran ensemble adalah untuk meningkatkan prestasi ramalan dengan mengurangkan overfitting dan meningkatkan keupayaan generalisasi. Kaedah pembelajaran ensemble yang biasa termasuk Bagging, Boosting dan Stacking.
Mengapa model besar berasaskan KPM patut diberi perhatian?
1 Secara umumnya, pengembangan skala model akan membawa kepada peningkatan yang ketara dalam kos latihan, dan pengehadan sumber pengkomputeran telah menjadi halangan untuk latihan model intensif berskala besar. Untuk menyelesaikan masalah ini, seni bina model pembelajaran mendalam berdasarkan lapisan MoE yang jarang dicadangkan.2 Model Pakar Campuran Jarang (MoE) ialah seni bina rangkaian saraf khas yang boleh menambah parameter yang boleh dipelajari kepada model bahasa besar (LLM) tanpa meningkatkan kos inferens, manakala penalaan arahan ) ialah teknik untuk melatih LLM mengikut arahan. .
3 Gabungan teknologi penalaan halus arahan MoE+ boleh meningkatkan prestasi model bahasa. Pada Julai 2023, penyelidik dari Google, UC Berkeley, MIT dan institusi lain menerbitkan kertas kerja "Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models", yang membuktikan bahawa model pakar hibrid (MoE) dan penalaan arahan Gabungan ini boleh meningkatkan prestasi model bahasa besar (LLM).① Khususnya, penyelidik menggunakan pengaktifan jarang MoE dalam satu set model pakar hibrid jarang FLAN-MOE yang diperhalusi mengikut arahan, dan menggantikan komponen suapan hadapan lapisan Transformer dengan lapisan MoE untuk menyediakan kapasiti model yang lebih baik dan fleksibiliti pengkomputeran .
② Berdasarkan kaedah di atas, penyelidik mengkaji penalaan halus langsung pada satu tugas hiliran tanpa penalaan arahan, generalisasi beberapa pukulan atau sifar pukulan dalam konteks pada tugas hiliran selepas penalaan arahan, dan dalam penalaan arahan Kemudian kami memperhalusi lagi satu tugas hiliran dan membandingkan perbezaan prestasi LLM di bawah tiga tetapan percubaan.
③ Keputusan eksperimen menunjukkan bahawa tanpa menggunakan penalaan arahan, model MoE selalunya berprestasi lebih teruk daripada model padat dengan kuasa pengiraan yang setanding. Tetapi apabila digabungkan dengan penalaan arahan, perkara berubah. Model MoE yang ditala arahan (Flan-MoE) mengatasi model padat yang lebih besar pada pelbagai tugas, walaupun model MoE hanya satu pertiga sebagai mahal dari segi pengiraan berbanding model padat. Berbanding dengan model padat. Model MoE memperoleh keuntungan prestasi yang lebih ketara daripada penalaan arahan, jadi apabila kecekapan dan prestasi pengkomputeran dipertimbangkan, MoE akan menjadi alat yang berkuasa untuk latihan model bahasa yang besar.
4 Kali ini, model Mixtral 8x7B yang dikeluarkan juga menggunakan rangkaian pakar campuran yang jarang.
① Mixtral 8x7B ialah model penyahkod sahaja. Modul suapan hadapan memilih daripada 8 set parameter yang berbeza. Dalam setiap lapisan rangkaian, untuk setiap token, rangkaian penghala memilih dua daripada lapan kumpulan (pakar) untuk memproses token dan mengagregatkan output mereka.
② Model Mixtral 8x7B sepadan atau mengatasi prestasi Llama 2 70B dan GPT3.5 pada kebanyakan penanda aras, dengan kelajuan inferens 6x lebih pantas.
Kelebihan penting KPM: Apakah sparsity?
1. Dalam model padat tradisional, setiap input perlu dikira dalam model lengkap. Dalam model pakar campuran jarang, hanya beberapa model pakar yang diaktifkan dan digunakan semasa memproses data input, manakala kebanyakan model pakar berada dalam keadaan tidak aktif model. Kelebihan juga merupakan kunci untuk meningkatkan kecekapan latihan model dan proses inferens
.Atas ialah kandungan terperinci PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!