LLM sangat kukuh, dan untuk mencapai pengembangan LLM yang mampan, adalah perlu untuk mencari dan melaksanakan kaedah yang boleh meningkatkan kecekapannya Pakar hibrid (KPM) adalah ahli penting kaedah jenis ini.
Baru-baru ini, model besar generasi baharu yang dicadangkan oleh pelbagai syarikat teknologi semuanya menggunakan kaedah Campuran Pakar (KPM).
Konsep pakar hibrid pertama kali dilahirkan dalam kertas kerja "Campuran adaptif pakar tempatan" pada tahun 1991. Ia telah diterokai dan dibangunkan secara meluas selama lebih daripada 30 tahun. Dalam beberapa tahun kebelakangan ini, dengan kemunculan dan pembangunan KPM berpagar jarang, terutamanya apabila digabungkan dengan model bahasa berskala besar berdasarkan Transformer, teknologi berusia lebih tiga puluh tahun ini telah memulakan kehidupan baharu.
Rangka kerja KPM adalah berdasarkan idea yang ringkas namun berkuasa: bahagian model yang berbeza (dipanggil pakar) memfokuskan pada tugas yang berbeza atau aspek data yang berbeza.
Apabila menggunakan paradigma ini, untuk input, hanya pakar yang berkaitan dengannya akan mengambil bahagian dalam pemprosesan, supaya kos pengiraan dapat dikawal sambil masih mendapat manfaat daripada sejumlah besar pengetahuan profesional. Oleh itu, KPM boleh meningkatkan keupayaan model bahasa besar tanpa meningkatkan keperluan pengiraan dengan ketara.
Seperti yang ditunjukkan dalam Rajah 1, penyelidikan berkaitan MoE telah berkembang dengan kukuh, terutamanya selepas kemunculan Mixtral-8x7B dan pelbagai LLM peringkat industri seperti Grok-1, DBRX, Arctic, DeepSeek-V2, dll. pada tahun 2024.
Gambar ini datang daripada laporan semakan MoE yang dikeluarkan baru-baru ini oleh pasukan penyelidik dari Universiti Sains dan Teknologi Hong Kong (Guangzhou) dengan jelas dan menyeluruh meringkaskan penyelidikan berkaitan MoE dan mencadangkan kaedah klasifikasi baharu dikelaskan kepada tiga kategori: algoritma, sistem dan aplikasi. . Untuk membantu pembaca memahami gambaran keseluruhan pembangunan semasa MoE, sila baca kertas asal untuk butiran lanjut. Selain itu, kami juga telah menyusun beberapa laporan berkaitan KPM pada akhir artikel.
Pengetahuan latar belakang pakar hibrid
Lapisan pakar campuran yang padat adalah untuk mengaktifkan semua rangkaian pakar {?_1, ... , ?_?} semasa setiap lelaran. Kajian awal KPM lazimnya menggunakan strategi ini. Sejak kebelakangan ini, terdapat beberapa kajian menggunakan MoE padat, seperti EvoMoE, MoLE, LoRAMoE dan DS-MoE. Rajah 2a memberikan struktur lapisan MoE yang padat. Oleh itu, keluaran lapisan MoE padat boleh dinyatakan sebagai:
di mana, ?(x; Θ) ialah nilai get sebelum operasi softmax.Sparse MoE
Walaupun ketepatan ramalan pakar campuran padat secara amnya lebih tinggi, beban pengiraannya juga sangat tinggi. Untuk menyelesaikan masalah ini, kertas kerja Shazeer et al. "Rangkaian saraf yang sangat besar: Lapisan campuran pakar yang berpagar jarang" memperkenalkan lapisan MoE berpagar jarang, yang hanya boleh mengaktifkan rangkaian terpilih dalam setiap ke hadapan lulus subset pakar tertentu. Strategi ini mencapai kesederhanaan dengan mengira jumlah wajaran keluaran pakar teratas, dan bukannya mengagregatkan output semua pakar bersama-sama. Rajah 2b menunjukkan struktur lapisan MoE yang begitu jarang.
Mengikut rangka kerja yang dicadangkan dalam kertas di atas, Persamaan 2.2 boleh diubah suai untuk mencerminkan mekanisme gating yang jarang:
Penjelasan di sini: Fungsi TopK (・, ?) hanya mengekalkan k item pertama nilai asal vektor, sambil menetapkan item lain kepada −∞. Ini diikuti dengan operasi softmax di mana semua sebutan −∞ menjadi lebih kurang sifar. Hiperparameter k harus dipilih mengikut aplikasi khusus ialah ? Menambah istilah hingar R_noise ialah strategi biasa untuk melatih lapisan MoE berpagar jarang, yang menggalakkan penerokaan dalam kalangan pakar dan meningkatkan kestabilan latihan MoE.
Walaupun gating jarang G (x; Θ) boleh mengembangkan ruang parameter model dengan ketara tanpa meningkatkan kos pengiraan yang sepadan, ia juga boleh membawa kepada masalah pengimbangan beban. Masalah pengimbangan beban merujuk kepada pengagihan beban yang tidak sekata di kalangan pakar - sesetengah pakar kerap digunakan, manakala yang lain jarang digunakan atau tidak sama sekali.
Untuk menyelesaikan masalah ini, setiap lapisan KPM mesti menyepadukan fungsi kehilangan tambahan, yang berperanan menggesa setiap kumpulan token diagihkan secara sama rata kepada setiap pakar. Daripada huraian bentuk matematik, mula-mula tentukan kumpulan pertanyaan yang mengandungi token T B = {x_1, x_2, ..., x_?} dan N pakar. Kemudian kerugian pengimbangan beban tambahannya ditakrifkan sebagai:
di mana D_i ialah perkadaran token yang diberikan kepada pakar i, dan P_i ialah perkadaran kebarangkalian gating yang diberikan kepada pakar i. Untuk memastikan kumpulan itu diagihkan sama rata di kalangan pakar N, fungsi kehilangan pengimbangan beban L_{load-balancing} harus diminimumkan. Apabila setiap pakar diberikan bilangan token yang sama D_? = 1/? dan kebarangkalian gating yang sama P_?, keadaan optimum dicapai:
Pada masa ini, beban setiap pakar mencapai keseimbangan . Dalam perkara berikut, melainkan dinyatakan sebaliknya secara eksplisit, istilah "KPM" merujuk hanya kepada "KPM yang jarang".Klasifikasi pakar hibrid
Untuk membantu penyelidik mencari sasaran dalam penyelidikan LLM yang menggunakan KPM dalam jumlah besar, pasukan membangunkan satu set kaedah klasifikasi untuk mengklasifikasikan model ini mengikut tiga aspek: reka bentuk algoritma, reka bentuk sistem dan aplikasi. Rajah 3 menunjukkan kaedah pengelasan ini dan beberapa hasil penyelidikan yang mewakili. Berikut akan memberikan pengenalan yang komprehensif dan mendalam kepada setiap kategori.Reka bentuk algoritma pakar campuran
Fungsi gating
Fungsi gating (juga dikenali sebagai fungsi penghalaan atau penghala) ialah komponen asas bagi semua seni bina KPM Peranannya adalah untuk menyelaraskan penggunaan pengiraan pakar Pengeluaran. Gating boleh dibahagikan kepada tiga jenis berdasarkan kaedah pemprosesan untuk setiap input: jarang, padat dan lembut. Mekanisme gating jarang mengaktifkan beberapa pakar, mekanisme gating padat mengaktifkan semua pakar, dan mekanisme gating lembut termasuk kaedah yang boleh dibezakan sepenuhnya, termasuk gabungan token input dan gabungan pakar. Rajah 4 menggambarkan pelbagai fungsi gating yang digunakan dalam model KPM. Fungsi gating jarang mengaktifkan pakar terpilih apabila memproses setiap token input, yang boleh dianggap sebagai satu bentuk pengiraan bersyarat. Fungsi gating boleh melaksanakan pelbagai bentuk keputusan gating, seperti membuat keputusan binari, membuat keputusan yang jarang atau berterusan, membuat keputusan secara rawak atau deterministik ia telah dikaji secara mendalam dan boleh menggunakan pelbagai bentuk pembelajaran pengukuhan dan sebaliknya Sebarkan untuk melatih. KajianShazeer et al. "Rangkaian saraf yang sangat besar: Lapisan campuran pakar yang berpagar jarang" merintis kaedah heuristik yang boleh dibezakan menggunakan kehilangan pengimbangan beban tambahan, di mana Output pengiraan pakar ditimbang. Ini memperkenalkan kebolehbezaan ke dalam proses gating, di mana pengoptimuman fungsi gating boleh dipandu oleh kecerunan.
Berikut adalah perkara utama bahagian ini, lihat kertas asal untuk butiran:
gating terpilih token
Kerugian tambahan untuk gating terpilih token
kapasiti gating terpilih untuk
Kemajuan lain dalam gating selektif token
Gating selektif token yang tidak boleh dilatih
Gating selektif pakar
Walaupun KPM jarang mempunyai kelebihan dalam kecekapan, hala tuju KPM yang padat masih mengalu-alukan inovasi. Khususnya, pengaktifan padat berprestasi baik pada penalaan halus LoRA-MoE dengan overhed pengiraan yang agak rendah untuk pakar LoRA. Pendekatan ini membolehkan integrasi berbilang LoRA yang cekap dan fleksibel untuk menyelesaikan pelbagai tugas hiliran. Ini mengekalkan keupayaan generatif model asal yang telah dilatih sambil mengekalkan ciri unik setiap LoRA untuk setiap tugas.
formula lembut
Bagi KPM yang jarang, masalah pengoptimuman diskret asas ialah cara memutuskan pakar yang sesuai untuk diberikan kepada setiap token. Untuk memastikan penyertaan pakar yang seimbang dan meminimumkan token yang tidak diperuntukkan, ini selalunya memerlukan kerugian bantuan heuristik. Masalah ini amat ketara dalam senario yang melibatkan data luar pengedaran (seperti kelompok inferens kecil, input baru atau pembelajaran pemindahan).
Sama seperti KPM padat, kaedah KPM lembut juga menggunakan semua pakar semasa memproses setiap input, dengan itu mengekalkan kebolehbezaan penuh dan dengan itu mengelakkan masalah yang wujud dalam kaedah pemilihan pakar diskret. Perbezaan antara MoE lembut dan MoE padat ialah yang pertama mengurangkan keperluan pengiraan melalui gabungan berpagar dan wajaran token input atau pakar.
Pakar
Bahagian ini akan memperkenalkan seni bina rangkaian pakar dalam rangka kerja KPM dan membincangkan fungsi gating yang menyelaraskan pengaktifan pakar ini.
Jenis Rangkaian
Sejak KPM disepadukan ke dalam seni bina Transformer, ia sering menggantikan modul rangkaian hadapan (FFN) dalam model ini. Lazimnya, setiap pakar dalam lapisan MoE mereplikasi seni bina FFN yang digantikannya.
Paradigma menggunakan FFN sebagai pakar ini masih arus perdana, tetapi orang ramai juga telah membuat banyak penambahbaikan padanya.
Hyperparameters
Skala model jarang KPM dikawal oleh beberapa hiperparameter utama, termasuk:
Bilangan pakar setiap lapisan MoE
setiap pakar
KPM Berapa kerap lapisan diletakkan di seluruh model
Pilihan hiperparameter ini adalah penting kerana ia sangat mempengaruhi prestasi dan kecekapan pengiraan model dalam pelbagai tugas. Oleh itu, hiperparameter optimum dipilih berdasarkan keperluan aplikasi khusus dan infrastruktur pengkomputeran. Jadual 2 menunjukkan beberapa konfigurasi model menggunakan MoE.
Selain itu, Jadual 3 menyenaraikan bilangan parameter dan prestasi penanda aras beberapa model sumber terbuka terkini.
Fungsi pengaktifan
Model MoE yang jarang dibina pada seni bina Transformer yang padat menggunakan fungsi pengaktifan yang serupa dengan LLM padat terkemuka seperti BERT, T5, GPT dan LLAMA. Fungsi pengaktifan telah berkembang daripada ReLU kepada pilihan yang lebih maju seperti GeLU, GeGLU, SwiGLU dan banyak lagi.
Arah aliran ini juga meluas kepada komponen lain model MoE, yang selalunya menggabungkan teknik seperti Root Mean Square Layer Normalization (RMSNorm), Grouped Query Attention (GQA), dan Rotated Position Embedding (RoPE). . pemprosesan pada setiap lapisan, manakala kos komunikasi tidak akan melebihi kaedah gating top-1. Pendekatan ini menganggap pakar KPM yang dipilih sebagai bantuan pembetulan ralat untuk FFN padat tetap.
Paradigma yang mengintegrasikan FFN tetap dan KPM jarang sering dipanggil pakar kongsi, seperti yang ditunjukkan dalam Rajah 5b.
Pakar penalaan halus cekap parameter hibrid
Petala halus cekap parameter (PEFT) ialah kaedah untuk meningkatkan kecekapan penalaan halus. Ringkasnya, PEFT hanya mengemas kini sebahagian kecil daripada parameter model asas semasa penalaan halus.
PEFT berjaya, tetapi disebabkan parameternya yang boleh dilatih terhad dan kemungkinan masalah melupakan bencana, kaedah ini sukar digunakan dalam situasi di mana generalisasi kepada berbilang tugasan diperlukan.
Untuk mengurangkan batasan ini, Pakar Cekap Parameter Campuran (MoPE) dilahirkan, yang menyepadukan rangka kerja KPM dan PEFT. MoPE menyepadukan mekanisme gating MoE dan seni bina berbilang pakar, dan setiap pakar dibina menggunakan teknologi PEFT. Gabungan bijak ini boleh meningkatkan prestasi PEFT dalam senario berbilang tugas. Selain itu, memandangkan PEFT digunakan untuk membina pakar, MoPE juga menggunakan lebih sedikit parameter dan lebih cekap sumber berbanding model MoE tradisional. MoPE menggabungkan ciri-ciri pelbagai tugas KPM dan kecekapan sumber PEFT, yang merupakan hala tuju penyelidikan yang sangat menjanjikan. Rajah 6 mengelaskan MoPE mengikut kedudukannya dalam seni bina model Transformer. Untuk pengenalan yang lebih terperinci kepada hasil penyelidikan mengenai MoPE, sila rujuk kertas asal. Penyelesaian latihan dan inferens Pakar hibrid semakin maju dan berkembang, dan penyelesaian latihan dan inferens yang berkaitan juga sedang berkembang dan berkembang. Latihan awal dan penyelesaian inferens memerlukan latihan model MoE dari awal dan terus menggunakan konfigurasi model terlatih untuk melakukan inferens. Tetapi kini, banyak paradigma baharu telah muncul dalam latihan dan inferens model KPM, termasuk menggabungkan kelebihan model padat dan jarang untuk saling melengkapi. . Konfigurasi KPM; Teknologi Terhasil daripada MoE Reka Bentuk Sistem Pakar Campuran
Secara umumnya, saiz input GEMM perlu cukup besar untuk menggunakan peranti pengkomputeran sepenuhnya. Oleh itu, pengekodan input digunakan untuk mengagregatkan token input pakar yang sama ke dalam ruang ingatan berterusan, yang ditentukan oleh "pemetaan token-pakar" dalam penghalaan get. Selepas itu, peranan penjadualan Semua-ke-Semua adalah untuk mengedarkan token input kepada pakar yang sepadan pada setiap peranti. Ini diikuti dengan pengiraan penyetempatan pakar. Selepas pengiraan selesai, ia diringkaskan melalui gabungan Semua-ke-Semua, kemudian output dinyahkod, dan susun atur data asal dipulihkan mengikut indeks gating. Selain itu, beberapa penyelidik sedang meneroka sinergi antara paralelisme pakar dan strategi selari sedia ada yang lain (seperti tensor, saluran paip, selari jujukan) untuk meningkatkan kebolehskalaan dan kecekapan model MoE dalam persekitaran teragih berskala besar. Beberapa contoh penyejajaran hibrid diberikan dalam Rajah 8, termasuk (b) data + pakar + selari tensor, (c) data + pakar + selari saluran paip, (d) pakar + selari tensor. Adalah perlu untuk menyedari bahawa terdapat interaksi yang kompleks antara kecekapan pengkomputeran, beban komunikasi, dan penggunaan memori Pilihan strategi selari teragih akan mempengaruhinya dan juga akan dipengaruhi oleh konfigurasi perkakasan yang berbeza. Oleh itu, apabila menggunakan strategi untuk aplikasi praktikal, pertukaran yang teliti mesti dibuat dan pelarasan mesti dibuat pada senario tertentu. Dans le domaine des grands modèles de langage (LLM) actuellement dominé par Transformer, le paradigme de l'expert mixte (MoE) est très attractif car il peut améliorer considérablement les capacités du modèle sans introduire d'exigences informatiques excessives dans les étapes de formation et d'inférence. Ce type de technologie peut améliorer considérablement les performances du LLM sur une variété de tâches en aval, et même créer des applications d'IA qui dépassent les niveaux humains. Des rumeurs courent selon lesquelles GPT-4, qui est si puissant, pourrait également adopter une sorte d'architecture MoE composée de 8 experts avec 220 milliards de paramètres, formés sur divers ensembles de données et tâches, et utilisant un processus de raisonnement de 16 itérations. Pour plus de détails sur cette rumeur, veuillez vous référer au rapport sur ce site « La « révélation » ultime : l'architecture du modèle GPT-4, le coût de la formation et les informations sur l'ensemble de données ont été révélées ». Il n’est donc pas surprenant que le MoE s’épanouit dans le traitement du langage naturel, la vision par ordinateur, les systèmes de recommandation et les applications multimodales. Ces applications nécessitent essentiellement l'utilisation de calculs conditionnels pour augmenter considérablement le nombre de paramètres du modèle afin d'améliorer les performances du modèle dans des coûts de calcul fixes, ou pour mettre en œuvre une sélection dynamique d'experts via un mécanisme de contrôle pour obtenir un apprentissage multitâche efficace. . L'équipe a également présenté des applications représentatives du MoE dans ces différents domaines, qui peuvent aider les lecteurs à comprendre comment utiliser le MoE pour des tâches spécifiques. Voir l'article original pour plus de détails. Défis et opportunités Des experts hybrides, puissants, réduisent les coûts, améliorent les performances. Même si les perspectives sont bonnes, des défis subsistent. Dans cette section, l'équipe trie les principaux défis liés au MoE et souligne les futures orientations de recherche qui devraient permettre d'obtenir des résultats importants. Ces défis et orientations de recherche sont brièvement énumérés ci-dessous, et veuillez consulter l'article original pour plus de détails. Stabilité de la formation et équilibrage de charge Évolutivité et surcharge de communication Spécialisation et collaboration d'experts Activation clairsemée et efficacité informatique Généralisation et robustesse Interprétabilité et transparence Architecture experte optimale Intégration avec les frameworks existants Lecture approfondie : rapports liés au MoE Basique : Frontière : grands modèles multimodaux clairsemés, le modèle 3B MoE-LLaVA est comparable à LLaVA- 1.5- 7B CVPR 2023 | modèle de base pour l'apprentissage visuel multi-tâches Google Gemini 1.5 est lancé rapidement : architecture MoE, 1 million de contextes Un seul 4090 inférable, 200 milliards de grands modèles clairsemés "Tiangong MoE" open source Un lien magnétique balaie AI Circle, une graine de 87 Go directement open source modèle MoE 8x7B Un million de jetons, modèle MoE super puissant open source, performances proches de GPT-4-Turbo
Ringkasnya, pembangunan teknologi terbitan KPM mendedahkan trend: KPM mempunyai lebih banyak fungsi dan semakin mudah disesuaikan dengan bidang yang berbeza.
Atas ialah kandungan terperinci Algoritma, sistem dan aplikasi, pemahaman komprehensif pakar hibrid (KPM) dari tiga perspektif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!