L'essor des petits modèles.
Le mois dernier, Meta a lancé la série de modèles Llama 3.1, qui comprend le plus grand modèle 405B de Meta à ce jour, ainsi que deux modèles plus petits avec respectivement 70 milliards et 8 milliards de paramètres.
Llama 3.1 est considéré comme inaugurant une nouvelle ère de l'open source. Cependant, bien que les modèles de nouvelle génération soient puissants en termes de performances, ils nécessitent néanmoins une grande quantité de ressources informatiques lors de leur déploiement.
Par conséquent, une autre tendance est apparue dans l'industrie, qui consiste à développer des petits modèles de langage (SLM) qui fonctionnent assez bien dans de nombreuses tâches linguistiques et sont également très peu coûteux à déployer.
Récemment, des recherches de NVIDIA ont montré qu'un élagage structuré du poids combiné à une distillation des connaissances peut progressivement obtenir des modèles de langage plus petits à partir d'un modèle initialement plus grand. M Yann Lecun, lauréat du prix Turing et scientifique en chef en IA de Meta, a également salué la recherche.
Après l'élagage et la distillation, l'équipe de recherche de NVIDIA a raffiné Llama 3.1 8B en Llama-3.1-Minitron 4B et l'a rendu open source. Il s’agit de la première version de Nvidia de la série open source Llama 3.1.Llama-3.1-Minitron 4B surpasse les modèles open source de pointe de taille similaire, notamment Minitron 4B, Phi-2 2.7B, Gemma2 2.6B et Qwen2-1.5B.
L'article pertinent sur cette recherche a été publié dès le mois dernier.
Lien de l'article : https://www.arxiv.org/pdf/2407.14679
Titre de l'article : Modèles de langage compacts via l'élagage et la distillation des connaissancesTaille rend le modèle plus petit et plus mince, et peut être obtenu en supprimant des couches (élagage en profondeur) ou en supprimant des neurones et des têtes d'attention et en intégrant des canaux (élagage en largeur). L'élagage s'accompagne généralement d'un certain degré de recyclage pour restaurer la précision.
Il existe deux méthodes principales de distillation : la mise au point SDG et la distillation classique des connaissances. Ces deux méthodes de distillation sont complémentaires. Cet article se concentre sur les méthodes classiques de distillation des connaissances.
NVIDIA utilise une méthode qui combine l'élagage et la distillation des connaissances classiques pour construire de grands modèles. La figure ci-dessous montre le processus d'élagage et de distillation d'un seul modèle (en haut) et la chaîne d'élagage et de distillation du modèle (en bas). Le processus spécifique est le suivant : 1. NVIDIA commence avec un modèle 15B, évalue l'importance de chaque composant (couche, neurone, tête et canal d'intégration), puis trie et élague le modèle pour atteindre la taille cible : modèle 8B. 2. Utilisez ensuite la distillation du modèle pour une reconversion légère, avec le modèle original comme enseignant et le modèle élagué comme élève. 3. Après l'entraînement, prenez le petit modèle (8B) comme point de départ, taillez-le et distillez-le en un modèle 4B plus petit. Le processus de taille et de distillation du modèle 15B. Le point à noter est qu'avant d'élaguer le modèle, vous devez comprendre quelles parties du modèle sont importantes. NVIDIA propose une stratégie d'évaluation de l'importance pure basée sur l'activation qui calcule simultanément les informations dans toutes les dimensions pertinentes (profondeur, neurone, tête et canaux d'intégration), en utilisant un petit ensemble de données d'étalonnage de 1 024 échantillons, et seule la propagation vers l'avant est requise. Cette approche est plus simple et plus rentable que les stratégies qui reposent sur des informations sur les gradients et nécessitent une rétropropagation. Lors de l'élagage, vous pouvez alterner de manière itérative entre l'élagage et l'estimation de l'importance pour un axe ou une combinaison d'axes donnée. Des études empiriques montrent que l’utilisation d’une seule estimation de l’importance est suffisante et que les estimations itératives n’apportent pas d’avantages supplémentaires.La figure 2 ci-dessous montre le processus de distillation, dans lequel le modèle étudiant en couche N (le modèle élagué) est distillé à partir du modèle enseignant en couche M (le modèle original non élagué). Le modèle étudiant est appris en minimisant une combinaison de perte de sortie intégrée, de perte logit et de pertes spécifiques au codeur du transformateur mappées aux blocs étudiant S et aux blocs enseignant T. Figure 2 : Perte de formation par distillation.
Meilleures pratiques pour l'élagage et la distillationBasé sur des recherches approfondies sur l'ablation sur l'élagage et la distillation des connaissances dans des modèles de langage compacts, NVIDIA résume ses résultats d'apprentissage dans les meilleures pratiques de compression structurées suivantes.
La première consiste à ajuster la taille.Pour former un ensemble de LLM, entraînez d'abord le plus grand, puis taillez et distillez de manière itérative pour obtenir des LLM plus petits. Si vous utilisez une stratégie d'entraînement en plusieurs étapes pour entraîner le plus grand modèle, il est préférable d'élaguer et de recycler le modèle obtenu lors de la dernière étape de l'entraînement.
Réglage précis par l'enseignant Taille en profondeur uniquement
Pour réduire de 8B à 4B, NVIDIA a élagué 16 couches (50%). Ils évaluent d’abord l’importance de chaque couche ou groupe de sous-couches consécutives en les supprimant du modèle et observent une augmentation de la perte de LM ou une diminution de la précision dans les tâches en aval.
La figure 6 ci-dessous montre la précision Winogrande de chaque modèle élagué. Elle montre qu'il est préférable de supprimer les 16e à 31e couches, la 31e couche étant l'avant-dernière couche. La précision à 5 coups du modèle élagué est nettement plus élevée. avec une précision aléatoire (0,5). Nvidia a pris en compte cette idée et a supprimé les couches 16 à 31. Figure 6 : Précision sur la tâche Winogrande lorsque 16 couches sont supprimées.
NVIDIA élague l'intégration (cachée) et les dimensions intermédiaires MLP le long de l'axe de largeur pour compresser Llama 3.1 8B. Plus précisément, ils utilisent la stratégie basée sur l'activation décrite précédemment pour calculer les scores d'importance pour chaque tête d'attention, canal d'intégration et dimension cachée du MLP. Après l'estimation de l'importance, NVIDIA a choisi
pour élaguer la dimension moyenne du MLP de 14336 à 9216.
Taille cachée de 4096 à 3072.
Retenez votre attention sur le nombre de têtes et de couches.
Perlu dinyatakan bahawa selepas pemangkasan sampel tunggal, kehilangan LM pemangkasan lebar adalah lebih tinggi daripada pemangkasan kedalaman. Walau bagaimanapun, selepas tempoh latihan semula yang singkat, arah aliran berubah.
Tanda Aras Ketepatan
NVIDIA menggunakan parameter berikut untuk menyuling model
#🎜##🎜🎜🎜🎜##🎜🎜 #Kadar pembelajaran puncak = 1e-4#🎜🎜 linear Warmup
Cosine Decay Plan
Saiz kelompok global = ###saiz kelompok = 1152🎜🎜 🎜🎜#
Jadual 1 di bawah menunjukkan varian model Llama-3.1-Minitron 4B (pantasan lebar dan pemangkasan kedalaman) berbanding model asal Llama 3.1 8B dan model bersaiz serupa lain pada penanda aras merentas berbilang domain Perbandingan prestasi dalam ujian. Secara keseluruhan, NVIDIA sekali lagi mengesahkan keberkesanan strategi pemangkasan yang luas berbanding pemangkasan mendalam yang mengikut amalan terbaik.untuk Bandingkan.
Untuk mengesahkan sama ada model suling boleh menjadi model arahan yang berkuasa, NVIDIA menggunakan NeMo-Aligner untuk memperhalusi model Llama-3.1-Minitron 4B.Mereka menggunakan data latihan Nemotron-4 340B dan menilai pada IFEval, MT-Bench, ChatRAG-Bench dan Berkeley Function Calling Leaderboard (BFCL) untuk menguji arahan mengikut, main peranan, RAG dan fungsi panggilan fungsi. Akhirnya, telah disahkan bahawa model Llama-3.1-Minitron 4B boleh menjadi model arahan yang boleh dipercayai dan mengatasi prestasi SLM asas yang lain. #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Jadual 2: Jajarkan kadar tepat model penjajaran dengan model penjajaran skala yang serupa.
Tanda Aras Prestasi
NVIDIA memanfaatkan NVIDIA TensorRT-LLM, alat pengoptimuman LLM, alat sumber terbuka ) model Llama 3.1 8B dan Llama-3.1-Minitron 4B dioptimumkan.Varian Llama-3.1-Minitron-4B-Depth-Base adalah yang terpantas, dengan daya pemprosesan purata kira-kira 2.7 kali ganda berbanding Llama 3.1 8B, manakala Llama-3.1-Minitron-4B-Width -Varian asas adalah yang terpantas Purata daya pemprosesan varian adalah kira-kira 1.8 kali ganda daripada Llama 3.1 8B. Penggunaan dalam FP8 juga meningkatkan prestasi ketiga-tiga model sebanyak lebih kurang 1.3x berbanding BF16.
Figur 3. .1 8B ialah BS =32, Llama-3.1-Minitron 4B model BS=64 1x H100 80GB GPU.
KesimpulanMemangkasan dan memperhalusi pengetahuan klasik adalah kaedah yang sangat menjimatkan kos yang boleh menjadi gradual LLM bersaiz lebih kecil boleh mencapai ketepatan yang lebih tinggi daripada melatihnya dari awal dalam semua domain. Ini adalah pendekatan yang lebih cekap dan cekap data daripada penalaan halus pada data sintetik atau pra-latihan dari awal.Untuk maklumat lanjut, sila lihat sumber berikut: https://arxiv.org/abs/2407.14679
# 🎜🎜#https://github.com/NVlabs/Minitron
https://huggingface.co/nvidia/Llama- 3.1-Minitron-4B-Width-Base https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base#🎜🎜Atas ialah kandungan terperinci Nvidia bermain dengan pemangkasan dan penyulingan: mengurangkan separuh parameter Llama 3.1 8B untuk mencapai prestasi yang lebih baik dengan saiz yang sama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!