Selon les informations de ce site du 27 juin, une équipe de recherche de l'Université de Californie à Santa Cruz a développé une nouvelle méthode capable d'exécuter un grand langage avec une échelle de 1 milliard de paramètres en utilisant seulement 13W de puissance (équivalente à la puissance d'une ampoule LED moderne) Modèle. À titre de comparaison, un GPU de niveau centre de données pour les tâches de modèle de langage volumineux nécessite environ 700 W.
Sous la vague de l'IA, les principaux axes de recherche de nombreuses entreprises et institutions sont l'application et le raisonnement, et des indicateurs tels que l'efficacité sont rarement pris en compte. Pour atténuer cette situation, le chercheur a éliminé la technique intensive de multiplication matricielle et a proposé une solution « ternion », qui n'a que trois valeurs de moins un, zéro ou positif un.
L'équipe a également créé du matériel personnalisé à l'aide d'un circuit hautement personnalisé appelé FPGA (Field-Programmable Gate Array), leur permettant de maximiser toutes les fonctionnalités d'économie d'énergie du réseau neuronal.
Lorsqu'il fonctionne sur du matériel personnalisé, les mêmes performances que les modèles haut de gamme comme le Meta's Llama peuvent être obtenues, mais avec un cinquantième de la puissance du réseau neuronal des configurations conventionnelles.
Cette conception de réseau neuronal peut également être utilisée pour fonctionner sur des GPU standard couramment utilisés dans l'industrie de l'intelligence artificielle. Les résultats des tests montrent que par rapport aux réseaux neuronaux basés sur la multiplication matricielle, l'utilisation de la mémoire n'est que d'un dixième.
Une adresse de référence est jointe à ce site
Les chercheurs exécutent un grand modèle de langage très performant sur l'énergie nécessaire pour alimenter une ampoule
Modélisation linguistique évolutive sans MatMul
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!