Les grands modèles de langage (LLM) sont entrés en scène avec la sortie de ChatGPT d'Open AI. Depuis, plusieurs entreprises ont également lancé leurs LLM, mais de plus en plus d'entreprises se tournent désormais vers les petits modèles de langage (SLM).
Les SLM prennent de l'ampleur, mais que sont-ils et en quoi diffèrent-ils des LLM ?
Un petit modèle de langage (SLM) est un type de modèle d'intelligence artificielle avec moins de paramètres (considérez cela comme une valeur dans le modèle appris lors de la formation). Comme leurs homologues plus grands, les SLM peuvent générer du texte et effectuer d'autres tâches. Cependant, les SLM utilisent moins d'ensembles de données pour la formation, ont moins de paramètres et nécessitent moins de puissance de calcul pour s'entraîner et s'exécuter.
Les SLM se concentrent sur les fonctionnalités clés et leur faible encombrement signifie qu'ils peuvent être déployés sur différents appareils, y compris ceux qui ne disposent pas de matériel haut de gamme comme les appareils mobiles. Par exemple, le Nano de Google est un SLM intégré entièrement conçu et fonctionnant sur les appareils mobiles. En raison de sa petite taille, Nano peut fonctionner localement avec ou sans connectivité réseau, selon l'entreprise.
En plus de Nano, il existe bien d'autres SLM d'entreprises leaders et émergentes dans le domaine de l'IA. Certains SLM populaires incluent le Phi-3 de Microsoft, le GPT-4o mini d'OpenAI, le Claude 3 Haiku d'Anthropic, le Llama 3 de Meta et le Mixtral 8x7B de Mistral AI.
D'autres options sont également disponibles, que vous pourriez penser être des LLM, mais qui le sont. SLM. Cela est particulièrement vrai si l'on considère que la plupart des entreprises adoptent une approche multimodèle consistant à publier plusieurs modèles de langage dans leur portefeuille, proposant à la fois des LLM et des SLM. Un exemple est GPT-4, qui propose différents modèles, dont GPT-4, GPT-4o (Omni) et GPT-4o mini.
Lorsque nous discutons des SLM, nous ne pouvons pas ignorer leurs grands homologues : les LLM. La clé différence entre un SLM et un LLM est la taille du modèle, qui est mesurée en termes de paramètres.
Au moment d'écrire ces lignes, il n'y a pas de consensus dans l'industrie de l'IA sur le nombre maximum de paramètres qu'un modèle ne doit pas dépasser pour être considéré comme un SLM ou le nombre minimum requis pour être considéré comme un LLM. Cependant, les SLM ont généralement quelques millions à quelques milliards de paramètres, tandis que les LLM en ont plus, allant jusqu'à des milliards.
Par exemple, GPT-3, qui a été publié en 2020, a 175 milliards de paramètres (et le Selon les rumeurs, le modèle GPT-4 en compterait environ 1,76 billion), tandis que les Phi-3-mini, Phi-3-small et Phi-3-small 2024 de Microsoft Les SLM Phi-3-medium mesurent respectivement 3,8, 7 et 14 milliards de paramètres.
Un autre facteur de différenciation entre les SLM et les LLM est la quantité de données utilisées pour la formation. Les SLM sont formés sur de plus petites quantités de données, tandis que les LLM utilisent de grands ensembles de données. Cette différence affecte également la capacité du modèle à résoudre des tâches complexes.
En raison des données volumineuses utilisées dans la formation, les LLM sont mieux adaptés à la résolution de différents types de tâches complexes qui nécessitent un raisonnement avancé, tandis que les SLM sont mieux adaptés à des tâches plus simples. tâches. Contrairement aux LLM, les SLM utilisent moins de données de formation, mais les données utilisées doivent être de meilleure qualité pour obtenir de nombreuses fonctionnalités des LLM dans un petit package.
Pour la plupart des cas d'utilisation, les SLM sont mieux placés pour devenir les modèles courants utilisés par les entreprises et les consommateurs pour effectuer une grande variété de tâches. Bien sûr, les LLM ont leurs avantages et sont plus adaptés à certains cas d'utilisation, comme la résolution de tâches complexes. Cependant, les SLM sont l'avenir pour la plupart des cas d'utilisation pour les raisons suivantes.
Les SLM ont besoin de moins de données pour la formation que les LLM, ce qui en fait l'option la plus viable pour les particuliers et les petites et moyennes entreprises disposant de données de formation, de finances ou des deux limitées. Les LLM nécessitent de grandes quantités de données de formation et, par extension, d'énormes ressources informatiques pour s'entraîner et s'exécuter.
Pour mettre cela en perspective, le PDG d'OpenAI, Sam Altman, a confirmé qu'il leur a fallu plus de 100 millions de dollars pour se former. GPT-4 en parlant lors d'un événement au MIT (selon Wired). Un autre exemple est le LLM OPT-175B de Meta. Meta dit qu'il a été formé à l'aide de 992 GPU NVIDIA A100 de 80 Go, qui coûtent environ 10 000 $ par unité, selon CNBC. Cela porte le coût à environ 9 millions de dollars, sans inclure d'autres dépenses comme l'énergie, les salaires, etc.
Avec de tels chiffres, il n'est pas viable pour les petites et moyennes entreprises de former un LLM. En revanche, les SLM ont une barrière à l’entrée plus faible en termes de ressources et coûtent moins cher à gérer, et ainsi, davantage d’entreprises les adopteront.
La performance est un autre domaine dans lequel les SLM battent les LLM en raison de leur taille compacte. Les SLM ont moins de latence et sont plus adaptés aux scénarios où des réponses plus rapides sont nécessaires, comme dans les applications en temps réel. Par exemple, une réponse plus rapide est préférable dans les systèmes de réponse vocale tels que les assistants numériques.
L'exécution sur l'appareil (nous en parlerons plus tard) signifie également que votre demande n'a pas besoin d'effectuer un déplacement vers des serveurs en ligne et de revenir à répondez à votre requête, ce qui conduit à des réponses plus rapides.
En matière d'IA générative, une chose reste constante : les déchets entrent, les déchets sortent. Les LLM actuels ont été formés à l’aide de grands ensembles de données Internet brutes. Ainsi, ils pourraient ne pas être précis dans toutes les situations. C'est l'un des problèmes de ChatGPT et des modèles similaires et c'est pourquoi vous ne devriez pas faire confiance à tout ce que dit un chatbot IA. D'un autre côté, les SLM sont formés à l'aide de données de meilleure qualité que les LLM et ont donc une plus grande précision.
Les SLM peuvent également être affinés davantage avec une formation ciblée sur des tâches ou des domaines spécifiques, conduisant à une meilleure précision dans ces domaines. zones par rapport aux modèles plus grands et plus généralisés.
Les SLM nécessitent moins de puissance de calcul que les LLM et sont donc idéaux pour les cas d'informatique de pointe. Ils peuvent être déployés sur des appareils de pointe tels que les smartphones et les véhicules autonomes, qui ne disposent pas d'une grande puissance de calcul ou de ressources. Le modèle Nano de Google peut s'exécuter sur l'appareil, ce qui lui permet de fonctionner même lorsque vous ne disposez pas d'une connexion Internet active.
Cette capacité présente une situation gagnant-gagnant pour les entreprises et les consommateurs. Premièrement, c'est une victoire pour la confidentialité, car les données des utilisateurs sont traitées localement plutôt que envoyées vers le cloud, ce qui est important car de plus en plus d'IA sont intégrées dans nos smartphones, contenant presque tous les détails nous concernant. C'est également une victoire pour les entreprises, car elles n'ont pas besoin de déployer et d'exécuter de gros serveurs pour gérer les tâches d'IA.
Les SLM prennent de l'ampleur, avec les plus grands acteurs du secteur, tels qu'Open AI, Google, Microsoft, Anthropic et Meta, publiant de tels modèles. Ces modèles sont plus adaptés aux tâches plus simples, ce pour quoi la plupart d’entre nous utilisent les LLM ; par conséquent, ils sont l'avenir.
Mais les LLM ne mèneront nulle part. Au lieu de cela, ils seront utilisés pour des applications avancées qui combinent des informations provenant de différents domaines pour créer quelque chose de nouveau, comme dans la recherche médicale.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!