Les très grands modèles avec des centaines de milliards ou des milliards de paramètres ont besoin de quelqu'un pour les étudier, tout comme les grands modèles avec des milliards ou des dizaines de milliards de paramètres.
Tout à l'heure, Yann LeCun, scientifique en chef de l'IA chez Meta, a annoncé avoir "open source" une nouvelle grande série de modèles - LLaMA (Large Language Model Meta AI), avec des paramètres allant de 7 milliards à 65 milliards. Les performances de ces modèles sont excellentes : le modèle LLaMA avec 13 milliards de paramètres peut surpasser GPT-3 (175 milliards de paramètres) « sur la plupart des benchmarks » et peut fonctionner sur un seul GPU V100 tandis que le plus grand modèle paramétrique LLaMA de 65 milliards est comparable ; aux Chinchilla-70B et PaLM-540B de Google.
Comme nous le savons tous, les paramètres sont des variables utilisées par les modèles d'apprentissage automatique pour prédire ou classer en fonction des données d'entrée. Le nombre de paramètres dans un modèle de langage est un facteur clé affectant ses performances. Les modèles plus grands sont généralement capables de gérer des tâches plus complexes et de produire des résultats plus cohérents, ce que Richard Sutton appelle une « leçon amère ». Au cours des dernières années, les grands géants de la technologie ont lancé une course aux armements autour de grands modèles comportant des centaines de milliards et des milliards de paramètres, améliorant considérablement les performances des modèles d’IA.
Cependant, ce type de compétition de recherche visant à concourir pour la « capacité monétaire » n'est pas favorable aux chercheurs ordinaires qui ne travaillent pas pour des géants de la technologie, et entrave leurs recherches sur les principes de fonctionnement des grands modèles et les solutions potentielles aux problèmes. De plus, dans les applications pratiques, davantage de paramètres occuperont plus d’espace et nécessiteront plus de ressources informatiques pour fonctionner, ce qui entraînera des coûts d’application élevés pour les grands modèles. Par conséquent, si un modèle peut obtenir les mêmes résultats qu’un autre modèle avec moins de paramètres, cela représente une augmentation significative de l’efficacité. Ceci est très convivial pour les chercheurs ordinaires et il sera plus facile de déployer le modèle dans des environnements réels. C’est le but des recherches de Meta.
"Je pense maintenant que d'ici un an ou deux, nous exécuterons des modèles de langage avec une partie importante des capacités de ChatGPT sur nos téléphones et ordinateurs portables (haut de gamme)," Simon Willison, chercheur indépendant en intelligence artificielle. analysé le nouveau modèle d'IA de Meta L'impact a été écrit quand.
Afin d'entraîner ce modèle tout en répondant aux exigences d'open source et de reproductibilité, Meta utilise uniquement des ensembles de données accessibles au public, ce qui est différent de la plupart des grands modèles qui s'appuient sur des données non publiques. Ces modèles ne sont souvent pas open source et constituent des actifs privés de grands géants de la technologie. Afin d'améliorer les performances du modèle, Meta s'est entraîné sur davantage de jetons : LLaMA 65B et LLaMA 33B ont été formés sur 1 400 milliards de jetons, et le plus petit LLaMA 7B a également utilisé 1 000 milliards de jetons.
Sur Twitter, LeCun a également montré quelques résultats de continuation de texte en utilisant le modèle LLaMA. Il a été demandé au mannequin de poursuivre : « Saviez-vous que Yann LeCun a sorti un album de rap l'année dernière ? Nous l'avons écouté et voici ce que nous en avons pensé : ____ » En termes d'utilisation commerciale, les différences entre le blog Meta et les déclarations de LeCun sur Twitter ont suscité une certaine controverse.
Meta a déclaré dans un article de blog qu'afin de maintenir l'intégrité et de prévenir les abus, ils publieront leur modèle sous une licence non commerciale en mettant l'accent sur les cas d'utilisation de recherche. L'accès au modèle sera accordé au cas par cas aux chercheurs universitaires, aux organisations affiliées au gouvernement, à la société civile et au monde universitaire, ainsi qu'aux laboratoires de recherche industrielle du monde entier. Les personnes intéressées peuvent postuler au lien suivant :
https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform
LeCun a déclaré que Meta s'engage dans la recherche ouverte et publie tous les modèles à la communauté des chercheurs sous la licence GPL v3 (GPL v3 permet une utilisation commerciale).
Cette déclaration est assez controversée car il n'a pas précisé si le « modèle » ici fait référence au code ou aux poids, ou aux deux. De l’avis de nombreux chercheurs, le poids du modèle est bien plus important que le code.
À cet égard, LeCun a expliqué que ce qui est ouvert sous la licence GPL v3 est le code du modèle.
Certaines personnes pensent que ce niveau d'ouverture n'est pas une véritable « démocratisation de l'IA ».
Actuellement, Meta a téléchargé l'article sur arXiv, et certains contenus ont également été téléchargés sur le référentiel GitHub. Vous pouvez aller le parcourir.
Les grands modèles de langage (LLM) formés sur des corpus de textes à grande échelle ont montré leur capacité à effectuer de nouvelles tâches à partir d'invites de texte ou à partir d'un petit nombre de tâche d'échantillons. Ces propriétés en quelques plans sont apparues pour la première fois lors de la mise à l'échelle de modèles à une échelle suffisamment grande, donnant naissance à une ligne de travail axée sur la mise à l'échelle ultérieure de ces modèles.
Ces efforts reposent sur l'hypothèse selon laquelle davantage de paramètres conduiront à de meilleures performances. Cependant, des travaux récents de Hoffmann et al. (2022) montrent que pour un budget de calcul donné, les meilleures performances ne sont pas obtenues par les modèles les plus grands, mais par des modèles plus petits entraînés sur davantage de données. L'objectif des lois de mise à l'échelle proposées par
Hoffmann et al. (2022) est de déterminer la meilleure façon de mettre à l'échelle la taille des ensembles de données et des modèles dans le cadre d'un budget de calcul d'entraînement spécifique. Cependant, cet objectif ignore le budget d'inférence, qui devient critique lors de la diffusion de modèles de langage à grande échelle. Dans ce cas, étant donné un niveau de performance cible, le modèle privilégié n’est pas le plus rapide à entraîner, mais le plus rapide à déduire. Même s’il peut être moins coûteux d’entraîner un grand modèle pour atteindre un certain niveau de performance, un modèle plus petit dont l’entraînement prend plus de temps sera finalement moins cher en termes d’inférence. Par exemple, bien que Hoffmann et al. (2022) aient recommandé de former un modèle 10B sur des jetons 200B, les chercheurs ont constaté que les performances du modèle 7B continuaient de s'améliorer même après des jetons 1T.
L'objectif de ce travail est de former une famille de modèles de langage pour obtenir des performances optimales avec une variété de budgets d'inférence en s'entraînant sur plus de jetons que ceux généralement utilisés. Le modèle résultant, appelé LLaMA, a des paramètres allant de 7B à 65B et fonctionne de manière compétitive avec les meilleurs LLM existants. Par exemple, bien qu’il soit 10 fois plus petit que GPT-3, LLaMA-13B surpasse GPT-3 sur la plupart des benchmarks.
Les chercheurs affirment que ce modèle contribuera à démocratiser la recherche LLM car il peut fonctionner sur un seul GPU. À des échelles supérieures, le modèle paramétrique LLaMA-65B est également comparable aux meilleurs grands modèles linguistiques tels que Chinchilla ou PaLM-540B.
Contrairement à Chinchilla, PaLM ou GPT-3, ce modèle utilise uniquement des données accessibles au public, ce qui rend ce travail compatible open source, alors que la plupart des modèles existants s'appuient sur des données qui ne sont pas accessibles au public ou non documentées (par exemple Books-2TB ou réseaux sociaux). conversations médiatiques). Il existe bien sûr quelques exceptions, notamment OPT (Zhang et al., 2022), GPT-NeoX (Black et al., 2022), BLOOM (Scao et al., 2022) et GLM (Zeng et al., 2022), Mais aucun ne peut rivaliser avec le PaLM-62B ou le Chinchilla.
Le reste de cet article décrit les modifications apportées par les chercheurs à l'architecture du transformateur et aux méthodes de formation. Les performances du modèle sont ensuite présentées et comparées à d'autres grands modèles de langage sur un ensemble de tests standards. Enfin, nous démontrons les biais et la toxicité des modèles en utilisant certains des derniers benchmarks de la communauté responsable de l’IA.
La méthode de formation utilisée par les chercheurs est similaire à la méthode décrite dans des travaux antérieurs tels que (Brown et al., 2020), (Chowdhery et al., 2022), et est soumise à la mise à l'échelle du Chinchilla. lois (Hoffmann et al., 2022). Les chercheurs ont utilisé un optimiseur standard pour entraîner de grands transformateurs sur de grandes quantités de données textuelles.
Données de pré-entraînement
Comme le montre le tableau 1, l'ensemble de données de formation pour cette étude est un mélange de plusieurs sources, couvrant différents domaines. Dans la plupart des cas, les chercheurs réutilisent des sources de données qui ont été utilisées pour former d'autres grands modèles de langage, mais la restriction ici est que seules les données accessibles au public peuvent être utilisées et qu'elles sont compatibles avec les ressources ouvertes. La combinaison de données et leurs pourcentages dans l'ensemble de formation sont les suivants :
Basée sur des travaux récents sur de grands modèles de langage, cette recherche utilise également l'architecture du transformateur. Les chercheurs se sont appuyés sur diverses améliorations qui ont ensuite été proposées et utilisées dans différents modèles, tels que PaLM. Dans l'article, les chercheurs ont présenté ses principales différences par rapport à l'architecture originale :
Pré-normalisation [GPT3]. Afin d'améliorer la stabilité de la formation, les chercheurs ont normalisé l'entrée de chaque sous-couche du transformateur au lieu de normaliser la sortie. Ils ont utilisé la fonction de normalisation RMSNorm proposée par Zhang et Sennrich (2019).
Fonction d'activation SwiGLU [PaLM]. Les chercheurs ont utilisé la fonction d'activation SwiGLU proposée par Shazeer (2020) pour remplacer la non-linéarité ReLU afin d'améliorer les performances. Ils utilisent respectivement les dimensions 2D, 3D et 4D au lieu de 4D dans PaLM.
Le tableau 4 montre les performances de NaturalQuestions et le tableau 5 montre les performances de TriviaQA. Dans les deux benchmarks, le LLaMA-65B atteint des performances de pointe dans les réglages de zéro et de quelques coups. De plus, LLaMA-13B est tout aussi compétitif sur ces critères, bien qu'il soit entre un cinquième et un dixième de la taille de GPT-3 et de Chinchilla. Le processus d'inférence du modèle est exécuté sur un seul GPU V100. Les chercheurs ont également évalué le modèle sur la base de référence de compréhension en lecture RACE (Lai et al., 2017). La configuration d'évaluation de Brown et al. (2020) est suivie ici et le tableau 6 montre les résultats de l'évaluation. Sur ces benchmarks, LLaMA-65B est compétitif avec PaLM-540B et LLaMA-13B surpasse le GPT-3 de plusieurs points de pourcentage.
Raisonnement mathématique
Dans le tableau 7, les chercheurs l'ont comparé à PaLM et Minerva (Lewkowycz et al., 2022). Sur GSM8k, ils ont observé que LLaMA65B surpassait Minerva-62B, bien qu’il n’ait pas été affiné sur les données mathématiques.
Génération de code
Comme le montre le tableau 8, pour un nombre similaire de paramètres, LLaMA fonctionne mieux que d'autres modèles généraux, tels que LaMDA et PaLM, qui n'ont pas été dédiés formation au code ou mise au point. Sur HumanEval et MBPP, LLaMA dépasse LaMDA de 137B pour les paramètres supérieurs à 13B. LLaMA 65B surpasse également le PaLM 62B, même si son entraînement prend plus de temps.
Compréhension du langage multitâche à grande échelle
Les chercheurs ont utilisé les exemples fournis par le benchmark pour évaluer le modèle dans le cas à 5 coups et montrer les résultats dans le tableau 9 . Sur ce point de référence, ils ont observé que LLaMA-65B était en retard sur Chinchilla70B et PaLM-540B de quelques points de pourcentage en moyenne dans la plupart des domaines. Une explication potentielle est que les chercheurs ont utilisé un nombre limité de livres et d'articles universitaires dans les données de pré-formation, à savoir ArXiv, Gutenberg et Books3, qui totalisaient seulement 177 Go, alors que les modèles ont été formés sur jusqu'à 2 To de livres. Le grand nombre de livres utilisés par Gopher, Chinchilla et PaLM peut également expliquer pourquoi Gopher surpasse GPT-3 sur ce benchmark mais est à égalité sur d'autres benchmarks.
Changements de performances pendant la formation
Pendant la période de formation, les chercheurs ont suivi les performances du modèle LLaMA sur certaines réponses à des questions et des points de repère de bon sens, et les résultats sont présentés dans la figure 2. Les performances s'améliorent régulièrement sur la plupart des benchmarks et sont positivement corrélées à la perplexité de formation du modèle (voir Figure 1).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!