Cet article explore l'évolution des modèles GPT d'OpenAI, en se concentrant sur GPT-2 et GPT-3. Ces modèles représentent un changement significatif dans l'approche du modèle de modèle de grande langue (LLM), s'éloignant de la paradigme traditionnelle "pré-formation plus amende" vers une approche "pré-formation uniquement".
Ce changement a été motivé par les observations des capacités de GPT-1 à tis-tirs - sa capacité à effectuer des tâches pour lesquelles il n'avait pas été spécifiquement formé. Pour mieux comprendre cela, plongeons dans les concepts clés:
Partie 1: Le paradigme Shift et ses catalyseurs
Les limites du réglage fin, en particulier pour la vaste gamme de tâches NLP invisibles, ont motivé le passage à l'apprentissage agnostique des tâches. Les grands modèles de réglage fin sur les petits ensembles de données risquent sur le sur-ajustement et la mauvaise généralisation. La capacité humaine à apprendre les tâches linguistiques sans ensembles de données supervisés massifs soutient ce changement.
Trois éléments clés ont facilité ce changement de paradigme:
L'hypothèse de l'échelle: Cette hypothèse postule que des modèles plus importants formés sur des ensembles de données plus importants présentent des capacités émergentes - des capacités qui apparaissent de manière inattendue à mesure que la taille du modèle et l'augmentation des données. GPT-2 et GPT-3 ont servi d'expériences pour tester cela.
Apprentissage dans le contexte: Cette technique consiste à fournir au modèle un enseignement du langage naturel et quelques exemples (démonstrations) au moment de l'inférence, ce qui lui permet d'apprendre la tâche à partir de ces exemples sans mises à jour de gradient. L'apprentissage zéro-shot, un coup et à quelques tirs représente différents niveaux de fourniture d'exemples.
Partie 2: GPT-2 - Un tremplin
GPT-2 construit sur l'architecture de GPT-1 avec plusieurs améliorations: placement de tempête modifié, mise à l'échelle de poids pour les couches résiduelles, vocabulaire élargi (50257), taille de contexte accrue (1024 jetons) et plus grande taille de lot (512). Quatre modèles ont été formés avec des dénombrements de paramètres allant de 117 m à 1,5 milliard. L'ensemble de données de formation, WebText, comprenait environ 45 millions de liens. Alors que le GPT-2 a montré des résultats prometteurs, en particulier dans la modélisation du langage, il a pris du retard par rapport aux modèles de pointe sur des tâches comme la compréhension et la traduction de la lecture.
PARTIE 3: GPT-3 - un bond en avant
GPT-3 a conservé une architecture similaire à GPT-2, différant principalement dans son utilisation de modèles d'attention denses et clairsemés alternés. Huit modèles ont été entraînés, allant de 125 m à 175b. Les données de formation étaient nettement plus grandes et plus diverses, avec une conservation et une pondération minutieuses des ensembles de données en fonction de la qualité.
Les résultats clés de l'évaluation de GPT-3 démontrent l'efficacité de l'hypothèse de l'échelle et de l'apprentissage dans le contexte. Les performances sont mises à l'échelle avec une augmentation des calculs, et des modèles plus importants ont montré des performances supérieures à travers des paramètres d'apprentissage zéro-shot, à un coup et à quelques coups.
Partie 4: Conclusion
GPT-2 et GPT-3 représentent des progrès importants dans le développement de LLM, ouvrant la voie à de futures recherches sur les capacités émergentes, les paradigmes de formation, le nettoyage des données et les considérations éthiques. Leur succès met en évidence le potentiel de l'apprentissage agnostique des tâches et la puissance de l'échelle de la taille du modèle et des données d'entraînement. Cette recherche continue d'influencer le développement de modèles suivants, tels que GPT-3.5 et InstructGpt.
Pour les articles connexes dans cette série, voir:
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!