Le secret de l'IA centrée sur les données dans le modèle GPT-IA-php.cn

Traducteur | Zhu Xianzhong

Chonglou

Le secret de lIA centrée sur les données dans le modèle GPT

Image de l'article https://www.php.cn/link/f74412c3c1c8 899f3 c130bb30ed0e363, par l'auteur lui-même Fabriqué par

L'intelligence artificielle fait des progrès incroyables en changeant notre façon de vivre, de travailler et d'interagir avec la technologie. Récemment, un domaine qui a connu des progrès significatifs est le développement de grands modèles de langage (LLM) tels que GPT-3, ChatGPT et GPT-4. Ces modèles sont capables d'effectuer des tâches linguistiques telles que la traduction, le résumé de texte et la réponse aux questions avec une précision impressionnante.

Bien qu'il soit difficile d'ignorer la taille toujours croissante des grands modèles de langage, il est tout aussi important de reconnaître que leur succès est en grande partie dû aux grandes quantités de données de haute qualité utilisées pour les entraîner.

Dans cet article, nous fournirons un aperçu des progrès récents dans les modèles de langage à grande échelle du point de vue de l'intelligence artificielle centrée sur les données, en nous référant aux points de vue de notre récent document d'enquête (fin de la littérature 1 et 2) et sur GitHub correspondant ressources techniques. En particulier, nous examinerons de plus près le modèle GPT à travers le prisme de l’intelligence artificielle centrée sur les données, une perspective croissante dans la communauté de la science des données. Nous révélerons le concept d'intelligence artificielle centré sur les données derrière le modèle GPT en discutant de trois objectifs de l'intelligence artificielle centrés sur les données : le développement de données de formation, le développement de données d'inférence et la maintenance des données.

Large Language Model vs. GPT Model

LLM (Large Language Model) est un modèle de traitement du langage naturel qui est entraîné pour déduire des mots dans leur contexte. Par exemple, la fonction la plus basique de LLM est de prédire les jetons manquants en fonction du contexte. Pour ce faire, LLM est formé pour prédire la probabilité de chaque jeton candidat à partir d’énormes quantités de données.

Le secret de lIA centrée sur les données dans le modèle GPT

Exemple illustratif de prédiction de la probabilité de jetons manquants à l'aide d'un grand modèle de langage avec contexte (image fournie par l'auteur lui-même)

Le modèle GPT fait référence à une série de modèles de langage à grande échelle créés par OpenAI, tels que GPT-1, GPT-2, GPT -3, InstructGPT et ChatGPT/GPT-4. Comme d'autres modèles de langage à grande échelle, l'architecture du modèle GPT est fortement basée sur des transformateurs, qui utilisent des intégrations de texte et de position comme entrée et utilisent des couches d'attention pour modéliser les relations entre les jetons.

Le secret de lIA centrée sur les données dans le modèle GPT

Schéma de l'architecture du modèle GPT-1 Cette image provient du document https://www.php.cn/link/c3bfbc2fc89bd1dd71ad5fc5ac96ae69

Le dernier modèle GPT utilise quelque chose de similaire à. GPT-1 L'architecture utilise simplement plus de paramètres de modèle, comporte plus de couches, une longueur de contexte plus grande, une taille de couche cachée, etc.

Le secret de lIA centrée sur les données dans le modèle GPT

Comparaison de différentes tailles de modèles GPT (image fournie par l'auteur)

Qu'est-ce que l'intelligence artificielle centrée sur les données ?

L'intelligence artificielle centrée sur les données est une nouvelle façon émergente de réfléchir à la manière de construire des systèmes d'intelligence artificielle. Andrew Ng, pionnier de l’intelligence artificielle, défend cette idée.

L'intelligence artificielle centrée sur les données est la discipline de l'ingénierie systématique des données utilisées pour construire des systèmes d'intelligence artificielle.

——Andrew Ng

Dans le passé, nous nous concentrions principalement sur la création de meilleurs modèles (intelligence artificielle centrée sur le modèle) lorsque les données sont fondamentalement inchangées. Cependant, cette approche peut poser des problèmes dans le monde réel car elle ne prend pas en compte différents problèmes pouvant survenir dans les données, tels que des étiquettes inexactes, des duplications et des biais. Par conséquent, le « surajustement » d’un ensemble de données ne conduit pas nécessairement à un meilleur comportement du modèle.

En revanche, l’IA centrée sur les données se concentre sur l’amélioration de la qualité et de la quantité des données utilisées pour créer des systèmes d’IA. Cela signifie que l’attention sera concentrée sur les données elles-mêmes, alors que le modèle est relativement figé. Une approche centrée sur les données pour développer des systèmes d’IA a un plus grand potentiel dans le monde réel, car les données utilisées pour la formation déterminent en fin de compte les capacités maximales du modèle.

Il convient de noter que le « data-centric » est fondamentalement différent du « data-driven » car ce dernier met uniquement l'accent sur l'utilisation des données pour guider le développement de l'intelligence artificielle, alors que le développement de l'intelligence artificielle repose généralement sur le développement de modèles non centrés sur les données d’ingénierie.

Le secret de lIA centrée sur les données dans le modèle GPT

Comparaison de l'intelligence artificielle centrée sur les données et de l'IA centrée sur les modèles (photo de https://www.php.cn/link/f9afa97535cf7c8789a1c50a2cd83787 auteur de l'article)

Dans l'ensemble, le cadre d'intelligence artificielle centrée sur les données comprend trois objectifs :

Le développement de données de formation consiste à collecter et à générer des données riches et de haute qualité pour prendre en charge la formation de modèles d'apprentissage automatique.
Le développement de données d'inférence consiste à créer de nouveaux ensembles d'évaluation qui peuvent fournir des informations plus granulaires au modèle, ou par des déclencheurs d'entrée de données d'ingénierie. capacités spécifiques du modèle.
La maintenance des données consiste à assurer la qualité et la fiabilité des données dans un environnement dynamique. La maintenance des données est essentielle car les données du monde réel ne sont pas créées une seule fois mais nécessitent une maintenance continue.

Cadre d'intelligence artificielle centré sur les données (image tirée du journal https:// Auteur de www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363)

#🎜 🎜#Pourquoi les données sont-elles L’IA centrale qui fait le succès du modèle GPT ?

Il y a quelques mois, Yann LeCun, leader de l'industrie de l'intelligence artificielle, déclarait sur son Twitter que ChatGPT n'était pas nouveau. En fait, toutes les techniques utilisées dans ChatGPT et GPT-4 (Ttransformer et apprentissage par renforcement à partir de feedback humain, etc.) ne sont pas de nouvelles technologies. Cependant, ils ont obtenu des résultats incroyables que les modèles précédents ne pouvaient pas atteindre. Alors, qu’est-ce qui motive leur succès ?

Le secret de lIA centrée sur les données dans le modèle GPT

Tout d'abord, renforcez formation# 🎜🎜#Développement de données. Grâce à de meilleures stratégies de collecte de données, d'étiquetage des données et de préparation des données, la quantité et la qualité des données utilisées pour entraîner les modèles GPT ont considérablement augmenté.

GPT-1 : L'ensemble de données BooksCorpus a été utilisé pour la formation. L'ensemble de données contient 4 629 Mo de texte brut, couvrant des livres dans une gamme de genres, notamment l'aventure, la fantaisie et la romance.

Aucune stratégie d'IA centrée sur les données n'est utilisée.
Résultats de la formation : l'application de GPT-1 sur cet ensemble de données peut améliorer les performances des tâches en aval grâce à un réglage fin.
Utilisation d'une stratégie d'IA centrée sur les données : (1) Contrôler/filtrer les données en utilisant uniquement les liens sortants de Reddit qui ont reçu au moins 3 résultats ; (2) Utiliser les outils Dragnet et Newspaper pour extraire du contenu « propre » ; 3) utilise la déduplication et certaines autres méthodes de purification heuristiques (les détails ne sont pas mentionnés dans l'article).
Résultats de l'entraînement : 40 Go de texte obtenu après purification. GPT-2 obtient des résultats robustes sans échantillon sans réglage fin.
utilise une stratégie d'intelligence artificielle centrée sur les données : (1) Former un classificateur pour filtrer les documents de mauvaise qualité en fonction de la similitude de chaque document avec WebText, qui est un proxy pour les documents de haute qualité. (2) Utilisez MinHashLSH de Spark pour effectuer une déduplication floue sur les documents. (3) Utilisez WebText, les corpus de livres et Wikipédia pour améliorer les données.
Résultats de la formation : 570 Go de texte ont été filtrés à partir de 45 To de texte brut (seulement 1,27 % des données ont été sélectionnées dans ce filtrage de qualité). Dans le cadre d’un échantillon nul, GPT-3 surpasse considérablement GPT-2.
utilise une stratégie d'intelligence artificielle centrée sur les données : (1) Utilisez des réponses rapides fournies par l'homme pour ajuster le modèle grâce à un entraînement supervisé. (2) Collectez des données comparatives pour former un modèle de récompense, puis utilisez le modèle de récompense pour régler GPT-3 grâce à l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF).
Résultats de la formation : InstructGPT montre une meilleure authenticité et moins de biais, c'est-à-dire une meilleure cohérence.

GPT-2 : utilisez WebText pour la formation. Il s'agit d'un ensemble de données interne au sein d'OpenAI créé en supprimant les liens sortants de Reddit.
GPT-3 : La formation de GPT-3 est principalement basée sur le Outil Common Crawl.
InstructGPT : laissez l'évaluation humaine ajuster les réponses GPT-3 pour mieux répondre aux attentes humaines. Ils ont conçu des tests pour les annotateurs, et seuls ceux qui réussissaient les tests étaient éligibles à l'annotation. De plus, ils ont même conçu une enquête pour s'assurer que les annotateurs appréciaient le processus d'annotation.
ChatGPT/GPT-4 : OpenAI n'a pas divulgué de détails. Mais comme nous le savons tous, ChatGPT/GPT-4 suit en grande partie la conception des modèles GPT précédents, et ils utilisent toujours RLHF pour affiner le modèle (éventuellement avec des données/étiquettes plus nombreuses et de meilleure qualité). Il est généralement admis que GPT-4 utilise des ensembles de données plus volumineux à mesure que les pondérations du modèle augmentent.

Deuxièmement, développez des données d'inférence. Étant donné que les modèles GPT récents sont devenus suffisamment puissants, nous pouvons atteindre divers objectifs en ajustant les indices (ou en ajustant les données d'inférence) tout en corrigeant le modèle. Par exemple, nous pouvons effectuer un résumé de texte en fournissant le texte du résumé accompagné d'instructions telles que « résumer » ou « TL;DR » pour guider le processus d'inférence.

Le secret de lIA centrée sur les données dans le modèle GPT

Mise au point rapide, photos fournies par l'auteur

Concevoir les bonnes invites de raisonnement est une tâche difficile. Elle s'appuie fortement sur des techniques heuristiques. Une bonne enquête résume les différentes méthodes d’incitation utilisées jusqu’à présent. Parfois, même des signaux sémantiquement similaires peuvent avoir des résultats très différents. Dans ce cas, un étalonnage basé sur des repères logiciels peut être nécessaire pour réduire l’écart.

Le secret de lIA centrée sur les données dans le modèle GPT

Calibrage basé sur une invite logicielle. Cette image provient de l'article https://arxiv.org/abs/2303.13035v1, avec la permission de l'auteur original

La recherche sur le développement de données d'inférence de modèles de langage à grande échelle en est encore à ses débuts . Dans un avenir proche, davantage de techniques de développement de données d’inférence déjà utilisées dans d’autres tâches pourraient être appliquées au domaine des grands modèles de langage.

En termes de maintenance des données, ChatGPT/GPT-4, en tant que produit commercial, n'est pas seulement une formation réussie, mais nécessite une mise à jour et une maintenance continues. Évidemment, nous ne savons pas comment la maintenance des données est effectuée en dehors d'OpenAI. Par conséquent, nous discutons de certaines stratégies générales d'IA centrées sur les données qui sont susceptibles d'avoir été utilisées ou seront utilisées dans les modèles GPT :

Collecte continue de données : lorsque nous utilisons ChatGPT/GPT-4 Nos conseils/commentaires peuvent à leur tour être utilisés par OpenAI pour faire progresser leurs modèles. Des mesures de qualité et des stratégies d'assurance peuvent avoir été conçues et mises en œuvre pour collecter des données de haute qualité au cours du processus.
Outils de compréhension des données : il est possible que divers outils aient été développés pour visualiser et comprendre les données des utilisateurs, favoriser une meilleure compréhension des besoins des utilisateurs et guider l'orientation des améliorations futures.
Traitement efficace des données : avec la croissance rapide du nombre d'utilisateurs de ChatGPT/GPT-4, un système de gestion de données efficace est nécessaire pour parvenir à une collecte rapide de données.

Le système ChatGPT/GPT-4 est capable de collecter les commentaires des utilisateurs via les deux boutons d'icône « pouce vers le haut » et « pouce vers le bas », comme indiqué sur l'image pour promouvoir davantage le développement de leur système. La capture d'écran ici provient de https://chat.openai.com/chat.

Que peut apprendre la communauté de la science des données de cette vague de grands modèles de langage ?

Le succès des modèles linguistiques à grande échelle a révolutionné l'intelligence artificielle. À l’avenir, les grands modèles linguistiques pourraient révolutionner davantage le cycle de vie de la science des données. À cette fin, nous faisons deux prédictions :

L’intelligence artificielle centrée sur les données devient plus importante. Après des années de recherche, la conception de modèles est devenue très mature, surtout après Transformer. Les données d’ingénierie deviennent le moyen clé (ou peut-être le seul) d’améliorer les systèmes d’IA à l’avenir. De plus, lorsque le modèle devient suffisamment puissant, nous n’avons pas besoin de l’entraîner dans notre travail quotidien. Au lieu de cela, il nous suffit de concevoir des données d'inférence appropriées (ingénierie juste à temps) pour explorer les connaissances du modèle. Par conséquent, la recherche et le développement d’une IA centrée sur les données seront le moteur des progrès futurs.
Les grands modèles de langage permettront de meilleures solutions d'intelligence artificielle centrées sur les données. De nombreuses tâches fastidieuses de science des données peuvent être effectuées plus efficacement à l’aide de grands modèles de langage. Par exemple, ChaGPT/GPT-4 permet déjà d’écrire du code opérationnel pour traiter et nettoyer les données. De plus, de grands modèles de langage peuvent même être utilisés pour créer des données destinées à la formation. Par exemple, des travaux récents ont montré que l’utilisation de grands modèles de langage pour générer des données synthétiques peut améliorer les performances des modèles dans l’exploration de textes cliniques.

Le secret de lIA centrée sur les données dans le modèle GPT

Utilisez un grand modèle de langage pour générer des données synthétiques pour entraîner le modèle, l'image ici provient de l'article https://arxiv.org/abs/2303.04360, avec l'autorisation de l'auteur original

Informations de référence

J'espère que cet article vous inspirera dans votre propre travail. Vous pouvez en savoir plus sur les frameworks d'IA centrés sur les données et sur leurs avantages pour les grands modèles de langage dans les articles suivants :

［1］Une revue de l'intelligence artificielle centrée sur les données.

[2]Les perspectives et les défis de l'intelligence artificielle centrée sur les données.

Notez que nous maintenons également un Référentiel de code GitHub, qui mettra régulièrement à jour les ressources d'intelligence artificielle pertinentes centrées sur les données.

Dans les prochains articles, j'approfondirai les trois objectifs de l'intelligence artificielle centrée sur les données (développement de données de formation, développement de données d'inférence et maintenance des données) et présenterai des méthodes représentatives.

Présentation du traducteur

Zhu Xianzhong, rédacteur en chef de la communauté 51CTO, blogueur expert 51CTO, conférencier, professeur d'informatique dans une université de Weifang et vétéran de l'industrie de la programmation indépendante.

Titre original : Quels sont les concepts d'IA centrés sur les données derrière les modèles GPT ?, auteur : Henry Lai

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!