Xi Xiaoyao Science and Technology Talk Original
Auteur | Xiaoxi, Python
Si vous êtes novice en matière de grands modèles, que penserez-vous lorsque vous verrez pour la première fois l'étrange combinaison de ces mots GPT, PaLm et LLaMA ? Si je vais plus loin et que je vois des mots étranges comme BERT, BART, RoBERTa et ELMo apparaître les uns après les autres, je me demande si, en tant que novice, je vais devenir fou ?
Même un vétéran qui fait partie du petit cercle de la PNL depuis longtemps, avec la vitesse de développement explosive des grands modèles, peut être confus et incapable de suivre le développement rapide de nouveaux et rapides grands modèles. . À ce stade, vous devrez peut-être demander un examen de grand modèle pour vous aider ! Cette revue à grande échelle « Exploiter la puissance des LLM en pratique : une enquête sur ChatGPT et au-delà » lancée par des chercheurs d'Amazon, de la Texas A&M University et de la Rice University nous fournit un moyen de construire un « arbre généalogique ». passé, présent et futur des grands modèles représentés par ChatGPT, et sur la base des tâches, il a construit un guide pratique très complet pour les grands modèles, nous a présenté les avantages et les inconvénients des grands modèles dans différentes tâches, et a enfin souligné l'actuel risques et défis du modèle.
Titre de l'article :
Exploiter la puissance des LLM en pratique : une enquête sur ChatGPT et au-delà
Lien de l'article : https://www.php.cn/link/f50fb34f27bd263e6be8ffcf8967ced0
Page d'accueil du projet : https:// www.php.cn/link/968b15768f3d19770471e9436d97913c
La recherche de la "source de tout mal" des grands modèles devrait probablement commencer par l'article "L'attention est tout ce dont vous avez besoin ", basé sur cet article À partir de Transformer, un modèle de traduction automatique composé de plusieurs groupes d'Encoder et de Decoder proposé par l'équipe Google Machine Translation, le développement de grands modèles a généralement suivi deux voies. L'une consiste à abandonner la partie Décodeur et utilisez uniquement l'Encoder comme modèle de pré-formation pour l'encodeur , dont le représentant le plus célèbre est la famille Bert. Ces modèles ont commencé à essayer la méthode de « pré-formation non supervisée » pour mieux utiliser les données de langage naturel à grande échelle qui sont plus faciles à obtenir que d'autres données, et la méthode « non supervisée » est le modèle de langage masqué (MLM), via Let Mask Remove. quelques mots dans la phrase et laissez le modèle apprendre la capacité d'utiliser le contexte pour prédire les mots supprimés par Mask. Lorsque Bert est sorti, il était considéré comme une bombe dans le domaine de la PNL. En même temps, SOTA était utilisé dans de nombreuses tâches courantes de traitement du langage naturel, telles que l'analyse des sentiments, la reconnaissance d'entités nommées, etc. À l'exception de Bert et ALbert proposés. par Google, des représentants exceptionnels de la famille Bert. À cela s'ajoutent ERNIE de Baidu, RoBERTa de Meta, DeBERTa de Microsoft, etc.
Malheureusement, l'approche de Bert n'a pas réussi à briser la loi d'échelle, et ce point est fait par la force principale des grands modèles actuels, c'est-à-dire une autre façon de développer de grands modèles, en abandonnant la partie Encodeur et en se basant sur le Décodeur. fait partie de GPT La famille l'a vraiment fait. Le succès de la famille GPT vient de la découverte surprenante d'un chercheur : "L'augmentation de la taille du modèle de langage peut améliorer considérablement la capacité d'apprentissage par tir zéro (zero-shot) et par petits coups (quelques coups)." avec la famille Bert basée sur un réglage fin, il y a une grande différence, et c'est aussi la source du pouvoir magique des modèles linguistiques à grande échelle d'aujourd'hui. La famille GPT est formée sur la base de la prédiction du mot suivant à partir de la séquence de mots précédente. Par conséquent, GPT n'est initialement apparu que comme un modèle de génération de texte, et l'émergence de GPT-3 a été un tournant dans le destin de la famille GPT. 3 a été le premier. Il montre aux gens les capacités magiques apportées par les grands modèles au-delà de la génération de texte elle-même, et montre la supériorité de ces modèles de langage autorégressifs. À partir de GPT-3, les actuels ChatGPT, GPT-4, Bard, PaLM et LLaMA ont prospéré, ouvrant la voie à l'ère actuelle des grands modèles.
De la fusion des deux branches de cet arbre généalogique, nous pouvons voir les débuts de Word2Vec et FastText, jusqu'aux débuts de l'exploration d'ELMo et d'ULFMiT dans les modèles de pré-formation, jusqu'à l'émergence de Bert, qui est devenu un succès hit, et à la culture silencieuse de la famille GPT. Jusqu'aux débuts époustouflants de GPT-3, ChatGPT s'est envolé dans le ciel. En plus de l'itération de la technologie, nous pouvons également voir qu'OpenAI a adhéré silencieusement à son propre chemin technique et a finalement suivi. est devenu le leader incontesté des LLM. Nous avons vu que Google a fait de gros efforts dans l'ensemble de l'architecture du modèle Encoder-Decoder. Nous avons vu les contributions théoriques significatives apportées par Meta, la participation généreuse et continue de Meta à de grands projets open source de modèles, et bien sûr nous. Nous avons également vu la tendance des LLM à devenir progressivement des sources « fermées » depuis GPT-3. Il est très probable que la plupart des recherches devront évoluer vers des recherches basées sur les API.
En dernière analyse, le pouvoir magique des grands modèles vient-il du GPT ? Je pense que la réponse est non. Presque chaque avancée en matière de capacités de la famille GPT a apporté des améliorations importantes en termes de quantité, de qualité et de diversité des données de pré-entraînement. Les données d'entraînement du grand modèle comprennent des livres, des articles, des informations sur des sites Web, des informations de code, etc. Le but de la saisie de ces données dans le grand modèle est de refléter pleinement et précisément « l'être humain » en indiquant au grand modèle les mots, la grammaire, la syntaxe et les informations sémantiques permettent au modèle d'acquérir la capacité de reconnaître le contexte et de générer des réponses cohérentes pour capturer les aspects de la connaissance humaine, de la langue, de la culture, etc.
D'une manière générale, face à de nombreuses tâches PNL, nous pouvons les classer en échantillons zéro, quelques échantillons et échantillons multiples du point de vue des informations d'annotation des données. Sans aucun doute, les LLM sont la méthode la plus appropriée pour les tâches sans tir. Sans aucune exception, les grands modèles sont loin devant les autres modèles pour les tâches sans tir. Dans le même temps, les tâches à quelques échantillons sont également très adaptées à l'application de grands modèles. En affichant des paires « question-réponse » pour les grands modèles, les performances des grands modèles peuvent être améliorées. Cette approche est également généralement appelée en contexte. Apprentissage. Bien que les grands modèles puissent également couvrir des tâches multi-échantillons, un réglage fin peut rester la meilleure méthode. Bien entendu, sous certaines contraintes telles que la confidentialité et l'informatique, les grands modèles peuvent toujours être utiles.
Dans le même temps, le modèle affiné est susceptible d'être confronté au problème des changements dans la distribution des données d'entraînement et des données de test. De manière significative, le modèle affiné fonctionne généralement très mal sur les données OOD. En conséquence, les LLM fonctionnent bien mieux car ils n'ont pas de processus d'ajustement explicite. L'apprentissage par renforcement ChatGPT typique basé sur la rétroaction humaine (RLHF) fonctionne bien dans la plupart des tâches de classification et de traduction hors distribution. Il fonctionne également bien sur DDXPlus, un. ensemble de données de diagnostic médical conçu pour l'évaluation OOD.
Souvent, l'affirmation « Les grands modèles sont bons ! » est suivie de la question « Comment utiliser les grands modèles et quand les utiliser face à un problème spécifique ? tâche , faut-il choisir le réglage fin, ou commencer par le grand modèle sans réfléchir ? Cet article résume un « flux de décision » pratique pour nous aider à déterminer s'il convient d'utiliser un grand modèle basé sur une série de questions telles que « s'il est nécessaire d'imiter les humains », « si des capacités de raisonnement sont requises », « s'il est multi -tâches".
Du point de vue de la classification des tâches PNL :
Il existe actuellement de nombreuses tâches PNL avec une grande quantité de données annotées riches, et le modèle de réglage fin peut encore contrôler fermement l'avantage, dans dans la plupart des cas, les LLM de l'ensemble de données sont inférieurs aux modèles affinés, en particulier :
En bref, pour la plupart des tâches traditionnelles de compréhension du langage naturel, les modèles affinés fonctionnent mieux. Bien entendu, le potentiel des LLM est limité par le projet Prompt qui pourrait ne pas être entièrement publié (en fait, le modèle de réglage fin n'a pas atteint la limite supérieure, dans certains domaines de niche, comme le texte divers). Classification, NLI contradictoire et autres tâches, les LLM ont des capacités plus fortes. La capacité de généralisation conduit donc à de meilleures performances, mais pour l'instant, pour des données étiquetées de manière mature, le réglage fin du modèle peut encore être la solution optimale pour les tâches traditionnelles.
Par rapport à la compréhension du langage naturel, la génération du langage naturel peut être le théâtre de grands modèles. L'objectif principal de la génération de langage naturel est de créer des séquences cohérentes, fluides et significatives. Elle peut généralement être divisée en deux catégories : l'une est constituée de tâches représentées par la traduction automatique et le résumé d'informations de paragraphe, et l'autre est l'écriture naturelle plus ouverte. comme rédiger des e-mails, rédiger des actualités, créer des histoires, etc. Plus précisément :
Les tâches à forte intensité de connaissances font généralement référence à des tâches qui reposent fortement sur des connaissances de base, une expertise spécifique à un domaine ou des connaissances générales du monde. Les tâches à forte intensité de connaissances sont différentes de la simple reconnaissance de formes et de l'analyse syntaxique et nécessitent une analyse approfondie. compréhension de notre réalité. Le monde a du « bon sens » et peut l'utiliser correctement, en particulier :
Il convient de noter que dans les tâches à forte intensité de connaissances, les grands modèles ne sont pas toujours efficaces. Parfois, les grands modèles peuvent être inutiles ou même erronés pour les connaissances du monde réel. De telles connaissances « incohérentes » rendent parfois les grands modèles inutiles. pire que les suppositions aléatoires. Par exemple, la tâche Redéfinir les mathématiques nécessite que le modèle choisisse entre le sens original et le sens redéfini. Cela nécessite la capacité d'être exactement à l'opposé des connaissances apprises par les modèles de langage à grande échelle. Par conséquent, les performances des LLM sont encore pires que celles des modèles de langage à grande échelle. aléatoire.
L'évolutivité des LLM peut considérablement améliorer la capacité des modèles de langage pré-entraînés. Lorsque la taille du modèle augmente de façon exponentielle, certaines capacités de raisonnement clés seront progressivement activées avec l'expansion des paramètres, le raisonnement arithmétique des LLM. la raison avec le bon sens est extrêmement puissante, visible à l'œil nu. Dans ce type de tâches :
En plus du raisonnement, à mesure que la taille du modèle augmente, certaines capacités émergentes apparaîtront également dans le modèle, telles que les opérations de coïncidence, la dérivation logique, la compréhension de concepts, etc. Cependant, il existe également un phénomène intéressant appelé « phénomène en forme de U », qui fait référence au phénomène selon lequel, à mesure que l'échelle des LLM augmente, les performances du modèle augmentent d'abord, puis commencent à décliner. Le représentant typique est le problème de la redéfinition des mathématiques. Ces phénomènes nécessitent des recherches plus approfondies et plus détaillées sur les principes des grands modèles.
Les grands modèles feront inévitablement partie de notre travail et de notre vie pendant longtemps dans le futur, et pour un si "grand gars" très interactif avec nos vies, en plus de la performance , efficacité et coût En plus d'autres problèmes, le problème de sécurité des modèles de langage à grande échelle est presque la priorité absolue parmi tous les défis auxquels sont confrontés les grands modèles. L'hallucination des machines est un problème majeur pour les grands modèles qui n'a actuellement aucune excellente solution. la sortie des grands modèles présente des écarts ou des hallucinations néfastes qui peuvent avoir de graves conséquences pour l'utilisateur. Dans le même temps, à mesure que la « crédibilité » des LLM augmente, les utilisateurs peuvent devenir trop dépendants des LLM et croire qu'ils peuvent fournir des informations précises. Cette tendance prévisible augmente les risques de sécurité des grands modèles.
En plus des informations trompeuses, en raison de la haute qualité et du faible coût du texte généré par les LLM, les LLM peuvent être exploités comme outils d'attaques telles que la haine, la discrimination, la violence et la désinformation. Les LLM peuvent également être attaqués pour fournir des informations illégales. à des attaquants malveillants. Vol d'informations ou de confidentialité Selon des rapports, des employés de Samsung ont accidentellement divulgué des données top secrètes telles que les attributs du code source du dernier programme et des enregistrements de réunions internes liés au matériel alors qu'ils utilisaient ChatGPT pour gérer leur travail.
De plus, la clé pour savoir si les grands modèles peuvent être appliqués à des domaines sensibles, tels que les soins de santé, la finance, le droit, etc., réside dans la « crédibilité » des grands modèles à l'heure actuelle, à échantillon nul. les modèles ne sont pas fiables. L’adhésivité a tendance à diminuer. Dans le même temps, il a été démontré que les LLM sont socialement biaisés ou discriminatoires, de nombreuses études observant des différences de performance significatives entre les catégories démographiques telles que l'accent, la religion, le sexe et la race. Cela peut entraîner des problèmes « d’équité » pour les grands modèles.
Enfin, si l'on s'éloigne des enjeux sociaux pour faire une synthèse, on peut également se pencher sur l'avenir de la recherche sur les grands modèles. Les principaux défis auxquels sont actuellement confrontés les grands modèles peuvent être classés comme suit :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!