


Le modèle linguistique a-t-il appris à utiliser les moteurs de recherche par lui-même ? Meta AI propose la méthode d'apprentissage auto-supervisée par appel API Toolformer
Dans les tâches de traitement du langage naturel, les grands modèles de langage ont obtenu des résultats impressionnants en matière d'apprentissage à zéro et à quelques coups. Cependant, tous les modèles ont des limites inhérentes qui ne peuvent souvent être résolues que partiellement par des extensions ultérieures. Plus précisément, les limites du modèle incluent l'incapacité d'accéder aux informations les plus récentes, « l'hallucination informationnelle » des faits, la difficulté de comprendre les langages à faibles ressources, le manque de compétences mathématiques pour des calculs précis, etc.
Un moyen simple de résoudre ces problèmes est d'équiper le modèle d'outils externes, comme un moteur de recherche, une calculatrice ou un calendrier. Cependant, les méthodes existantes reposent souvent sur de nombreuses annotations manuelles ou limitent l’utilisation d’outils à des paramètres de tâches spécifiques, ce qui rend difficile la généralisation de l’utilisation de modèles de langage combinés à des outils externes.
Afin de briser ce goulot d'étranglement, Meta AI a récemment proposé une nouvelle méthode appelée Toolformer, qui permet au modèle de langage d'apprendre à « utiliser » divers outils externes.
Adresse papier : https://arxiv.org/pdf/2302.04761v1.pdf
Toolformer a rapidement attiré une grande attention, et certaines personnes ont pensé que ce document résolvait le problème. il y a actuellement de nombreux problèmes avec les grands modèles de langage, et il a fait l'éloge : "C'est l'article le plus important de ces dernières semaines."
Quelqu'un a souligné que Toolformer utilise l'apprentissage auto-supervisé pour permettre aux grands modèles de langage d'apprendre à utiliser certaines API et outils avec seulement quelques échantillons, ce qui est très flexible et efficace :
Certaines personnes pensent même que Toolformer nous rapprochera encore plus de l'intelligence artificielle générale (AGI).
Toolformer obtient une note très élevée car il répond aux besoins pratiques suivants :
- Les grands modèles de langage doivent apprendre à utiliser les outils de manière auto-supervisée, et aucun manuel détaillé n'est nécessaire. annotation. Ceci est essentiel. Le coût de l’annotation manuelle n’est qu’un aspect. Plus important encore, ce que les humains pensent être utile peut être différent de ce que le modèle considère comme utile.
- Les modèles linguistiques nécessitent une utilisation plus complète d'outils qui ne sont pas liés à une tâche spécifique.
Cela brise clairement le goulot d'étranglement mentionné ci-dessus. Examinons de plus près les méthodes et les résultats expérimentaux de Toolformer.
Method
Toolformer est basée sur l'idée de générer des ensembles de données à partir de zéro (Schick et Schütze, 2021b ; Honovich et al., 2022 ; Wang et al., 2022) basés sur de grands modèles de langage avec apprentissage en contexte (ICL) : étant donné seulement quelques échantillons d'humains utilisant l'API, vous pouvez laisser LM annoter un énorme ensemble de données de modélisation de langage avec des appels d'API potentiels, puis utiliser une fonction de perte auto-supervisée pour déterminer quels appels d'API aident réellement l'API ; modèle Prédire les futurs jetons ; et enfin affiner en fonction des appels d'API utiles à LM lui-même.
Étant donné que Toolformer est indépendant de l'ensemble de données utilisé, il peut être utilisé exactement sur le même ensemble de données sur lequel le modèle a été pré-entraîné, ce qui garantit que le modèle ne perd aucune généralité ni capacités de modélisation linguistique.
Plus précisément, le but de cette recherche est de donner au modèle de langage M la possibilité d'utiliser divers outils via des appels API. Cela nécessite que l'entrée et la sortie de chaque API puissent être caractérisées comme une séquence de texte. Cela permet aux appels d'API d'être insérés de manière transparente dans n'importe quel texte donné, avec des jetons spéciaux utilisés pour marquer le début et la fin de chacun de ces appels.
L'étude représente chaque appel API sous forme de tuple
, où a_c est le nom de l'API et i_c est l'entrée correspondante. Étant donné un appel API c avec le résultat correspondant r, cette étude représente la séquence linéarisée d'appels API excluant et incluant son résultat comme :
où,
À partir d'un jeu de données
, l'étude a d'abord transformé cet ensemble de données en un jeu de données C* avec l'ajout d'appels API. Cela se fait en trois étapes, comme le montre la figure 2 ci-dessous : Tout d'abord, l'étude exploite les capacités d'apprentissage en contexte de M pour échantillonner un grand nombre d'appels d'API potentiels, puis exécute ces appels d'API, puis vérifie si les réponses obtenues aident les prédictions. Futur jeton à utiliser comme critère de filtrage. Après filtrage, l'étude fusionne les appels d'API vers différents outils, générant finalement l'ensemble de données C*, et affine M lui-même sur cet ensemble de données.
Expériences et résultats
Cette étude a mené des expériences sur une variété de différentes tâches en aval, et les résultats montrent que : Toolformer (appris à utiliser diverses API) basé sur le paramètre 6.7B pré-entraîné Modèle et outils GPT-J) surpasse considérablement le modèle GPT-3 plus grand et plusieurs autres références sur une variété de tâches.
Cette étude a évalué plusieurs modèles sur les sous-ensembles SQuAD, GoogleRE et T-REx du benchmark LAMA, et les résultats expérimentaux sont présentés dans le tableau 3 ci-dessous :
Pour tester les mathématiques de l'inférence Toolformer capacités,L'étude a mené des expériences sur les benchmarks ASDiv, SVAMP et MAWPS. Les expériences montrent que Toolformer utilise des outils de calcul dans la plupart des cas, ce qui est nettement meilleur que OPT (66B) et GPT-3 (175B).
En termes de réponse aux questions, l'étude a mené des expériences sur trois ensembles de données de réponse aux questions : Questions Web, Questions naturelles et TriviaQA. Toolformer surpasse considérablement les modèles de base de même taille, mais est inférieur au GPT-3 (175B).
En termes de tâches multilingues, cette étude a comparé tous les modèles de base sur Toolformer et MLQA, et les résultats sont présentés dans le tableau 6 ci-dessous :
Afin de étudier l'API du calendrier Pour démontrer leur utilité, cette étude expérimente plusieurs modèles sur TEMPLAMA et un nouvel ensemble de données appelé DATESET. Toolformer surpasse toutes les lignes de base mais n'utilise pas l'outil de calendrier TEMPLAMA.
En plus de valider les améliorations de performances sur diverses tâches en aval, l'étude espère également garantir que les performances de modélisation du langage de Toolformer ne sont pas dégradées en raison du réglage fin des appels d'API. À cette fin, cette étude mène des expériences sur deux ensembles de données de modélisation linguistique à évaluer, et la perplexité du modèle est présentée dans le tableau 8 ci-dessous.
Pour la modélisation du langage sans aucun appel API, l'ajout d'appels API ne coûte rien.
Enfin, les chercheurs ont analysé l'impact de la possibilité de demander de l'aide à des outils externes sur les performances du modèle à mesure que l'échelle du modèle de langage augmente. Les résultats de l'analyse sont présentés dans la figure 4 ci-dessous
.
Les lecteurs intéressés peuvent lire l'article original pour en savoir plus sur les détails de la recherche.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Envoyant des données JSON à l'aide de la bibliothèque Curl de PHP dans le développement de PHP, il est souvent nécessaire d'interagir avec les API externes. L'une des façons courantes consiste à utiliser la bibliothèque Curl pour envoyer le post� ...

De nombreux développeurs de sites Web sont confrontés au problème de l'intégration de Node.js ou des services Python sous l'architecture de lampe: la lampe existante (Linux Apache MySQL PHP) a besoin d'un site Web ...

Configurez la tâche de synchronisation APScheduler en tant que service sur la plate-forme MacOS, si vous souhaitez configurer la tâche de synchronisation APScheduler en tant que service, similaire à Ngin ...

Utilisation alternative des annotations des paramètres Python Dans la programmation Python, les annotations des paramètres sont une fonction très utile qui peut aider les développeurs à mieux comprendre et utiliser les fonctions ...

Comment remplacer la fonction Initialize_agent désactivée dans Langchain? Dans la bibliothèque de Langchain, initialize_agent ...

La communauté technique de questions-réponses à l'ère Chatgpt: Stratégie de réponse de SegmentFault StackOverflow ...

Python Binary Library (.WHL) Méthode de téléchargement explore les difficultés que de nombreux développeurs Python rencontrent lors de l'installation de certaines bibliothèques sur les systèmes Windows. Une solution courante ...

Exploration des codes de vérification de fissuration utilisant Python dans les interactions quotidiennes du réseau, les codes de vérification sont un mécanisme de sécurité courant pour empêcher la manipulation malveillante des programmes automatisés ...
