Chen Danqi, ancien élève de la classe Tsinghua Yao, a prononcé un dernier discours à l'ACL 2023 !
Le sujet est encore un domaine de recherche très brûlant récemment - comme GPT-3, PaLM et d'autres(grands)modèles linguistiques, ont-ils besoin de s'appuyer sur la récupération pour compenser leurs propres lacunes, afin de mieux mettre en œuvre leurs applications ?
Dans ce discours, elle et trois autres intervenants ont présenté conjointement plusieurs axes de recherche majeurs sur ce sujet, notamment les méthodes de formation, leurs applications et leurs enjeux.Photos
La réponse du public lors du discours a également été très enthousiaste. De nombreux internautes ont posé leurs questions avec sérieux et plusieurs intervenants ont fait de leur mieux pour répondre à leurs questions.Photos
Quant à l'effet spécifique de ce discours ? Certains internautes ont directement dit « recommander » dans la zone de commentaires.Photos
Alors, de quoi ont-ils parlé exactement dans ce discours de 3 heures ? Quels autres endroits valent la peine d’être écoutés ? Pourquoi les grands modèles ont-ils besoin de bases de données « plug-in » ? Le thème central de ce discours est le "Modèle linguistique basé sur la récupération", qui comprend deux éléments :Récupération et Modèle linguistique.
D'après ladéfinition, cela fait référence au "branchement" d'une base de données de récupération de données au modèle de langage, à la récupération de cette base de données lors de l'exécution de l'inférence (et d'autres opérations) , et enfin à la sortie basée sur les résultats de la récupération.
Ce type de référentiel de données de plug-ins est également appelé modèle semi-paramétrique ou modèle non paramétrique.Photos
La raison pour laquelle nous devons étudier cette direction est parce que(grands)les modèles de langage tels que GPT-3 et PaLM ont montré de bons résultats, mais il y a aussi eu quelques maux de tête." bug", il y a trois problèmes principaux :
1, Le nombre de paramètres est trop grand, et si le réentraînement est basé sur de nouvelles données, le coût de calcul est trop élevé
2, La mémoire n'est pas bonne (Face à une longue période ; textes, j'oublie de me souvenir de ce qui suit ci-dessus) , cela provoquera des hallucinations avec le temps, et il est facile de divulguer des données
3 Avec le nombre actuel de paramètres, il est impossible de se souvenir de toutes les connaissances ;
architecture, de la formation, de la multimodalité, des applications et des défis spécifiques de cette direction de recherche.
Dans l'architecture, il introduit principalement le contenu, la méthode de récupération et le « timing » de récupération basé sur la récupération du modèle de langage.
Plus précisément, ce type de modèle récupère principalement des jetons, des blocs de texte et des mots d'entité(mentions d'entité) Les méthodes et le calendrier d'utilisation de la récupération sont également très divers, ce qui en fait une architecture de modèle très flexible.
images
En termes de méthodes deformation, il se concentre sur la formation indépendante (la formation indépendante, le modèle de langage et le modèle de récupération sont formés séparément), l'apprentissage continu (formation séquentielle) et le multitâche apprentissage(formation conjointe) et autres méthodes.
Photos
Quant àapplication, ce type de modèle implique beaucoup de choses. Il peut non seulement être utilisé dans la génération de code, la classification, la PNL à forte intensité de connaissances et d'autres tâches, mais également pour le réglage fin, le renforcement. l'apprentissage, basé sur les mots d'invite de recherche et d'autres méthodes, peut être utilisé.
Les scénarios d'application sont également très flexibles, y compris des scénarios à longue traîne, des scénarios nécessitant une mise à jour des connaissances et des scénarios impliquant la confidentialité et la sécurité, etc. Ce type de modèle a sa place à utiliser.Bien sûr, il ne s’agit pas seulement de texte. Ce type de modèle présente également un potentiel d'expansion multimodale, lui permettant d'être utilisé pour des tâches autres que le texte.
Photos
Il semble que ce type de modèle présente de nombreux avantages, mais il existe également des défis basés sur des modèles de langage basés sur la récupération.
Dans son discours final de « clôture », Chen Danqi a souligné plusieurs problèmes majeurs qui doivent être résolus dans cette direction de recherche.
Premièrement, petit modèle de langage + (en expansion continue) grande base de données, cela signifie-t-il essentiellement que le nombre de paramètres du modèle de langage est encore très grand ? Comment résoudre ce problème ?
Par exemple, bien que le nombre de paramètres de ce type de modèle puisse être très faible, seulement 7 milliards de paramètres, la base de données du plug-in peut atteindre 2T...
Images
Deuxièmement, l'efficacité de la similarité recherche. Comment concevoir des algorithmes pour maximiser l’efficacité de la recherche est actuellement une direction de recherche très active.
Images
Troisièmement, effectuez des tâches linguistiques complexes. Y compris les tâches de génération de texte ouvertes et les tâches de raisonnement de texte complexes, la manière d'utiliser des modèles de langage basés sur la récupération pour accomplir ces tâches est également une direction qui nécessite une exploration continue.
Photos
Bien sûr, Chen Danqi a également mentionné que ces sujets ne sont pas seulement des défis, mais aussi des opportunités de recherche. Amis qui recherchent encore des sujets de thèse, vous pouvez envisager de les ajouter à la liste de recherche ~
Il convient de mentionner que ce discours n'est pas un sujet « sorti de nulle part ». Les quatre intervenants l'ont pensivement mentionné sur le fonctionnaire. site Web Des liens vers les articles référencés dans le discours ont été publiés.
De l'architecture des modèles, aux méthodes de formation, aux applications, à la multimodalité jusqu'aux challenges, si l'un de ces sujets vous intéresse, vous pouvez vous rendre sur le site officiel pour retrouver les articles classiques correspondants :
Photos
Pour un discours aussi instructif, les quatre conférenciers principaux ne sont pas sans expérience. Au cours du discours, ils ont également patiemment répondu aux questions soulevées par le public.
Parlons d’abord de qui sont les locuteurs de Kangkang.
Le premier est Chen Danqi, professeur adjoint d'informatique à l'Université de Princeton qui a dirigé ce discours.
Photos
Elle est récemment l'une des jeunes universitaires chinoises les plus populaires dans le domaine de l'informatique et est également une ancienne élève de la classe Tsinghua Yao en 2008.
Dans le cercle des compétitions informatiques, elle est assez légendaire - l'algorithme CDQ diviser pour mieux régner porte son nom. En 2008, elle a remporté une médaille d'or de l'IOI au nom de l'équipe chinoise.
Et sa thèse de doctorat de 156 pages « Neural Reading Comprehension and Beyond » est devenue très populaire. Non seulement elle a remporté le prix de la meilleure thèse de doctorat de Stanford cette année-là, mais elle est également devenue le sujet le plus populaire à l'Université de Stanford au cours des dix dernières années. . Un des mémoires de fin d'études.
Maintenant, en plus d'être professeur adjoint d'informatique à l'Université de Princeton, Chen Danqi est également co-responsable de l'équipe PNL de l'école et membre de l'équipe AIML.
Son axe de recherche porte principalement sur le traitement du langage naturel et l'apprentissage automatique, et elle s'intéresse aux méthodes simples et fiables, réalisables, évolutives et généralisables à des problèmes pratiques.
Également de l'Université de Princeton, il y a l'apprenti de Chen Danqi Zexuan Zhong(Zexuan Zhong).
Photos
Zhong Zexuan est étudiant en quatrième année de doctorat à l'Université de Princeton. J'ai obtenu une maîtrise de l'Université de l'Illinois à Urbana-Champaign et mon mentor était Xie Tao ; j'ai obtenu une licence du département d'informatique de l'Université de Pékin et j'ai travaillé comme stagiaire chez Microsoft Research Asia, et mon Le mentor était Nie Zaiqing.
Ses dernières recherches se concentrent sur l'extraction d'informations structurées à partir de textes non structurés, l'extraction d'informations factuelles à partir de modèles linguistiques pré-entraînés, l'analyse des capacités de généralisation des modèles de récupération denses et le développement d'une formation à la technologie des modèles linguistiques basés sur la récupération.
De plus, les conférenciers principaux incluent Akari Asai et Sewon Min de Université de Washington.
Photos
Akari Asai est un doctorant de quatrième année à l'Université de Washington avec spécialisation en traitement du langage naturel. Il est diplômé de l'Université de Tokyo au Japon avec son diplôme de premier cycle.
Elle s'intéresse principalement au développement de systèmes de traitement du langage naturel fiables et adaptables pour améliorer les capacités d'acquisition d'informations.
Récemment, ses recherches se concentrent principalement sur les systèmes de récupération de connaissances générales, les modèles PNL adaptatifs efficaces et d'autres domaines.
Pictures
Sewon Min est doctorant au sein du groupe de traitement du langage naturel de l'Université de Washington. Au cours de ses études de doctorat, il a travaillé à temps partiel comme chercheur chez Meta AI pendant quatre ans. de l'Université nationale de Séoul avec un baccalauréat.
Récemment, elle se concentre principalement sur la modélisation du langage, la récupération et l'intersection des deux.
Pendant le discours, le public a également soulevé avec enthousiasme de nombreuses questions, comme par exemple pourquoi la perplexité(perplexité) est utilisée comme principal indicateur du discours.
Photos
L'orateur a donné une réponse prudente :
Lors de la comparaison de modèles de langage paramétrés, la perplexité (PPL) est souvent utilisée. Mais la question de savoir si les améliorations apportées à la perplexité peuvent se traduire par des applications en aval reste une question de recherche.
La recherche a maintenant montré que la perplexité est bien corrélée aux tâches en aval (en particulier les tâches de génération) et que la perplexité fournit souvent des résultats très stables, et qu'elle peut être évaluée sur des données d'évaluation à grande échelle (les données d'évaluation ne sont pas étiquetées par rapport aux tâches en aval , qui peut être affecté par la sensibilité des signaux et le manque de données étiquetées à grande échelle, conduisant à des résultats instables) .
Photos
Certains internautes ont soulevé cette question :
Concernant l'affirmation selon laquelle "le coût de formation des modèles de langage est élevé et l'introduction de la récupération peut résoudre ce problème", vous remplacez simplement la complexité temporelle par l'espace. complexité (stockage des données) ?
La réponse donnée par l'oratrice est celle de tante Jiang :
L'objectif de notre discussion est de savoir comment réduire le modèle de langage à une taille plus petite, réduisant ainsi les besoins en temps et en espace. Cependant, le stockage des données ajoute également des frais supplémentaires, qui doivent être soigneusement pesés et étudiés, et nous pensons qu'il s'agit d'un défi actuel.
Par rapport à la formation d'un modèle de langage avec plus de 10 milliards de paramètres, je pense que le plus important en ce moment est de réduire le coût de la formation.
Photos
Si vous souhaitez retrouver le PPT de ce discours, ou regarder la lecture spécifique, vous pouvez vous rendre sur le site officiel~
Site officiel : https://acl2023-retrieval- lm.github.io /
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!