'Peu de mots, une grande quantité d'informations', des chercheurs de Salesforce et du MIT enseignent la 'révision' de GPT-4, l'ensemble de données est open source-IA-php.cn

La technologie de synthèse automatique a fait de grands progrès ces dernières années, principalement en raison du changement de paradigme : du réglage fin supervisé sur des ensembles de données étiquetés à l'utilisation de grands modèles de langage (LLM) pour des indices zéro, tels que GPT-4. Des invites soigneusement conçues permettent un contrôle précis de la longueur, du sujet, du style et d'autres fonctionnalités du résumé sans formation supplémentaire

Mais un aspect est souvent négligé : la densité des informations du résumé. Théoriquement, en tant que compression d'un autre texte, un résumé devrait être plus dense, c'est-à-dire contenir plus d'informations, que le fichier source. Compte tenu de la latence élevée du décodage LLM, il est important de couvrir davantage d’informations avec moins de mots, notamment pour les applications en temps réel.

Cependant, la densité de l'information est une question ouverte : si le résumé ne contient pas assez de détails, cela équivaut à aucune information ; s'il contient trop d'informations sans augmenter la longueur totale, il deviendra difficile à comprendre. Pour transmettre plus d'informations dans un budget de vocabulaire fixe, vous devez combiner abstraction, compression et fusion

Dans une étude récente, des chercheurs de Salesforce, du MIT et d'autres institutions ont tenté de Cette limite est déterminée par préférence pour un ensemble de plus en plus des résumés plus denses générés par GPT-4. Cette méthode fournit beaucoup d'inspiration pour améliorer la « capacité d'expression » des grands modèles de langage tels que GPT-4.

「字少信息量大」，Salesforce、MIT 研究者教 GPT-4「改稿」，数据集已开源

Lien papier : https://arxiv.org/pdf/2309.04269.pdf

Adresse de l'ensemble de données : https://huggingface.co/datasets/griffin/chain_of_density

Détails spécifiques Dites , leur approche utilise le nombre moyen d'entités par balise comme indicateur de densité, générant ainsi un résumé initial contenant peu d'entités. Ensuite, sans augmenter la longueur totale (la longueur totale est 5 fois celle du résumé d'origine), identifie et fusionne de manière itérative 1 à 3 entités manquantes dans le résumé précédent, de sorte que le rapport entités/balises dans chaque résumé soit supérieur à celui du résumé précédent. Grâce à l'analyse des données de préférences humaines, les auteurs ont finalement identifié une forme de résumé presque aussi dense que les résumés écrits par des humains et plus dense que les résumés générés par les invites GPT-4 ordinaires.

Les contributions globales de l'étude comprennent :

Développer une approche itérative basée sur des invites (CoD) qui rend les résumés de plus en plus denses en entités
Effectuer une évaluation manuelle et automatisée des résumés de plus en plus denses dans les articles de CNN/Daily Mail, pour mieux comprendre le compromis ; entre le caractère informatif (privilégiant plus d'entités) et la clarté (privilégiant moins d'entités)
Résumés GPT-4 open source, annotations et un ensemble de 5000 résumés CoD non annotés, pour évaluation ou affinement.

「字少信息量大」，Salesforce、MIT 研究者教 GPT-4「改稿」，数据集已开源

Qu'est-ce que CoD

L'auteur définit une invite appelée "CoD" (Chain of Density) pour générer un résumé initial et augmenter progressivement sa densité d'entité. Plus précisément, au sein d'un nombre fixe d'interactions, un ensemble d'entités saillantes uniques dans le texte source sont identifiées et fusionnées dans le résumé précédent sans augmenter la longueur

Dans la figure 2, l'invite est affichée et des exemples de sortie. L'auteur ne précise pas explicitement les types d'entités, mais définit les entités manquantes comme :

Connexe : lié à l'histoire principale
Spécifique : descriptif mais concis (5 mots ou moins) ; Roman : N'apparaît pas dans les résumés précédents ;
Fidèle : Présent dans l'article
Partout : Situé n'importe où dans l'article ;

「字少信息量大」，Salesforce、MIT 研究者教 GPT-4「改稿」，数据集已开源 L'auteur a sélectionné au hasard 100 articles de l'ensemble de tests de résumé CNN/DailyMail pour générer des résumés CoD pour eux. Pour faciliter la référence, ils ont comparé les statistiques récapitulatives de CoD aux résumés de référence rédigés par des humains et aux résumés générés par GPT-4 sous l'invite normale : "Écrivez un très court résumé de l'article. Pas plus de 70 mots."

Statistiques

Dans l'étude, l'auteur a résumé sous deux aspects : les statistiques directes et les statistiques indirectes. Les statistiques directes (jetons, entités, densité des entités) sont directement contrôlées par CoD, tandis que les statistiques indirectes sont un sous-produit attendu de la densification.