Table des matières
Cette étude utilise les dernières données pour construire l'ensemble de données, chaque L’ensemble de données se compose de 50 échantillons.
Maison Périphériques technologiques IA Dans quelle mesure les performances de GPT-4 sont-elles fluides ? L'écriture humaine peut-elle être dépassée ?

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? L'écriture humaine peut-elle être dépassée ?

Sep 23, 2023 pm 12:05 PM
ai 模型

La génération de résumés est une tâche de génération de langage naturel (NLG), dont l'objectif principal est de compresser des textes longs en courts résumés. Il peut être appliqué à une variété de contenus, tels que des articles d'actualité, du code source et des textes multilingues.

Avec l'émergence des grands modèles (LLM), les méthodes traditionnelles de réglage fin sur des ensembles de données spécifiques ne sont plus disponibles. n’est plus applicable.

Nous ne pouvons nous empêcher de nous demander quelle est l'efficacité du LLM pour générer des résumés ?

Afin de répondre à cette question, des chercheurs de l'Université de Pékin ont mené une discussion détaillée dans l'article « La synthèse est (presque) morte ». Ils ont évalué les performances de LLM sur diverses tâches de résumé (actualités uniques, actualités multiples, conversations, code source et résumé multilingue) à l'aide d'ensembles de données d'évaluation générés par l'homme, de résumés écrits par l'homme après des comparaisons quantitatives et qualitatives. des résumés et des résumés générés par des modèles affinés, il a été constaté que les résumés générés par LLM étaient significativement favorisés par les évaluateurs humains

Après avoir comparé 100 articles publiés dans ACL, EMNLP, NAACL et COLING au cours des 3 dernières années avec Après échantillonnage et en examinant les articles liés aux méthodes de synthèse, les chercheurs ont constaté que la principale contribution d'environ 70 % des articles était de proposer une méthode de résumé et de vérifier son efficacité sur un ensemble de données standard. Par conséquent, l'étude indique que "la synthèse est (presque) morte"

Néanmoins, les chercheurs ont déclaré que le domaine est encore confronté à certains défis, tels que la nécessité d'ensembles de données de référence de meilleure qualité et d'une évaluation améliorée. doivent être résolus

Lien papier : https://arxiv.org/pdf/2309.09558.pdfDans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Méthodes et résultats

Cette étude utilise les dernières données pour construire l'ensemble de données, chaque L’ensemble de données se compose de 50 échantillons.

Lors de l'exécution de tâches de résumé d'actualités uniques, multiples et de conversations, nous avons utilisé des méthodes similaires aux méthodes de construction d'ensembles de données CNN/DailyMail et Multi-News pour la simulation. Pour la tâche de synthèse multilingue, nous adoptons la même stratégie que celle proposée par Zhu et al. Quant à la tâche de résumé du code, la méthode proposée par Bahrami et al.

Une fois l'ensemble de données construit, l'étape suivante est la méthode. Plus précisément, cet article utilise BART et T5 pour les tâches d'actualités uniques ; Pegasus et BART pour les tâches d'actualités multiples ; T5 et BART pour les tâches de dialogue ; MT5 et MBART pour les tâches multilingues et Codet5 pour les tâches de code source ;

Dans cette expérience, l'étude a utilisé des évaluateurs humains pour comparer la qualité globale de différents résumés. D'après les résultats de la figure 1, les résumés générés par LLM surpassent les résumés générés par les humains et les résumés générés par des modèles affinés dans toutes les tâches

Cela soulève la question : pourquoi LLM est capable de surpasser les résumés humains qui sont traditionnellement considéré comme parfait. De plus, les observations préliminaires indiquent que les résumés générés par LLM sont très fluides et cohérents Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Cet article recrute en outre des annotateurs pour identifier les problèmes d'hallucinations dans les phrases récapitulatives humaines et générées par LLM, et les résultats sont présentés dans le tableau 1, comparés aux résumés générés. par GPT-4 En comparaison, les résumés écrits par des humains présentent un nombre d'hallucinations identique ou supérieur. Dans des tâches spécifiques telles que plusieurs actualités et résumés de code, les résumés rédigés par des humains présentent une cohérence factuelle nettement moins bonne.

Le tableau 2 montre la proportion d'hallucinations dans les résumés écrits par des humains et les résumés générés par GPT-4 Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Cet article a également révélé que les résumés de référence écrits par des humains ont un tel problème, c'est-à-dire que manque de maîtrise. Comme le montre la figure 2 (a), les résumés de référence rédigés par des humains souffrent parfois d'informations incomplètes. Et dans la figure 2 (b), certains résumés de référence écrits par des humains présentent des hallucinations. Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Cette étude a également révélé que les résumés générés par des modèles affinés ont généralement une longueur fixe et stricte, tandis que LLM est capable d'ajuster la longueur de sortie en fonction des informations d'entrée. De plus, lorsque l'entrée contient plusieurs sujets, les résumés générés par le modèle affiné couvrent peu les sujets, comme le montre la figure 3, tandis que le LLM est capable de capturer tous les sujets lors de la génération de résumés

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

selon la Figure 4 Les résultats montrent que le score de préférence humaine pour les grands modèles dépasse 50%, ce qui montre que les gens ont une forte préférence pour son résumé et met en évidence la capacité du LLM en matière de synthèse de texte

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment implémenter le tri des fichiers par Debian Readdir Comment implémenter le tri des fichiers par Debian Readdir Apr 13, 2025 am 09:06 AM

Dans Debian Systems, la fonction ReadDir est utilisée pour lire le contenu du répertoire, mais l'ordre dans lequel il revient n'est pas prédéfini. Pour trier les fichiers dans un répertoire, vous devez d'abord lire tous les fichiers, puis les trier à l'aide de la fonction QSORT. Le code suivant montre comment trier les fichiers de répertoire à l'aide de ReadDir et QSort dans Debian System: # include # include # include # include # include // Fonction de comparaison personnalisée, utilisée pour qsortintCompare (constvoid * a, constvoid * b) {returnstrcmp (* (

Comment définir le niveau de journal Debian Apache Comment définir le niveau de journal Debian Apache Apr 13, 2025 am 08:33 AM

Cet article décrit comment ajuster le niveau de journalisation du serveur Apacheweb dans le système Debian. En modifiant le fichier de configuration, vous pouvez contrôler le niveau verbeux des informations de journal enregistrées par Apache. Méthode 1: Modifiez le fichier de configuration principal pour localiser le fichier de configuration: le fichier de configuration d'Apache2.x est généralement situé dans le répertoire / etc / apache2 /. Le nom de fichier peut être apache2.conf ou httpd.conf, selon votre méthode d'installation. Modifier le fichier de configuration: Ouvrez le fichier de configuration avec les autorisations racine à l'aide d'un éditeur de texte (comme Nano): Sutonano / etc / apache2 / apache2.conf

Comment optimiser les performances de Debian Readdir Comment optimiser les performances de Debian Readdir Apr 13, 2025 am 08:48 AM

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

Conseils de configuration du pare-feu Debian Mail Server Conseils de configuration du pare-feu Debian Mail Server Apr 13, 2025 am 11:42 AM

La configuration du pare-feu d'un serveur de courrier Debian est une étape importante pour assurer la sécurité du serveur. Voici plusieurs méthodes de configuration de pare-feu couramment utilisées, y compris l'utilisation d'iptables et de pare-feu. Utilisez les iptables pour configurer le pare-feu pour installer iptables (sinon déjà installé): Sudoapt-getUpDaSuDoapt-getinstalliptableView Règles actuelles iptables: Sudoiptable-L Configuration

Méthode d'installation du certificat de Debian Mail Server SSL Méthode d'installation du certificat de Debian Mail Server SSL Apr 13, 2025 am 11:39 AM

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

Comment Debian Readdir s'intègre à d'autres outils Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Comment Debian OpenSSL empêche les attaques de l'homme au milieu Comment Debian OpenSSL empêche les attaques de l'homme au milieu Apr 13, 2025 am 10:30 AM

Dans Debian Systems, OpenSSL est une bibliothèque importante pour le chiffrement, le décryptage et la gestion des certificats. Pour empêcher une attaque d'homme dans le milieu (MITM), les mesures suivantes peuvent être prises: utilisez HTTPS: assurez-vous que toutes les demandes de réseau utilisent le protocole HTTPS au lieu de HTTP. HTTPS utilise TLS (Protocole de sécurité de la couche de transport) pour chiffrer les données de communication pour garantir que les données ne sont pas volées ou falsifiées pendant la transmission. Vérifiez le certificat de serveur: vérifiez manuellement le certificat de serveur sur le client pour vous assurer qu'il est digne de confiance. Le serveur peut être vérifié manuellement via la méthode du délégué d'URLSession

Comment faire Debian Hadoop Log Management Comment faire Debian Hadoop Log Management Apr 13, 2025 am 10:45 AM

Gérer les journaux Hadoop sur Debian, vous pouvez suivre les étapes et les meilleures pratiques suivantes: l'agrégation de journal Activer l'agrégation de journaux: définir yarn.log-aggregation-inable à true dans le fichier yarn-site.xml pour activer l'agrégation de journaux. Configurer la stratégie de rétention du journal: Définissez Yarn.log-agregation.retain-secondes pour définir le temps de rétention du journal, tel que 172800 secondes (2 jours). Spécifiez le chemin de stockage des journaux: via yarn.n

See all articles