GPT-4 est-il capable de révision papier ?
Des chercheurs de Stanford et d’autres universités l’ont testé.
Ils ont donné à GPT-4 des milliers d'articles provenant de grandes conférences telles que Nature et ICLR, l'ont laissé générer des avis de révision (y compris des suggestions de modifications, etc.) , puis les ont comparés aux opinions données par les humains.
Après enquête, nous avons constaté que :
Plus de 50 % des avis proposés par GPT-4 sont cohérents avec au moins un évaluateur humain
Et plus de 82,4 % des auteurs ont constaté que ; les avis fournis par GPT-4 Très utiles
Quelles informations cette recherche peut-elle nous apporter ?
La conclusion est la suivante :
Regardez-le spécifiquement. Test réel du niveau de révision des articles GPT-4Pour prouver le potentiel de GPT-4, les chercheurs ont d'abord créé unIl n'y a toujours pas de substitut à un retour humain de haute qualité ; mais GPT-4 peut aider les auteurs à améliorer leurs premières ébauches avant un examen formel par les pairs.
pipeline automatique utilisant GPT-4.
Il peut analyser l'intégralité de l'article au format PDF, extraire des titres, des résumés, des figures, des titres de tableaux et d'autres contenus pour créer des invites, puis laisser GPT-4 fournir des commentaires de révision. Parmi eux, les avis sont les mêmes que les standards de chaque grande conférence, et comprennent quatre parties : L'importance et la nouveauté de la recherche, ainsi que les raisons d'une éventuelle acceptation ou rejet et des suggestions d'améliorationLes expériences spécifiques proviennent de
Deux aspects se dévoilent.
La première est l'expérience quantitative :
Lisez les articles existants, générez des commentaires et comparez systématiquement avec de vraies opinions humaines pour découvrir le chevauchementIci, l'équipe a collecté des données du journal principal Nature et des sous-titres majeurs. -journaux 3096 articles ont été sélectionnés, 1709 articles ont été sélectionnés lors de la conférence ICLR Machine Learning(y compris l'année dernière et cette année) , pour un total de 4805 articles.
Parmi eux, les articles Nature impliquaient un total de 8 745 commentaires d'examen humain ; les conférences ICLR impliquaient 6 506 commentaires. Une fois que GPT-4 a donné son avis, le pipeline extrait les arguments humains et GPT-4 dans le lien de correspondance, puis effectue une correspondance sémantique de texte pour trouver des arguments qui se chevauchent afin de mesurer l'efficacité et la fiabilité des opinions GPT-4. Les résultats sont :1. Les opinions GPT-4 recoupent de manière significative les opinions réelles des évaluateurs humains
Dans l'ensemble, dans les articles Nature, 57,55 % des opinions GPT-4 sont cohérentes avec au moins un évaluateur humain ; ICLR, ce chiffre atteint 77,18 %. Après avoir soigneusement comparé GPT-4 avec les opinions de chaque évaluateur, l'équipe a constaté que : Le taux de chevauchement de GPT-4 avec les évaluateurs humains sur les articles Nature est tombé à 30,85 % et sur ICLR est tombé à 39,23. %. Cependant, cela est comparable au taux de chevauchement entre deux évaluateurs humains Dans les articles Nature, le taux de chevauchement moyen pour les humains est de 28,58 % ; sur ICLR, il est de 35,25 % De plus, ils ont également analysé la note. niveau de l'article (oral, vedette ou directement rejeté) et a constaté que :Pour les articles avec des notes plus faibles, le taux de chevauchement entre GPT-4 et les évaluateurs humains devrait augmenter. De plus de 30 % actuellement, il peut être augmenté à près de 50 %
Cela montre que GPT-4 a une grande capacité de discrimination et peut identifier les articles de mauvaise qualitéL'auteur a également déclaré que ceux qui nécessitent des modifications plus substantielles peuvent Heureusement pour les articles acceptés, tout le monde peut essayer les suggestions de révision données par GPT-4 avant de les soumettre officiellement.2. GPT-4 peut fournir des commentaires non universels
Les commentaires dits non universels signifient que GPT-4 ne donnera pas d'avis d'évaluation universel qui s'applique à plusieurs articles.
Ici, les auteurs ont mesuré une métrique de « taux de chevauchement par paire » et ont constaté qu'elle était significativement réduite à 0,43 % et 3,91 % à la fois sur Nature et ICLR. Cela montre que GPT-4 a des objectifs spécifiques3 Il peut parvenir à un accord avec les opinions humaines sur des questions majeures et universelles
.
De manière générale, les commentaires qui apparaissent les plus tôt et sont mentionnés par plusieurs évaluateurs représentent souvent des problèmes importants et courants
Ici, l'équipe a également constaté que LLM est plus susceptible d'identifier les problèmes communs qui sont unanimement reconnus par plusieurs évaluateurs. Problèmes ou défauts
.GPT-4 fonctionne globalement bien
4. Les avis donnés par GPT-4 mettent l'accent sur certains aspects qui sont différents de ceux des humains
L'étude a révélé que la fréquence des commentaires de GPT-4 sur le sens de la recherche elle-même est humaine. 7,27 fois plus susceptibles que les humains de commenter la nouveauté de la recherche.
GPT-4 et les humains recommandent souvent des expériences supplémentaires, mais les humains se concentrent davantage sur les expériences d'ablation, et GPT-4 recommande de l'essayer sur davantage d'ensembles de données.
Les auteurs ont déclaré que ces résultats indiquent que GPT-4 et les évaluateurs humains accordent une importance différente à divers aspects et que la coopération entre les deux peut apporter des avantages potentiels.
Au-delà des expériences quantitatives se trouve la recherche sur les utilisateurs.
Au total, 308 chercheurs dans les domaines de l'IA et de la biologie computationnelle de différentes institutions ont participé à cette étude. Ils ont téléchargé leurs articles sur GPT-4 pour examen
L'équipe de recherche a recueilli leurs véritables commentaires sur les commentaires de l'examen GPT-4.
Dans l'ensemble, plus de la moitié (57,4%)des participants ont estimé que les commentaires générés par GPT-4 étaient très utiles, notamment en donnant certains points auxquels les humains ne penseraient pas.
Et 82,4 % des personnes interrogées l'ont trouvé plus bénéfique qu'au moins certains commentaires d'évaluateurs humains.
De plus, plus de la moitié (50,5 %) ont exprimé leur volonté d'utiliser davantage de grands modèles tels que GPT-4 pour améliorer le papier.
L'un d'eux a déclaré qu'il ne fallait que 5 minutes à GPT-4 pour donner les résultats. Ce retour d'information est très rapide et est très utile aux chercheurs pour améliorer leurs articles.
Bien sûr, l'auteur souligne :
Les capacités de GPT-4 ont également certaines limites
La plus évidente est qu'il se concentre davantage sur la « présentation globale » et manque de suggestions approfondies dans des domaines techniques spécifiques ( comme l'architecture modèle) .
Ainsi, comme l'indique la conclusion finale de l'auteur :
Les commentaires de haute qualité des évaluateurs humains sont très importants avant l'examen formel, mais nous pouvons d'abord tâter le terrain pour compenser les détails tels que les expériences et la construction qui peuvent être en cas de problème. omission
Bien sûr, ils rappellent également :
Lors de l'évaluation formelle, les évaluateurs doivent toujours participer de manière indépendante et ne s'appuyer sur aucun LLM.
Cette étude Il y a trois auteurs, tous chinois, et tous issus de la School of Computer Science de l'Université de Stanford.
Il s'agit de :
Lien papier : https://arxiv.org/abs/2310.01783
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!