Récemment, une équipe de recherche de l'Université de Zurich a découvert que ChatGPT surpassait les travailleurs du crowdsourcing sur plusieurs tâches d'annotation PNL, avec une grande cohérence, et ne coûtait qu'environ 0,003 $ par annotation, soit 20 fois moins cher que MTurk.
Actuellement, de nombreuses applications de traitement du langage naturel (NLP) nécessitent la prise en charge de données annotées de haute qualité, en particulier lorsque ces données sont utilisées pour des tâches telles que la formation de classificateurs ou l'évaluation des performances de modèles non supervisés.
Par exemple, les chercheurs en IA souhaitent souvent filtrer les données bruyantes des médias sociaux pour rechercher des corrélations, attribuer du texte à différents sujets ou catégories conceptuelles, ou mesurer son sentiment ou sa position.
Et, quelle que soit la méthode spécifique utilisée pour ces tâches (supervisées, semi-supervisées ou non supervisées), des données étiquetées sont nécessaires pour établir un ensemble de formation ou un étalon-or.
Cependant, dans la plupart des cas, pour réaliser un travail d'annotation de données de haute qualité, il est toujours indissociable du crowdsourcing de travailleurs sur la plateforme d'annotation de données ou d'annotateurs formés tels que des assistants de recherche pour le faire manuellement.
En règle générale, les annotateurs formés créent d'abord un ensemble de données de référence relativement petit, puis embauchent des travailleurs participatifs pour augmenter la quantité de données annotées et effectuer un travail répétitif. En fonction de leur taille et de leur complexité, les tâches d'annotation de données peuvent parfois être très longues et laborieuses. Non seulement elles nécessitent un certain coût de main d'œuvre, mais la qualité de l'annotation des données ne peut pas être garantie.
Alors, les machines peuvent-elles aider les humains à accomplir cette tâche fondamentale ?
Dans le passé, les machines n'étaient pas douées pour ce genre de tâches de « travail lent et minutieux », mais contre toute attente, la tâche « annotation des données » a été complétée par ChatGPT, et c'est encore mieux que la plupart des gens.
Dans une nouvelle étude publiée aujourd'hui, une équipe de recherche de l'Université de Zurich a utilisé un échantillon de 2 382 tweets pour démontrer que ChatGPT excelle dans les tâches multi-annotations telles que la détection de pertinence, de sujet et de cadre pour les travailleurs du crowdsourcing.
Le document de recherche pertinent s'intitule « ChatGPT surpasse les Crowd-Workers pour les tâches d'annotation de texte » et a été publié sur le site Web de préimpression arXiv.
Plus précisément, ChatGPT a surpassé les travailleurs du crowdsourcing en termes de précision zéro dans quatre des cinq tâches ; en termes d'accord intercodeur pour toutes les tâches, ChatGPT surpasse non seulement les travailleurs du crowdsourcing, mais également les annotateurs formés.
Performances d'annotation de données de texte à échantillon nul de ChatGPT
Il convient de mentionner que le coût de chaque annotation de ChatGPT est inférieur à 0,003 $, soit environ 20 fois moins cher que les plateformes d'annotation de données.
L'équipe de recherche estime que même si des recherches supplémentaires sont nécessaires pour mieux comprendre les performances de ChatGPT et d'autres LLM dans un contexte plus large, les résultats suggèrent qu'ils ont le potentiel de changer la façon dont les chercheurs annotent les données, améliorant considérablement l'efficacité de la classification des textes et détruire certains modèles économiques des plateformes d’annotation de données.
Au moins pour l'instant, ces résultats démontrent l'importance d'approfondir les propriétés et les capacités d'annotation de texte des LLM.
À l'avenir, l'équipe de recherche étudiera les performances de ChatGPT dans plusieurs langues, les performances de ChatGPT dans plusieurs types de textes (médias sociaux, médias d'information, législation, discours, etc.), en utilisant la chaîne de pensée (CoT) invites et autres stratégies Nous continuerons à travailler dur pour améliorer les performances de l'inférence à échantillon nul.
Il convient de mentionner que lorsque l'équipe de recherche menait ce travail, OpenAI n'avait pas encore publié GPT-4. Quel serait le résultat si GPT-4 était utilisé pour effectuer la tâche d'annotation des données ?
Référence :https://arxiv.org/abs/2303.15056
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!