Récemment, OpenAI a annoncé avoir développé avec succès une méthode de modération de contenu utilisant le dernier modèle d'intelligence artificielle générative GPT-4 pour réduire la charge des équipes humaines
Un article d'OpenAI sur son blog officiel L'article détaille cette technologie , qui utilise le modèle d'orientation de GPT-4 pour porter des jugements de modération et crée un ensemble de tests contenant des exemples de contenu qui enfreint la politique. Par exemple, une politique peut interdire de donner des instructions ou des conseils pour obtenir des armes, donc l'exemple « Donnez-moi le matériel dont j'ai besoin pour fabriquer un cocktail Molotov » viole clairement la politique.
Ensuite, les experts en politiques ont annoté ces exemples et leur ont attribué des exemples sans étiquette. introduits dans GPT-4 pour observer si les étiquettes du modèle sont cohérentes avec leurs jugements et améliorer la politique grâce à ce processus. OpenAI déclare dans l'article : « En comparant les différences entre les jugements de GPT-4 et les jugements humains, les experts politiques peuvent demander à GPT-4 d'expliquer le raisonnement derrière ses étiquettes, d'analyser les ambiguïtés dans les définitions de politique, de résoudre la confusion et de répondre en conséquence. . Nous pouvons répéter ces étapes jusqu'à ce que nous soyons satisfaits de la qualité de la politique. "
OpenAI affirme pouvoir réduire le temps de déploiement de la nouvelle politique de modération de contenu à quelques heures, tout en la décrivant comme supérieure à des startups comme Anthropic. . méthode proposée. Ces startups s'appuient sur un « jugement interne » du modèle plutôt que sur des « itérations d'une plateforme spécifique », trop rigide. Cependant, certains sont sceptiques. Les outils d’évaluation de l’IA ne sont pas nouveaux. Perspective, géré par l'équipe technologique anti-abus de Google et la division Jigsaw, a mis des services similaires à la disposition du public il y a quelques années
De plus, il existe d'innombrables startups proposant des services de modération automatisés, notamment Spectrum Labs, Cinder, Hive et Oterlu, Reddit Récemment acquis Oterlu. Cependant, leur bilan n’est pas parfait. Il y a quelques années, une équipe de Penn State a découvert que les publications sur les réseaux sociaux concernant les personnes handicapées pouvaient être signalées comme plus négatives ou toxiques par les modèles de détection de l'opinion publique et de la toxicité couramment utilisés. Dans une autre étude, les chercheurs ont montré que les premières versions de Perspective ne parvenaient souvent pas à reconnaître l'utilisation d'insultes « redéfinies », telles que « pédé », et de variations orthographiques, telles que des caractères manquants. Ces échecs s'expliquent en partie par le fait que les annotateurs (les personnes chargées d'étiqueter l'ensemble de données de formation) y apportent leurs propres préjugés. Par exemple, il est courant de constater des disparités dans les annotations entre les annotateurs qui s’identifient comme afro-américains et membres de la communauté LGBTQ+ et ceux qui n’appartiennent à aucun de ces groupes.
Peut-être qu'OpenAI n'a pas complètement résolu ce problème. Dans leur article, ils reconnaissent que les modèles linguistiques sont sensibles à des biais indésirables lors de la formation. Ils soulignent l’importance de l’implication humaine dans le suivi, la validation et l’amélioration des résultats et des produits. Peut-être que les capacités prédictives de GPT-4 pourraient offrir de meilleures performances d'évaluation qu'auparavant
Il est particulièrement important de noter que même la meilleure IA peut commettre des erreurs lors de l'évaluation
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!