Maison > Périphériques technologiques > IA > Tsinghua, Cambridge et l'UIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et d'autres domaines

Tsinghua, Cambridge et l'UIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et d'autres domaines

WBOY
Libérer: 2023-04-09 19:31:01
avant
1694 Les gens l'ont consulté

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

  • Adresse papier : https://arxiv.org/pdf/2206.11863.pdf
  • Dataset CHEF Lien vers l'ensemble de données : https://github.com/THU-BPM/CHEF

1. Introduction

Regardons d'abord la définition de la tâche et donnons un exemple relativement simple :

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Par exemple, pendant le confinement à Shanghai, un certain auto-média a affirmé que "Li Liqun m'a volé. J'ai été surpris en train de descendre pour acheter de la viande." Sur la base de cette seule affirmation (réclamation), nous ne pouvons pas déterminer s'il est descendu secrètement pour acheter de la viande et s'il a été attrapé. Afin de vérifier l'authenticité de cette déclaration, l'idée la plus intuitive est de rechercher des preuves (les preuves sont des informations que vous pouvez collecter et qui peuvent nous aider à vérifier l'authenticité d'une déclaration). Par exemple, dans l'image ci-dessous, je la déchire simplement avec mes mains et elle peut être utilisée comme preuve.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

La déclaration citée ci-dessus est relativement simple, ne nécessitant que de simples preuves et aucun raisonnement fondé sur des preuves. Regardons un exemple relativement complexe ci-dessous. Par exemple, il y a une déclaration : En 2019, un total de 120 800 personnes ont passé l'examen d'entrée au lycée de Chengdu, mais le plan d'inscription n'est que de 43 000. Il est relativement difficile de vérifier cette affirmation. Si nous trouvons des documents pertinents faisant état de l'examen d'entrée au lycée de Chengdu 2019 :

...Au total, 120 800 personnes ont passé l'examen d'entrée au lycée cette année. ville de Chengdu, comprenant le district 20, la zone de haute technologie et le nouveau district de Tianfu. Il y a quelques mois, le Bureau de l'éducation a annoncé le plan général d'inscription au lycée pour 2019. Le nombre de projets d'inscription a encore augmenté et les chances d'entrer dans le lycée général sont encore plus grandes. ...


En 2019, le plan d'inscription pour la ville centre (13 arrondissements) est de 43 015 personnes.

Ce document contient de nombreuses informations liées à la déclaration, mais ce qui est directement pertinent et peut nous aider à vérifier la déclaration est la seconde moitié du deuxième paragraphe ci-dessus, et après de nombreux paragraphes. Sur la base de ces éléments de preuve, nous pouvons savoir qu'il y a effectivement 120 800 personnes qui passent l'examen d'entrée au lycée dans les 20 arrondissements de Chengdu, et que le plan d'inscription pour la zone urbaine centrale (ne comprenant que 13 arrondissements) n'est en effet que de 43 000. Bien que les chiffres soient corrects, le concept est modifié ici. Lors de l'examen du nombre de personnes passant l'examen d'entrée au lycée, le nombre de personnes dans 20 districts est utilisé, mais lors de l'examen du plan d'inscription, la fourchette de 20 districts est réduite à 13 districts, trompant ainsi les lecteurs. Pour vérifier ce type de déclaration, nous devons souvent extraire des preuves directement pertinentes d'un ou plusieurs documents, et en même temps faire des déductions basées sur les preuves extraites. Afin de promouvoir les systèmes chinois d’apprentissage automatique de vérification des faits, nous proposons un tel ensemble de données chinoises fondées sur des preuves.

2. Travaux connexes

Selon l'examen de la vérification des faits [1], les ensembles de données actuels de vérification des faits peuvent être grossièrement divisés en deux catégories : Artificiel (Artificiel) et Naturel (Naturel).

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Artificiel (Artificiel) : Il est demandé à l'annotateur de réécrire la phrase selon Wikipédia comme une déclaration. Les paragraphes pertinents du document peuvent être utilisés comme preuve pour vérifier cette déclaration. S'il s'agit d'une conversion synonyme, alors la déclaration est étayée par la preuve (Supported). Si les entités de la phrase sont remplacées ou si une série de modifications telles que la négation sont ajoutées, alors la déclaration est rejetée par la preuve (Réfutée). .

Ce paradigme d'annotation était à l'origine FEVER[2], et de nombreux ensembles de données célèbres plus tard tels que TabFact[3] ont également suivi ce paradigme. L'avantage de ce type d'ensemble de données artificielles est qu'il peut être étendu aux annotateurs. D’un autre côté, les preuves pertinentes sont également faciles à obtenir. L'inconvénient est que ces déclarations ne sont pas des déclarations que nous rencontrerons dans la vie quotidienne et qui sont populaires auprès du grand public. Par exemple, vous ne réécrivez pas la déclaration « Il est descendu secrètement pour acheter de la viande et a été attrapé » sur la base de Wikipédia de Li Liqun. . D’un autre côté, ce type d’ensemble de données suppose que Wikipédia contient toutes les connaissances nécessaires pour vérifier les affirmations, ce qui est une hypothèse relativement forte. Cette hypothèse n’est souvent pas respectée dans les scénarios réels. Le problème le plus simple est que Wikipédia a un décalage dans le temps.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Naturel : il s'agit d'une déclaration extraite directement d'une plateforme de vérification des faits. L'organisation étrangère la plus célèbre est PolitiFact, qui vérifie souvent ce que dit Trump. L’avantage de ce type d’ensemble de données est qu’il s’agit d’une déclaration à laquelle le grand public sera confronté quotidiennement et voudra connaître la vérité. C’est aussi une déclaration que les vérificateurs de faits humains doivent examiner.

Si nous voulons à terme construire un système capable de remplacer dans une certaine mesure les vérificateurs humains, l'entrée de ce système doit être ce type de déclaration. L’inconvénient de ce type d’ensemble de données est également évident : le nombre d’allégations vérifiées par des humains est très limité. Comme le montre le tableau, la plupart des ensembles de données sont en réalité d’un ordre de grandeur inférieur à ceux construits manuellement.

D'un autre côté, trouver des preuves est un problème très difficile. Les ensembles de données existants utilisent généralement directement des articles de vérification des faits [4] comme preuve, ou utilisent des revendications pour saisir des requêtes de recherche Google [5][6], puis utilisent le résumé de recherche renvoyé (affiché dans l'encadré rouge) comme preuve.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Ces méthodes de recherche de preuves posent deux problèmes :

  • Utiliser l'article de vérification des faits lui-même comme preuve : Dans un scénario réel, cette approche est irréaliste Si nous voulons Quand. un système de vérification des faits est lancé et le système doit vérifier de nouvelles allégations, il n'y a souvent pas encore d'articles de vérification des faits. De cette façon, le système ne peut pas apprendre à collecter des preuves.
  • Utilisez les extraits de Google comme preuve : cette approche résout les problèmes ci-dessus et est plus proche des scénarios réels. Les vérificateurs de faits doivent souvent s'appuyer sur les moteurs de recherche pour trouver des informations pertinentes. Cependant, cette méthode présente également des inconvénients, à savoir que la quantité d'informations est sérieusement insuffisante. Comme le montre la figure ci-dessus, le résumé basé sur des règles de Google ne peut pas fournir suffisamment d'informations pour nous aider à juger de l'authenticité de la déclaration.

En réponse aux problèmes mentionnés ci-dessus, nous avons construit CHEF qui présente les caractéristiques suivantes :

  • utilise des allégations du monde réel et est en chinois, comblant le vide des ensembles de données de vérification des faits chinois.
  • Utilisez les documents renvoyés par le moteur de recherche comme preuves originales pour vous rapprocher de la scène réelle.
  • Utiliser des annotations humaines pour renvoyer des phrases pertinentes de documents sous forme de preuves fines, qui peuvent être utilisées pour entraîner le système de vérification à apprendre à collecter des preuves.

3. Construction de l'ensemble de données

La construction de l'ensemble de données se compose de 4 parties : collecte de données, annotation des déclarations, récupération des preuves et vérification des données.

3.1 Collecte de données

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

La déclaration originale est principalement extraite de quatre sites Web chinois de vérification des faits (selon Duke News Platform), dont deux en chinois simplifié : China Rumor Refutation Center et Tencent True Truth. . Le chinois traditionnel provient de deux plateformes à Taiwan : MyGoPen et le Taiwan Fact-Checking Center. Étant donné que la grande majorité (plus de 90 %) des affirmations analysées sur les sites Web de vérification des faits sont fausses, il est en fait assez intuitif que les rumeurs/déclarations les plus populaires soient fausses et seront réfutées/vérifiées par la plateforme de vérification. En nous référant aux méthodes précédentes (PublicHealth [7]), nous avons analysé les titres de China News Network comme de véritables allégations et construit un ensemble de données avec des étiquettes relativement équilibrées.

3.2 Marquage des déclarations

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Par rapport aux organisations étrangères de vérification des faits relativement matures, les articles publiés par les plateformes de vérification chinoises sont relativement moins standardisés. PolitiFact, par exemple, vous dira exactement quelle est la réclamation, quel est le résumé de la vérification et quels sont les détails des preuves et du raisonnement (comme le montre l'image ci-dessus). Cependant, les articles chinois ne l’indiquent généralement pas clairement, nous demandons donc aux annotateurs de lire l’article et d’en extraire la déclaration vérifiée par l’article. Dans le même temps, la déclaration est également nettoyée pour réduire les biais qu’elle contient.

Des travaux antérieurs ont montré [8] que les déclarations dans l'ensemble de données de vérification des faits contiennent des biais relativement forts (par exemple, les fausses déclarations contiennent généralement des mots négatifs), et les PLM tels que BERT peuvent capturer directement ces biais sans avoir besoin pour preuve. Vous pouvez vérifier la déclaration. Les méthodes de nettoyage consistent à transformer les questions rhétoriques en phrases déclaratives et à supprimer certains mots qui peuvent être biaisés, tels que : lourd, choquant, etc. Après avoir extrait les affirmations, nous avons également demandé aux annotateurs d’étiqueter les affirmations sur la base d’articles de vérification des faits. Nous adoptons une classification similaire à celle d'une série d'ouvrages telle que FEVER, utilisant trois classifications : Soutenu, Réfuté et Pas assez d'informations (NEI). Parmi eux, Refuted est le plus grand et NEI est le plus petit.

3.3 Récupération de preuves

Nous utilisons la déclaration comme déclaration de requête pour interroger la recherche Google, puis filtrer certains documents, dont certains sont des documents postérieurs à la publication de la déclaration, et l'autre partie sont des documents provenant de la propagation de fausses nouvelles. plateformes, et enfin conserver la documentation du Top 5. Il a ensuite été demandé aux annotateurs de sélectionner jusqu'à 5 phrases comme preuve pour chaque déclaration.

Les statistiques des réclamations et des preuves dans l'ensemble de données sont les suivantes : la longueur moyenne des documents renvoyés pour chaque réclamation est de 3691 mots, dont la phrase dans laquelle l'annotateur a extrait la dernière preuve à grain fin contient 126 mots. Si vous utilisez Google Rule, les résumés contiennent en moyenne 68 mots. La simple comparaison de chiffres, à l'aide de documents renvoyés et de phrases annotées, fournit plus d'informations contextuelles que l'utilisation directe de résumés.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

3.4 Vérification des données

Afin de garantir la cohérence de l'étiquetage, nous avons ajouté une série de vérification des données et sélectionné au hasard 3 % des déclarations étiquetées. Au total, 310 déclarations ont été distribuées à 5 annotateurs pour étiquetage et réévaluation. -l'étiquetage. Le score Fleiss K a atteint 0,74, ce qui est légèrement supérieur au 0,68 de FEVER et au 0,70 de Snopes[5], ce qui indique que la qualité de l'annotation des données n'est pas inférieure aux ensembles de données construits par les chercheurs précédents. La déclaration du CHEF est principalement divisée en 5 thèmes : société, santé publique, politique, science et culture. Contrairement aux plateformes de fact-checking européennes et américaines qui se concentrent sur le domaine politique, les plateformes chinoises accordent davantage d’attention aux questions de santé publique, comme le nouveau coronavirus, les soins de santé, les traitements médicaux, etc. Un autre sujet majeur est la société, comme : la fraude, la formation continue, les événements sociaux, etc.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

La vérification des allégations présente quatre défis principaux :

  • Collecte de preuves : Près de 70 % des allégations nécessitent la recherche de preuves pertinentes avant de pouvoir être vérifiées.
  • Consultation d'experts : Près de 40 % des sinistres nécessitent une consultation d'experts pour obtenir des informations pertinentes.
  • Raisonnement numérique : 18 % des vérifications de réclamations nécessitent un raisonnement numérique pour parvenir à une conclusion.
  • Multimodalité : Environ 8 % des réclamations nécessitent des preuves non textuelles telles que des photos, des vidéos, etc.


Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

4. Système de base

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Semblable aux précédents ensembles de données de vérification des faits classiques (tels que FEVER), le système d'apprentissage automatique doit d'abord être dans un document donné Les phrases pertinentes sont sélectionnées comme preuve (récupération de preuves), et les affirmations sont ensuite vérifiées par rapport aux preuves (vérification des réclamations).

Basé sur le travail de milliers de personnes, cet article propose deux grandes catégories de systèmes de base : les systèmes de canalisations et de joints. Pipeline : la récupération des preuves et la vérification des réclamations sont deux modules distincts. L'outil de récupération des preuves est d'abord utilisé pour extraire les preuves, puis les réclamations combinées sont transmises au module de vérification des réclamations pour classification.

  • Partie de récupération des preuves : Nous utilisons 4 extracteurs différents pour extraire des phrases comme preuves fines à partir des documents renvoyés. Le premier est basé sur la correspondance de caractéristiques de caractères : TF-IDF ; le second est basé sur la correspondance de caractéristiques sémantiques : nous utilisons le BERT chinois puis calculons la similarité cosinus. La troisième concerne les fonctionnalités mixtes : prenez les deux fonctionnalités ci-dessus, puis utilisez RankSVM pour trier. Le système de référence final est l'extrait classique renvoyé par Google.
  • Partie vérification du relevé : Nous utilisons 3 modèles différents. Le premier est basé sur le BERT chinois, associant la déclaration et les preuves obtenues ci-dessus et les soumettant au BERT pour trois classifications. Le second est un modèle basé sur l’attention qui classe les preuves en fonction d’affirmations attribuant différents poids. Le troisième est un modèle basé sur des graphes : nous utilisons le modèle de graphe SOTA KGAT[9] sur FEVER, qui peut mieux synthétiser différentes preuves pour le raisonnement.

Joint : Les modules de récupération de preuves et de vérification des réclamations sont optimisés conjointement. Trois modèles différents sont utilisés. Le premier est le modèle conjoint de SOTA sur FEVER [10], qui utilise un cadre d'apprentissage multitâche pour apprendre à étiqueter en même temps les preuves et les affirmations. La seconde consiste à traiter l'extraction de preuves comme une variable latente [11] et à étiqueter chaque phrase du document renvoyé avec 0 ou 1. Les phrases étiquetées avec 1 seront laissées comme preuve et classées avec la déclaration, en utilisant REINFORCE pour la formation. . La troisième méthode est similaire à la deuxième méthode, sauf qu'elle utilise HardKuma et la méthode des paramètres lourds pour la formation conjointe [12] au lieu d'utiliser le gradient politique.

5. Résultats expérimentaux

5.1 Principaux résultats

Les principaux résultats de l'expérience sont présentés dans la figure ci-dessous :

  • Du point de vue de la récupération des preuves : le modèle conjoint est plus performant que le modèle pipeline dans général, principalement parce que le module de récupération de preuves peut être optimisé pour trouver des preuves plus utiles pour valider les affirmations. D’un autre côté, il est toujours préférable d’utiliser le document renvoyé plutôt que d’utiliser des extraits de code Google, principalement parce que le document contient des informations plus riches. Enfin, l’effet probant de l’utilisation directe d’annotations humaines dépasse de loin les deux principales catégories actuelles de modèles de base. À l’instar d’autres ensembles de données de vérification des faits (FEVEROUS), la récupération de preuves constitue une difficulté pour vérifier les affirmations. Comment optimiser le module de recherche de preuves basé sur des preuves étiquetées par l'homme est une direction qui mérite d'être étudiée à l'avenir.
  • Du point de vue de la vérification des affirmations : le modèle basé sur un graphique (KGAT) est plus performant que les simples modèles basés sur BERT et basés sur l'attention, et c'est une méthode efficace pour capturer la chaîne de raisonnement des preuves en construisant un graphique. Mais d’un autre côté, l’amélioration du modèle graphique n’est pas particulièrement évidente et une certaine optimisation basée sur les conditions locales peut être nécessaire pour l’ensemble de données lui-même.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

5.2 Le nombre de preuves à grain fin

Plus il y en a, mieux c'est, mieux c'est. Comme le montre la figure ci-dessous, lorsque nous sélectionnons 5 phrases comme preuves à grain fin, le nombre de preuves à grain fin. preuves dans le système de pipeline L'extracteur de preuves a obtenu les meilleurs résultats lorsque 10 et 15 phrases ont été extraites comme preuve, l'effet est devenu de plus en plus mauvais. Nous supposons que davantage de bruit a été introduit dans les phrases extraites, ce qui a affecté le modèle de vérification des déclarations. juge.

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

5.3 Effet de la longueur de la déclaration

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Plus la longueur est longue, meilleur est l'effet de modèle. Nous supposons que la raison principale est que la déclaration est plus détaillée et plus facile. des éléments de preuve détaillés aident le modèle à porter des jugements. Lorsque la longueur de la déclaration est relativement courte, l'écart entre les modèles de référence centralisés n'est pas très grand. Lorsque la longueur de la déclaration est relativement longue, plus les preuves obtenues sont bonnes, plus l'effet de vérification des déclarations est important, ce qui illustre également l'importance de la recherche des preuves.

5.4 L'impact du domaine revendiqué

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines


Les allégations du domaine scientifique sont les plus difficiles à vérifier, et l'effet du modèle ne dépasse fondamentalement pas 55. D’une part, il est plus difficile de rassembler des preuves pertinentes, et d’autre part, les déclarations sur des questions scientifiques sont relativement complexes et nécessitent souvent un raisonnement implicite pour obtenir des résultats.

5.5 Impact des catégories de déclaration

Tsinghua, Cambridge et lUIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et dautres domaines

Comme le montre la figure, même si nous introduisons certaines déclarations prises en charge, l'ensemble des données présente toujours le problème du déséquilibre des catégories. L'effet du modèle sur la catégorie NEI est beaucoup plus faible que sur les catégories Soutenu et Réfuté. Les travaux futurs pourront étudier comment ajuster le modèle de vérification des réclamations pour des ensembles de données de vérification des faits déséquilibrés par catégorie, ou utiliser des méthodes d'augmentation des données pour augmenter de manière aléatoire le nombre de NEI au cours du processus de formation. Par exemple, FEVEROUS [13] augmente de manière aléatoire le nombre de NEI. NEI pendant le processus de formation. Jetez les preuves de certaines réclamations et changez la catégorie de ces réclamations en NEI.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal