Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique-IA-php.cn

Table des matières

Généralisation en quelques étapes

Collecte de données

1 Lexical

2. Entité Entité

3. Random Random Random

Performances du système

Maison

Périphériques technologiques

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

PHPz

Apr 08, 2023 am 10:51 AM

谷歌数据集机器翻译

Bien que les gens de toute la Chine parlent chinois, les dialectes spécifiques selon les endroits sont légèrement différents. Par exemple, lorsque vous dites « Hutong », vous saurez que c'est le vieux Pékin, mais dans le sud, cela s'appelle. "Nong" .

De telles différences régionales subtiles se reflètent dans la tâche de « traduction automatique », et les résultats de la traduction sembleront insuffisamment « authentiques ». Cependant, presque tous les systèmes de traduction automatique actuels ne prennent pas en compte l'impact des langues régionales ( c'est-à-dire les dialectes).

Ce phénomène existe également dans le monde entier. Par exemple, la langue officielle du Brésil est le portugais, et il existe quelques différences régionales avec le portugais en Europe.

Récemment, Google a publié un tout nouvel ensemble de données et un référentiel d'évaluation FRMT qui peuvent être utilisés pour la traduction automatique de quelques plans, qui résout principalement le problème de la traduction dialectale. L'article a été publié sur TACL (Transactions of the. Association pour la linguistique computationnelle) .

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Lien papier : https://arxiv.org/pdf/2210.00193.pdf

Lien open source : https://github.com/google-research/google-research/tree/master/frmt

Cet ensemble de données comprend des traductions professionnelles de l'anglais vers deux variétés régionales de portugais et de chinois mandarin. Les documents sources sont conçus pour permettre une analyse détaillée des phénomènes d'intérêt, y compris des termes lexicalement distincts et des termes d'interférence.

Les chercheurs ont exploré les mesures d'évaluation automatique pour FRMT et vérifié leur corrélation avec l'évaluation manuelle d'experts dans le cadre de scénarios de notation de correspondance et d'inadéquation régionales.

Enfin, certains modèles de base sont proposés pour cette tâche et des suggestions d'orientation sont fournies aux chercheurs sur la façon de former, d'évaluer et de comparer leurs propres modèles. L'ensemble de données et le code d'évaluation sont open source.

Généralisation en quelques étapes

La plupart des systèmes de traduction automatique modernes sont formés sur des millions ou des milliards d'exemples de traduction, avec des données d'entrée constituées de phrases d'entrée en anglais et de leurs traductions portugaises correspondantes.

Cependant, la grande majorité des données de formation disponibles ne tiennent pas compte des différences régionales en matière de traduction.

Compte tenu de cette rareté des données, les chercheurs ont positionné FRMT comme une référence pour la traduction en quelques étapes, mesurant dans quelle mesure un modèle de traduction automatique identifie une variante linguistique régionale donnée lorsqu'il ne reçoit pas plus de 100 exemples étiquetés par capacité linguistique.

Les modèles de traduction automatique doivent identifier des modèles similaires dans d'autres échantillons de formation non étiquetés en fonction des modèles de langage affichés dans un petit nombre d'échantillons étiquetés (c'est-à-dire des exemples). Le modèle doit se généraliser de cette manière pour produire des traductions « idiomatiques » pour des domaines non explicitement spécifiés dans le modèle.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Par exemple, saisissez la phrase : Le bus est arrivé, et étant donné quelques exemples en portugais brésilien, le modèle devrait être capable de traduire « O ônibus chegou » si les exemples donnés sont en portugais européen, la traduction du modèle ; les résultats devraient être Cela devient "O autocarro chegou".

La méthode de traduction automatique en quelques étapes est d'une grande valeur pour la recherche et peut ajouter la prise en charge de langues régionales supplémentaires aux systèmes existants d'une manière très simple.

Bien que les travaux actuellement publiés par Google concernent les variantes régionales de deux langues, les chercheurs prédisent qu'une bonne approche sera facilement applicable à d'autres langues et variantes régionales.

En principe, ces méthodes sont également applicables à d'autres phénomènes de différence linguistique, tels que l'étiquette et le style.

Collecte de données

L'ensemble de données FRMT comprend des articles Wikipédia en anglais, dérivés de l'ensemble de données Wiki40b, qui ont été traduits dans différents portugais et chinois régionaux par des traducteurs professionnels rémunérés.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Afin de mettre en évidence les principales difficultés de traduction sensibles au domaine, les chercheurs ont utilisé trois catégories de contenu pour concevoir l'ensemble de données :

1 Lexical

Principalement, faites attention aux différences dans. choix de mots entre différentes régions. Par exemple, lors de la traduction d'une phrase contenant le mot « bus » respectivement en portugais brésilien et européen, le modèle doit être capable d'identifier la différence entre « ônibus » et « autocarro ».

Les chercheurs ont collecté manuellement 20 à 30 termes traduits spécifiques à une région sur la base de blogs et de sites Web éducatifs, et ont filtré et examiné les traductions en fonction des commentaires de bénévoles de langue maternelle de chaque région.

Sur la base de la liste de termes anglais obtenue, extrayez 100 phrases d'articles Wikipédia anglais pertinents (par exemple, bus). Pour le mandarin, répétez le même processus de collecte ci-dessus.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

2. Entité Entité

Les compartiments d'entités sont remplis de la même manière impliquant des personnes, des emplacements ou d'autres entités étroitement liées à l'un des deux domaines couverts par une langue particulière.

Par exemple, étant donné une phrase explicative telle que « À Lisbonne, je prenais souvent le bus. » (À Lisbonne, je prenais souvent le bus.), afin de la traduire correctement en portugais brésilien, le modèle doit être capable d'identifier deux pièges potentiels :

1) La connexion géographique plus étroite entre Lisbonne et le Portugal peut influencer le choix du modèle de traduction, aidant le modèle à déterminer qu'il doit traduire en portugais européen plutôt qu'en portugais brésilien, c'est-à-dire choisir " autocarro" au lieu de "ônibus".

2) Remplacer "Lisbonne" par "Brasilia" peut être un moyen relativement simple. Pour le même modèle, localiser sa sortie en portugais brésilien, même si le résultat de la traduction est toujours fluide, peut conduire à une sémantique inexacte.

3. Random Random Random

Le bucket aléatoire est utilisé pour vérifier si un modèle gère correctement d'autres phénomènes différents, contenant 100 articles sélectionnés au hasard parmi les et bonnes collections de Wikipédia.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Performances du système

Pour vérifier que les traductions collectées pour l'ensemble de données FRMT étaient capables de capturer des phénomènes spécifiques à une région, les chercheurs ont effectué une évaluation manuelle de la qualité des données.

Des annotateurs experts de chaque région respective identifient et classent les erreurs de traduction à l'aide d'un cadre de mesure de la qualité multidimensionnelle (MQM) : le cadre comprend un système de pondération de classification qui convertit les erreurs identifiées en un seul score, représente approximativement le nombre d'erreurs majeures. par phrase, c'est-à-dire que plus le nombre est petit, meilleure est la traduction.

Pour chaque région, les chercheurs ont demandé aux évaluateurs MQM d'évaluer les traductions de leur région et les traductions d'autres régions de leur langue.

Par exemple, les évaluateurs du portugais au Brésil ont évalué en même temps les traductions en portugais brésilien et européen. La différence entre les deux scores indique la généralité du phénomène linguistique, c'est-à-dire si la variante linguistique est acceptable, et non une autre langue.

Les résultats expérimentaux ont révélé qu'en portugais et en chinois, les évaluateurs ont trouvé en moyenne environ deux erreurs majeures de plus par phrase que dans les traductions correspondantes, indiquant que l'ensemble de données FRMT est effectivement capable de capturer des phénomènes linguistiques spécifiques à une région.

Bien que l'évaluation manuelle soit le meilleur moyen de garantir la qualité du modèle, elle est souvent lente et coûteuse.

Par conséquent, les chercheurs espèrent trouver une métrique automatique prête à l'emploi qui pourra être utilisée pour évaluer les performances du modèle dans le benchmark. Les chercheurs envisagent d'utiliser chrF, BLEU et BLEURT.

Selon MQM Evaluators, les résultats de traduction de plusieurs modèles de base ont été évalués et ont constaté que BLEURT a la meilleure corrélation avec le jugement humain, et la force de cette corrélation (coefficient de corrélation de Pearson de 0,65, ρ) est cohérente avec la cohérence inter-annotateur (0,70 intra -classe corrélation sexe) tout à fait.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique Performances du système

Cet article évalue certains modèles récemment sortis avec des capacités de contrôle en quelques coups.

Basées sur une évaluation humaine du MQM, les méthodes de base montrent toutes une certaine capacité à localiser la sortie en portugais, mais pour le chinois mandarin, la plupart n'utilisent pas la connaissance de la région cible pour générer d'excellents résultats de traduction locale.

Le modèle linguistique PaLM de Google a été le plus performant parmi les benchmarks évalués. Pour générer des traductions spécifiques à une région à l'aide de PaLM, une invite instructive est d'abord introduite dans le modèle et du texte est ensuite généré à partir de celui-ci pour combler les lacunes.

PaLM obtient de très bons résultats avec un seul exemple, en portugais, et en passant à 10 exemples, la qualité s'améliore légèrement, étant donné que PaLM n'est pas supervisé. Pour un entraînement dans de telles conditions, cette performance est déjà très bien.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Les résultats suggèrent également que les modèles linguistiques tels que PaLM pourraient être particulièrement efficaces pour mémoriser les choix lexicaux spécifiques à une région, nécessaires à une traduction fluide.

Cependant, il existe encore un écart de performance important entre PaLM et les humains.

Référence :

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7456

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment commenter Deepseek Feb 19, 2025 pm 05:42 PM

Deepseek est un puissant outil de récupération d'informations. .

Comment rechercher Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek est un moteur de recherche propriétaire qui ne recherche que dans une base de données ou un système spécifique, plus rapide et plus précis. Lorsque vous l'utilisez, il est conseillé aux utilisateurs de lire le document, d'essayer différentes stratégies de recherche, de demander de l'aide et des commentaires sur l'expérience utilisateur afin de tirer le meilleur parti de leurs avantages.

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

portail d'enregistrement officiel de Gate.io Exchange Feb 20, 2025 pm 04:27 PM

Gate.io est un échange de crypto-monnaie de premier plan qui offre une large gamme d'actifs cryptographiques et de paires de trading. Enregistrer Gate.io est très simple. Complétez l'inscription. Avec Gate.io, les utilisateurs peuvent profiter d'une expérience de trading de crypto-monnaie sûre et pratique.

Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

See all articles