


Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique
Bien que les gens de toute la Chine parlent chinois, les dialectes spécifiques selon les endroits sont légèrement différents. Par exemple, lorsque vous dites « Hutong », vous saurez que c'est le vieux Pékin, mais dans le sud, cela s'appelle. "Nong" .
De telles différences régionales subtiles se reflètent dans la tâche de « traduction automatique », et les résultats de la traduction sembleront insuffisamment « authentiques ». Cependant, presque tous les systèmes de traduction automatique actuels ne prennent pas en compte l'impact des langues régionales ( c'est-à-dire les dialectes).
Ce phénomène existe également dans le monde entier. Par exemple, la langue officielle du Brésil est le portugais, et il existe quelques différences régionales avec le portugais en Europe.
Récemment, Google a publié un tout nouvel ensemble de données et un référentiel d'évaluation FRMT qui peuvent être utilisés pour la traduction automatique de quelques plans, qui résout principalement le problème de la traduction dialectale. L'article a été publié sur TACL (Transactions of the. Association pour la linguistique computationnelle) .
Lien papier : https://arxiv.org/pdf/2210.00193.pdf
Lien open source : https://github.com/google-research/google-research/tree/master/frmt
Cet ensemble de données comprend des traductions professionnelles de l'anglais vers deux variétés régionales de portugais et de chinois mandarin. Les documents sources sont conçus pour permettre une analyse détaillée des phénomènes d'intérêt, y compris des termes lexicalement distincts et des termes d'interférence.
Les chercheurs ont exploré les mesures d'évaluation automatique pour FRMT et vérifié leur corrélation avec l'évaluation manuelle d'experts dans le cadre de scénarios de notation de correspondance et d'inadéquation régionales.
Enfin, certains modèles de base sont proposés pour cette tâche et des suggestions d'orientation sont fournies aux chercheurs sur la façon de former, d'évaluer et de comparer leurs propres modèles. L'ensemble de données et le code d'évaluation sont open source.
Généralisation en quelques étapes
La plupart des systèmes de traduction automatique modernes sont formés sur des millions ou des milliards d'exemples de traduction, avec des données d'entrée constituées de phrases d'entrée en anglais et de leurs traductions portugaises correspondantes.
Cependant, la grande majorité des données de formation disponibles ne tiennent pas compte des différences régionales en matière de traduction.
Compte tenu de cette rareté des données, les chercheurs ont positionné FRMT comme une référence pour la traduction en quelques étapes, mesurant dans quelle mesure un modèle de traduction automatique identifie une variante linguistique régionale donnée lorsqu'il ne reçoit pas plus de 100 exemples étiquetés par capacité linguistique.
Les modèles de traduction automatique doivent identifier des modèles similaires dans d'autres échantillons de formation non étiquetés en fonction des modèles de langage affichés dans un petit nombre d'échantillons étiquetés (c'est-à-dire des exemples). Le modèle doit se généraliser de cette manière pour produire des traductions « idiomatiques » pour des domaines non explicitement spécifiés dans le modèle.
Par exemple, saisissez la phrase : Le bus est arrivé, et étant donné quelques exemples en portugais brésilien, le modèle devrait être capable de traduire « O ônibus chegou » si les exemples donnés sont en portugais européen, la traduction du modèle ; les résultats devraient être Cela devient "O autocarro chegou".
La méthode de traduction automatique en quelques étapes est d'une grande valeur pour la recherche et peut ajouter la prise en charge de langues régionales supplémentaires aux systèmes existants d'une manière très simple.
Bien que les travaux actuellement publiés par Google concernent les variantes régionales de deux langues, les chercheurs prédisent qu'une bonne approche sera facilement applicable à d'autres langues et variantes régionales.
En principe, ces méthodes sont également applicables à d'autres phénomènes de différence linguistique, tels que l'étiquette et le style.
Collecte de données
L'ensemble de données FRMT comprend des articles Wikipédia en anglais, dérivés de l'ensemble de données Wiki40b, qui ont été traduits dans différents portugais et chinois régionaux par des traducteurs professionnels rémunérés.
Afin de mettre en évidence les principales difficultés de traduction sensibles au domaine, les chercheurs ont utilisé trois catégories de contenu pour concevoir l'ensemble de données :
1 Lexical
Principalement, faites attention aux différences dans. choix de mots entre différentes régions. Par exemple, lors de la traduction d'une phrase contenant le mot « bus » respectivement en portugais brésilien et européen, le modèle doit être capable d'identifier la différence entre « ônibus » et « autocarro ».
Les chercheurs ont collecté manuellement 20 à 30 termes traduits spécifiques à une région sur la base de blogs et de sites Web éducatifs, et ont filtré et examiné les traductions en fonction des commentaires de bénévoles de langue maternelle de chaque région.
Sur la base de la liste de termes anglais obtenue, extrayez 100 phrases d'articles Wikipédia anglais pertinents (par exemple, bus). Pour le mandarin, répétez le même processus de collecte ci-dessus.
2. Entité Entité
Les compartiments d'entités sont remplis de la même manière impliquant des personnes, des emplacements ou d'autres entités étroitement liées à l'un des deux domaines couverts par une langue particulière.
Par exemple, étant donné une phrase explicative telle que « À Lisbonne, je prenais souvent le bus. » (À Lisbonne, je prenais souvent le bus.), afin de la traduire correctement en portugais brésilien, le modèle doit être capable d'identifier deux pièges potentiels :
1) La connexion géographique plus étroite entre Lisbonne et le Portugal peut influencer le choix du modèle de traduction, aidant le modèle à déterminer qu'il doit traduire en portugais européen plutôt qu'en portugais brésilien, c'est-à-dire choisir " autocarro" au lieu de "ônibus".
2) Remplacer "Lisbonne" par "Brasilia" peut être un moyen relativement simple. Pour le même modèle, localiser sa sortie en portugais brésilien, même si le résultat de la traduction est toujours fluide, peut conduire à une sémantique inexacte.
3. Random Random Random
Le bucket aléatoire est utilisé pour vérifier si un modèle gère correctement d'autres phénomènes différents, contenant 100 articles sélectionnés au hasard parmi les et bonnes collections de Wikipédia.
Performances du système
Pour vérifier que les traductions collectées pour l'ensemble de données FRMT étaient capables de capturer des phénomènes spécifiques à une région, les chercheurs ont effectué une évaluation manuelle de la qualité des données.
Des annotateurs experts de chaque région respective identifient et classent les erreurs de traduction à l'aide d'un cadre de mesure de la qualité multidimensionnelle (MQM) : le cadre comprend un système de pondération de classification qui convertit les erreurs identifiées en un seul score, représente approximativement le nombre d'erreurs majeures. par phrase, c'est-à-dire que plus le nombre est petit, meilleure est la traduction.
Pour chaque région, les chercheurs ont demandé aux évaluateurs MQM d'évaluer les traductions de leur région et les traductions d'autres régions de leur langue.
Par exemple, les évaluateurs du portugais au Brésil ont évalué en même temps les traductions en portugais brésilien et européen. La différence entre les deux scores indique la généralité du phénomène linguistique, c'est-à-dire si la variante linguistique est acceptable, et non une autre langue.
Les résultats expérimentaux ont révélé qu'en portugais et en chinois, les évaluateurs ont trouvé en moyenne environ deux erreurs majeures de plus par phrase que dans les traductions correspondantes, indiquant que l'ensemble de données FRMT est effectivement capable de capturer des phénomènes linguistiques spécifiques à une région.
Bien que l'évaluation manuelle soit le meilleur moyen de garantir la qualité du modèle, elle est souvent lente et coûteuse.
Par conséquent, les chercheurs espèrent trouver une métrique automatique prête à l'emploi qui pourra être utilisée pour évaluer les performances du modèle dans le benchmark. Les chercheurs envisagent d'utiliser chrF, BLEU et BLEURT.
Selon MQM Evaluators, les résultats de traduction de plusieurs modèles de base ont été évalués et ont constaté que BLEURT a la meilleure corrélation avec le jugement humain, et la force de cette corrélation (coefficient de corrélation de Pearson de 0,65, ρ) est cohérente avec la cohérence inter-annotateur (0,70 intra -classe corrélation sexe) tout à fait.Performances du système
Cet article évalue certains modèles récemment sortis avec des capacités de contrôle en quelques coups.
Basées sur une évaluation humaine du MQM, les méthodes de base montrent toutes une certaine capacité à localiser la sortie en portugais, mais pour le chinois mandarin, la plupart n'utilisent pas la connaissance de la région cible pour générer d'excellents résultats de traduction locale.
Le modèle linguistique PaLM de Google a été le plus performant parmi les benchmarks évalués. Pour générer des traductions spécifiques à une région à l'aide de PaLM, une invite instructive est d'abord introduite dans le modèle et du texte est ensuite généré à partir de celui-ci pour combler les lacunes.
PaLM obtient de très bons résultats avec un seul exemple, en portugais, et en passant à 10 exemples, la qualité s'améliore légèrement, étant donné que PaLM n'est pas supervisé. Pour un entraînement dans de telles conditions, cette performance est déjà très bien.https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Deepseek est un puissant outil de récupération d'informations. .

Deepseek est un moteur de recherche propriétaire qui ne recherche que dans une base de données ou un système spécifique, plus rapide et plus précis. Lorsque vous l'utilisez, il est conseillé aux utilisateurs de lire le document, d'essayer différentes stratégies de recherche, de demander de l'aide et des commentaires sur l'expérience utilisateur afin de tirer le meilleur parti de leurs avantages.

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Gate.io est un échange de crypto-monnaie de premier plan qui offre une large gamme d'actifs cryptographiques et de paires de trading. Enregistrer Gate.io est très simple. Complétez l'inscription. Avec Gate.io, les utilisateurs peuvent profiter d'une expérience de trading de crypto-monnaie sûre et pratique.

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que
