


Étude à grande échelle de Meta sur la traduction linguistique, les résultats sont tous « routiniers »
Début juillet de cette année, Meta AI a publié un nouveau modèle de traduction appelé No Language Left Behind (NLLB), que nous pouvons littéralement traduire par « Aucune langue laissée pour compte ».
Comme son nom l'indique, NLLB peut prendre en charge n'importe quelle traduction entre plus de 200 langues, et Meta AI l'a également rendu open source. Il peut traduire des langues que vous n'avez jamais vues auparavant, comme le luganda, l'ourdou, etc.
- Adresse papier : https://research.facebook.com/publications/no-lingual-left-behind/
- Adresse open source : https://github. com /facebookresearch/fairseq/tree/nllb
Cependant, cette recherche a été remise en question récemment. Certaines personnes pensent que bon nombre des affirmations faites par Meta AI dans le NLLB sont infondées et trompeuses, et les résultats de l'évaluation sont sérieux. conséquences. De plus, les sceptiques affirment qu'il serait facile d'obtenir des chiffres plus élevés que ceux rapportés par la méthodologie d'évaluation de Meta AI.
Le sceptique est Benjamin Marie, chercheur en traitement du langage naturel, qui maîtrise les technologies de traduction. Ce qu'il a remis en question peut être résumé par Meta AI comparant spBLEU et BLEU côte à côte.
Concernant cette question, certains chercheurs ont déclaré : spBLEU est une métrique raisonnable, à condition que le texte ne comporte pas d'espaces (thaï, etc.). Mais comparer spBLEU et BLEU est définitivement incorrect.
L'internaute Arle Lommel a répondu à Benjamin Marie : C'est un excellent point. Cela m’a également appris qu’en matière de recherche sur l’apprentissage automatique, nous devons être très prudents à l’égard des recherches qui manquent de confirmation. Ce que vous trouvez ici suggère que le problème se complique lorsque les gens se contentent de faire référence à des fractions sans contrôler la manière dont elles sont produites.
Vedanuj Goswami, l'un des auteurs de l'article, a déclaré : « Nous sommes à 100 % d'accord avec l'auteur sur le fait que vous ne pouvez pas comparer les scores BLEU avec différents tokenizers. Mais l'argument principal de l'auteur est que le gros problème dans notre article Il n'est pas vrai que la plupart des résultats sont incomparables.
Dans notre article, le tableau 30 et le tableau 31 utilisent le même tokenizer pour l'évaluation spBLEU (FLORES-101 spm tokenizer), nous n'utilisons pas spécifiquement FLORES -200. spm tokenizer. Nous décrivons cela en détail dans le titre du tableau 30 et dans la section 8.3.1. De même, les tableaux 35, 36, 37 et 38 utilisent tous des métriques/tokenizers comparables pour notre article. La méthode actuelle d'évaluation de la traduction automatique n'est pas parfaite et différents articles utilisent des méthodes différentes "
Ci-dessous, nous présentons le contenu spécifique des doutes de Benjamin Marie. :
La méthode d'évaluation est imparfaite
Premièrement. Faisons une analogie simple :Paul a 25 bananes et Bill a 30 tomates. Diriez-vous que Bill a 5 bananes de plus que Paul ?
BLEU est comme une banane, spBLEU est comme une tomate. Remplacez Paul par Travaux antérieurs et Bill par NLLB. On peut maintenant écrire quelque chose comme ceci :
Le travail précédent réalisé à 25 BLEU et NLLB réalisé à 30 spBLEU. Diriez-vous que NLLB est meilleur de 5 points BLEU que les travaux précédents ?
Avec l'analogie ci-dessus, le contenu présenté ci-dessous peut être plus facile à comprendre.
Auparavant, Meta AI a publié un article qui expliquait et évaluait de manière exhaustive le NLLB. Dans le résumé de l'article, ils affirment que le modèle atteint une amélioration BLEU de 44 % par rapport aux méthodes SOTA précédentes. En d’autres termes, NLLB produira de meilleurs résultats que les études précédentes.
Concernant BLEU, il est rare dans l'histoire de la recherche en traduction automatique de voir BLEU s'améliorer de 44% par rapport à la technologie SOTA précédente. Cette simple phrase dans l’article représente donc un progrès scientifique. Certains médias ont directement rapporté cette déclaration et, sans autre vérification, ont positionné Meta AI au sommet de la traduction automatique des langues.
Si Meta AI choisit de publier une étude technique d’une telle envergure, elle devrait fournir des preuves scientifiques très fiables. Sinon, la prétention de Meta AI de faire mieux que les autres, sans aucune preuve, ne fera que saper le travail très acharné que d'autres institutions de recherche ont accompli et continuent de faire.
Marie Pour expliquer le problème d'erreur NLLB, il tente de montrer comment Meta AI peut être induite en erreur par ses propres résultats. À l'aide d'exemples simples de NLLB et d'exemples similaires qu'elle a trouvés elle-même, Marie démontre à quel point il est facile d'aller au-delà de SOTA en utilisant les méthodes d'évaluation imparfaites de NLLB. Enfin, Marie identifie et explique spécifiquement les principales erreurs de leur évaluation.
Meta AI a comparé son modèle avec les données de plus de 20 études précédentes et a conclu que NLLB surpassait considérablement les études précédentes. Pour rendre possible un si grand nombre de comparaisons, ils s'appuient sur des mesures d'évaluation automatisées pour l'évaluation de la traduction automatique, principalement BLEU et spBLEU.
BLEU est extrêmement populaire en traduction automatique, malgré ses défauts.
Par exemple, nous aimerions traduire le texte français suivant de l'ensemble de données FLORES101 en anglais à l'aide de Google Translate. Si vous parlez français, vous remarquerez qu'il s'agit d'une traduction de très mauvaise qualité : erreurs grammaticales, terminologie incohérente et elle ne se lit pas naturellement. En fait, puisque l’ensemble de données a été créé à partir de l’anglais, Meta AI n’évalue la traduction automatique que lors de la traduction vers l’anglais.
Nous pouvons la comparer à la traduction de référence en comptant combien de jetons dans Google Translate se trouvent également dans cette traduction de référence. Un jeton est défini ici comme une séquence de caractères séparés par un espace. Orange met en évidence toutes les séquences de jetons dans Google Translate ci-dessus qui apparaissent dans la traduction de référence ci-dessous.
En prenant en compte uniquement tous les jetons correspondants, le score BLEU peut être calculé à 50,8 BLEU. Ce score à lui seul ne veut rien dire, il n'a de sens que par rapport à un autre score BLEU.
Le point clé à comprendre ici est que le score est calculé sur la base de jetons, ce qui est ignoré dans la plupart des recherches en traduction automatique. Le score BLEU est calculé à l'aide de SacreBLEU, qui effectue sa propre tokenisation interne, en ajoutant simplement des espaces avant la ponctuation. Il s’agit de l’une des méthodes les plus fiables et reproductibles de calcul des scores BLEU. Meta AI utilise spBLEU.
Alors c'est quoi spBLEU ? Il s'agit de BLEU mais utilise une tokenisation différente. Il symbolise Google Translate et les traductions de référence comme suit.
Le jeton associé à spBLEU génère le jeton en divisant le mot en morceaux plus petits (ce qui est ajouté au jeton n'est pas important ici, essayez de l'ignorer). Une conséquence directe de l’utilisation de la tokenisation spBLEU est que nous nous retrouvons avec plus de jetons pour les traductions et les références. Puisqu'il y a plus de jetons, nous pouvons nous attendre à ce que Google Translate fasse correspondre davantage de jetons à partir de la référence. Ensuite, le score augmentera. En fait, le score spBLEU est ici de 54,8.
On ne peut s'empêcher de demander 4 points de plus que le score BLEU calculé ci-dessus à l'aide de la tokenisation interne de SacreBLEU ? Alors, la traduction s’améliore-t-elle de plus en plus ?
Apparemment non, la traduction reste la même. Comparer BLEU et spBLEU n'a aucun sens. BLEU et spBLEU gèrent différemment Google Translate et les traductions de référence et sont utilisés uniquement à des fins d'évaluation. Ce sont en fait des indicateurs différents. S’il s’agissait du même indicateur, nous n’aurions pas besoin de les nommer différemment. Comme nous le lisons et l’entendons souvent dans la communauté des chercheurs en traduction automatique, il n’est pas juste, voire injuste, de comparer la qualité des traductions à l’aide des scores BLEU calculés pour des jetons différents, voire presque similaires. Si vous souhaitez que votre recherche soit scientifiquement crédible, il vous suffit de calculer votre score BLEU de manière cohérente en utilisant exactement la même tokenisation.
Meta AI affirme que NLLB est bien meilleur que les études précédentes car ils peuvent toujours obtenir de meilleurs scores spBLEU que les scores BLEU publiés précédemment, l'inverse est vrai. Car obtenir un score spBLEU inférieur au score BLEU pour une traduction donnée est une tâche extrêmement difficile. Ce qui est encore plus déroutant, c'est que si leur objectif est d'obtenir le score le plus élevé, pourquoi ne pas simplement utiliser la métrique chrBLEU.
Par exemple dans Google Translate et Reference Translate, chaque caractère devient un jeton (c'est-à-dire que des espaces sont ajoutés entre les caractères).
Ensuite, nous calculons la valeur chrBLEU à 75,5, soit 20,7 points de plus que spBLEU. Selon l'évaluation du NLLB, il s'agira d'une amélioration significative qui constituera un nouveau point culminant pour la traduction automatique, tandis que le Google Translate original reste inchangé.
Exemples d'erreurs dans les articles
Maintenant, regardons un exemple concret d'évaluation NLLB.
Meta AI prétend avoir surpassé les travaux précédents en comparant ses chiffres aux chiffres précédemment publiés. Dans cet article, les conclusions sont tirées des tableaux 30, 31, 32, 35, 36, 37 et 38, qui sont comparés aux travaux antérieurs.
partira du tableau 32. C’est l’un des exemples les plus illustratifs en raison des différents types d’erreurs qui peuvent survenir.
Dans le tableau, tous les nombres à l'exception de la colonne NLLB-200 sont copiés directement à partir des articles précédemment publiés IndicBART et IndicTrans. Pour faciliter la lecture, Meta AI marque le score le plus élevé pour chaque langue en gras, la colonne en gras indiquant que le système correspondant est le meilleur.
Le tableau montre spBLEU pour tous, ce qui est trompeur. En fait, tout signifie uniquement NLLB-200, puisque IndicBART et IndicTrans n'utilisent pas spBLEU mais BLEU. Cependant, après comparaison, il s’avère que le score spBLEU du NLLB est supérieur au score BLEU des travaux antérieurs. Mais cela signifie-t-il que NLLB est meilleur ? Est-ce que 30 tomates valent mieux que 25 bananes ?
Dans le texte expliquant les résultats, on peut voir :
Par exemple (c) Google Translate, (d) Microsoft Translate. Le NLLB-200 surpasse considérablement tous les modèles dans la plupart des directions. L'ensemble de données de formation pour NLLB-200 comprend 25 langues indiennes, soit presque deux fois plus que celles couvertes par (a) et (b). Les améliorations des performances peuvent être attribuées à davantage de transmissions multilingues, ainsi qu'à une meilleure qualité des données pour l'exploration des langues indiennes et la rétro-traduction.
En d’autres termes, NLLB contient plus de tomates que l’étude précédente n’avait de bananes. Donc NLLB a plus de bananes.
Les scores spBLEU sont supérieurs aux scores BLEU car ils sont calculés sur des jetons plus petits et différents. Cependant, NLLB traduit-il mieux ? Nous ne pouvons tout simplement pas répondre. Pour aggraver les choses, IndicBART et IndicTrans ne sont pas comparables car ils utilisent tous deux deux méthodes de jetons différentes.
La plupart des tableaux répertoriés ci-dessus ont des problèmes similaires et contiennent plus ou moins d'erreurs.
Si vous regardez les articles publiés par IndicBART et IndicTrans pour vérifier les chiffres, vous verrez qu'il y a d'autres problèmes. Les colonnes (a, b) du tableau 32 sont toutes inversées, les numéros IndicBART sont les numéros dans indicatrans et vice versa.
Si vous regardez le tableau 30, le problème est encore plus grand. Cependant, le tableau 30 a été mis à jour dans le journal et Benjamin Marie a exprimé sa gratitude à Vedanuj pour la mise à jour de l'article. Le tableau 30 mentionne que le tokenizer est le même. J'avoue mon erreur.
Comme le montre le tableau 32, Meta AI affirme que NLLB surpasse les précédents DeltaLM et Deepnet, tout en comparant les scores BLEU obtenus en utilisant différentes méthodes de calcul. Ce qui est nouveau ici, c'est qu'ils ont également comparé NLLB à leurs travaux précédents, M2M-100, également évalués à l'aide de spBLEU. Alors cette comparaison a-t-elle un sens ? Non. Même s’ils utilisent tous deux spBLEU, ils utilisent en réalité des tokenizers différents, ce qui rend la comparaison impossible. Ils font la déclaration suivante dans la note de bas de page 28 :
"Notre analyse montre que lorsqu'ils sont mesurés sur le langage FLORES-101, le SPM-200 de FLORES-200 et le SPM-100 de FLORES-101 Là Il y a de petites différences entre les modèles. Le principal avantage du SPM-200 est qu'il couvre plus de 200 langues.
De petites différences sont aussi des différences. Dans ce cas, ces différences sont importantes car nous menons des recherches scientifiques.
Une avancée de NLLB par rapport à leur travail sur M2M-100 est l'ajout de plus de langues au modèle et à l'ensemble de données. Il inclut le modèle de tokenisation. Techniquement parlant, si vous ajoutez plus de langues avec des systèmes d'écriture différents à ce tokenizer tout en gardant la taille du vocabulaire constante, vous obtiendrez mécaniquement un vocabulaire avec des jetons plus petits. Comme vu ci-dessus, l’utilisation de jetons plus petits peut entraîner de meilleurs scores. Vérifions-le.
Comme le montre la figure ci-dessous :
Cette tokenisation génère 95 jetons, tandis que NLLB génère 97 jetons. Ce n'est qu'une différence subtile, si spBLEU est calculé à l'aide de la tokenisation M2M-100, le score est de 53,8, soit 1 point de moins que la tokenisation NLLB. Selon la littérature de recherche sur la traduction automatique, une différence de 1 point suffit généralement pour affirmer qu’un système est nettement meilleur. Comme prévu, NLLB produira des scores plus élevés que M2M-100.
Le tableau suivant est le dernier tableau de cet article : Tableau 31.
Encore une fois, nous avons les mêmes problèmes mentionnés ci-dessus :
1. M2M-100 et NLLB utilisent deux tokenisations différentes pour la notation, la comparaison ne peut donc pas être effectuée. 2. MMTAfrica semble utiliser la tokenisation M2M-100 dans son article. C'est comparable au M2M-100, mais pas au NLLB.
Il y a encore quelques questions dans l'article, je ne les présenterai donc pas une par une ici. La principale erreur commise par Meta AI dans NLLB est une erreur très courante dans l'évaluation de la traduction automatique, même si nous devons admettre que ce travail est vraiment étonnant et peut fournir une qualité de traduction supérieure pour de nombreuses langues.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Binance est le suzerain de l'écosystème mondial de trading d'actifs numériques, et ses caractéristiques comprennent: 1. Le volume de négociation quotidien moyen dépasse 150 milliards de dollars, prend en charge 500 paires de négociation, couvrant 98% des monnaies grand public; 2. La matrice d'innovation couvre le marché des dérivés, la mise en page Web3 et le système éducatif; 3. Les avantages techniques sont des moteurs de correspondance d'une milliseconde, avec des volumes de traitement de pointe de 1,4 million de transactions par seconde; 4. Conformité Progress détient des licences de 15 pays et établit des entités conformes en Europe et aux États-Unis.

Les échanges jouent un rôle essentiel sur le marché des crypto-monnaies d'aujourd'hui. Ce ne sont pas seulement des plateformes pour les investisseurs pour négocier, mais aussi des sources importantes de liquidité du marché et la découverte des prix. Les plus grands échanges de devises virtuels au monde se classent parmi les dix premiers, et ces échanges sont non seulement bien en avance dans le volume des échanges, mais présentent également leurs propres avantages dans l'expérience utilisateur, la sécurité et les services innovants. Les échanges qui dépassent la liste ont généralement une grande base d'utilisateurs et une influence approfondie du marché, et leur volume de trading et leurs types d'actifs sont souvent difficiles à atteindre par d'autres échanges.

Après la mise à niveau de l'ETH, les novices devraient adopter les stratégies suivantes pour éviter les pertes: 1. Faites leurs devoirs et comprenez les connaissances de base et la mise à niveau du contenu de l'ETH; 2. Contrôler les positions, tester les eaux en petites quantités et diversifier l'investissement; 3. Faire un plan de négociation, clarifier les objectifs et fixer des points de perte d'arrêt; 4. Profilement rationnellement et éviter la prise de décision émotionnelle; 5. Choisissez une plate-forme de trading formelle et fiable; 6. Considérons la tenue à long terme pour éviter l'impact des fluctuations à court terme.

Sur le marché volatil des crypto-monnaies, les investisseurs recherchent des alternatives qui vont au-delà des devises populaires. Bien que les crypto-monnaies bien connues telles que Solana (Sol), Cardano (ADA), XRP et Dogecoin (DOGE) sont également confrontées à des défis tels que le sentiment du marché, l'incertitude réglementaire et l'évolutivité. Cependant, un nouveau projet émergent, la rexasfinance (RXS), est en émergence. Il ne s'appuie pas sur les effets de célébrités ou le battage médiatique, mais se concentre sur la combinaison des actifs du monde réel (RWA) avec la technologie de la blockchain pour offrir aux investisseurs une façon innovante d'investir. Cette stratégie le fait espérer être l'un des projets les plus réussis de 2025. Rexasfi

Les plates-formes qui ont des performances exceptionnelles dans le commerce, la sécurité et l'expérience utilisateur en effet de levier en 2025 sont: 1. OKX, adaptés aux traders à haute fréquence, fournissant jusqu'à 100 fois l'effet de levier; 2. Binance, adaptée aux commerçants multi-monnaies du monde entier, offrant un effet de levier 125 fois élevé; 3. Gate.io, adapté aux joueurs de dérivés professionnels, fournissant 100 fois l'effet de levier; 4. Bitget, adapté aux novices et aux commerçants sociaux, fournissant jusqu'à 100 fois l'effet de levier; 5. Kraken, adapté aux investisseurs stables, fournissant 5 fois l'effet de levier; 6. BUTBIT, adapté aux explorateurs Altcoin, fournissant 20 fois l'effet de levier; 7. Kucoin, adapté aux commerçants à faible coût, fournissant 10 fois l'effet de levier; 8. Bitfinex, adapté au jeu senior

WorldCoin (WLD) se démarque sur le marché des crypto-monnaies avec ses mécanismes uniques de vérification biométrique et de protection de la vie privée, attirant l'attention de nombreux investisseurs. WLD a permis de se produire avec remarquablement parmi les Altcoins avec ses technologies innovantes, en particulier en combinaison avec la technologie d'Intelligence artificielle OpenAI. Mais comment les actifs numériques se comporteront-ils au cours des prochaines années? Prédons ensemble le prix futur de WLD. Les prévisions de prix de 2025 WLD devraient atteindre une croissance significative de la WLD en 2025. L'analyse du marché montre que le prix moyen du WLD peut atteindre 1,31 $, avec un maximum de 1,36 $. Cependant, sur un marché baissier, le prix peut tomber à environ 0,55 $. Cette attente de croissance est principalement due à WorldCoin2.

Le plongeon sur le marché des crypto-monnaies a provoqué la panique parmi les investisseurs, et Dogecoin (Doge) est devenu l'une des zones les plus difficiles. Son prix a fortement chuté et le verrouillage de la valeur totale de la finance décentralisée (DEFI) (TVL) a également connu une baisse significative. La vague de vente de "Black Monday" a balayé le marché des crypto-monnaies, et Dogecoin a été le premier à être touché. Son Defitvl a chuté aux niveaux de 2023 et le prix de la devise a chuté de 23,78% au cours du dernier mois. Le Defitvl de Dogecoin est tombé à un minimum de 2,72 millions de dollars, principalement en raison d'une baisse de 26,37% de l'indice de valeur SOSO. D'autres plates-formes de Defi majeures, telles que le Dao et Thorchain ennuyeux, TVL ont également chuté de 24,04% et 20, respectivement.

Aavenomics est une proposition de modification du jeton de protocole Aave et d'introduire des dépens de jetons, qui a mis en œuvre un quorum pour Aavedao. Marc Zeller, fondateur de l'Aave Project Chain (ACI), l'a annoncé sur X, notant qu'il marque une nouvelle ère pour l'accord. Marc Zeller, fondateur de l'Aave Chain Initiative (ACI), a annoncé sur X que la proposition d'Aavenomics comprend la modification du jeton Aave Protocol et l'introduction de dépens de jetons, a obtenu un quorum pour Aavedao. Selon Zeller, cela marque une nouvelle ère pour l'accord. Les membres d'Aavedao ont voté massivement pour soutenir la proposition, qui était de 100 par semaine mercredi
