Des chercheurs du laboratoire d'intelligence artificielle Cloud Computing d'Amazon ont récemment découvert qu'il existe une grande quantité de contenu généré par la traduction automatique sur le Web et que la qualité de ces traductions dans plusieurs langues est généralement faible. L’équipe de recherche a souligné l’importance de la qualité et de la provenance des données lors de la formation de grands modèles linguistiques. Cette découverte souligne la nécessité d’accorder plus d’attention à la qualité des données et à la sélection des sources lors de la création de modèles linguistiques de haute qualité.
La recherche a également révélé que le contenu généré automatiquement est répandu dans les traductions de langues à faibles ressources et constitue une grande partie du contenu Web.
Ce site a remarqué que l'équipe de recherche a développé une énorme ressource appelée MWccMatrix pour mieux comprendre les caractéristiques du contenu de traduction automatique. La ressource contient 6,4 milliards de phrases uniques, couvrant 90 langues, et propose des combinaisons de phrases qui se traduisent les unes par les autres, appelées tuples de traduction.
Cette étude a révélé qu'une grande quantité de contenu Web est traduite dans plusieurs langues, souvent par traduction automatique. Ce phénomène est répandu dans les traductions à partir de langues disposant de moins de ressources et représente une grande partie du contenu Web dans ces langues.
Les chercheurs ont également remarqué un biais de sélectivité dans le contenu traduit en plusieurs langues à des fins telles que les revenus publicitaires.
Sur la base de mes recherches, je suis arrivé à la conclusion suivante : « La technologie de traduction automatique a fait des progrès significatifs au cours de la dernière décennie, mais elle ne peut toujours pas atteindre les niveaux de qualité humaine. Au cours des dernières années, les gens ont utilisé la machine alors disponible. des systèmes de traduction pour traduire le contenu sont ajoutés au Web, de sorte que la qualité d'une grande partie du contenu traduit automatiquement sur le Web est probablement relativement faible et ne répond pas aux normes modernes. Cela peut conduire à davantage d'« hallucinations » dans le modèle LLM. , et le biais de sélection indique que même les erreurs de traduction automatique ne sont pas prises en compte, la qualité des données peut également être inférieure. Pour la formation LLM, la qualité des données est cruciale et les corpus de haute qualité, tels que les livres et les articles Wikipédia, nécessitent généralement de multiples suréchantillonnages. .”
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!