Texte/Chen Gen
Combien de langues connaissez-vous ? Selon les informations pertinentes, il existe plus de 7 000 langues dans le monde. Cependant, nous n’en connaissons peut-être que quelques-unes, voire des dizaines. La technologie actuelle de reconnaissance vocale par ordinateur peut couvrir plus de 100 types. Pour beaucoup de gens, il s’agit d’un chiffre astronomique. Mais le nouveau modèle de langage open source de Meta a réalisé des avancées encore plus importantes.
Depuis sa séparation avec OpenAI et Google, Meta est allé de plus en plus profondément dans la direction des grands modèles open source. Récemment, le nouveau modèle de langage d'IA open source de Meta sur GitHub - Massively Multilingual Speech (MMS, Massively Multilingual Speech) peut reconnaître plus de 4 000 langues parlées, 40 fois plus que les technologies actuellement connues, il étend également la conversion du texte et de la parole ; la technologie va d'environ 100 langues à plus de 1 100. De plus, la caractéristique la plus remarquable du MMS open source de Meta est qu'il prend non seulement en charge l'ASR, mais également le TTS, ce qui signifie qu'il peut non seulement convertir la parole en texte, mais également convertir le texte en parole.
Le blog du site officiel de Meta mentionnait spécifiquement le tatuyo, une petite langue parlée par seulement quelques centaines de personnes. Bien qu’il soit de peu d’utilité pour un usage quotidien, c’est un bon assistant pour la recherche. Alors, comment pouvons-nous trouver et affiner efficacement les ensembles de données pour cette petite langue qui n’est parlée que par quelques centaines de personnes ?
Meta a déclaré que dans le processus de collecte de données audio dans des milliers de langues, ils ont utilisé une méthode non conventionnelle d'enregistrement de texte religieux. "Nous nous tournons vers des textes religieux (comme la Bible) qui ont été traduits dans de nombreuses langues différentes et dont les traductions ont été largement étudiées pour la recherche en traduction linguistique basée sur des textes. De plus, ces traductions ont des enregistrements accessibles au public de personnes adoptant différentes Le contexte de lecture de langues. »
Dans le même temps, Meta utilise le modèle « d'apprentissage de représentation vocale auto-supervisé » wav2vec 2.0 de l'entreprise dans la formation du modèle MMS, permettant à la machine d'apprendre sans s'appuyer sur des données de formation étiquetées avec elle, elle peut apprendre en moins d'entraînement ; un modèle de reconnaissance vocale sur les données.
Concernant le biais du modèle qui peut résulter de cette approche, Meta a affirmé : « Bien que ces données proviennent d'un domaine spécifique et soient généralement lues par des hommes ; notre analyse montre que notre modèle fonctionne aussi bien sur les voix masculines que féminines. l'enregistrement est religieux, mais notre analyse montre que cela ne biaise pas le modèle vers la production d'un langage plus religieux »
.En utilisant le modèle wav2vec 2.0 du paramètre 1B pour entraîner un modèle de reconnaissance vocale multilingue pour plus de 1 100 langues, les développeurs ont constaté qu'à mesure que le nombre de langues augmente, les performances diminuent, mais très légèrement : de 61 langues à Sur 1 107 langues, le taux d'erreur de caractères n'a augmenté que d'environ 0,4 %, mais la couverture linguistique a été multipliée par plus de 17. »
Sur cette question, Meta a également effectué une comparaison détaillée avec Whisper d'OpenAI. Le modèle entraîné sur les données a atteint un taux d'erreur de mot moitié moins élevé, et les données d'entraînement étaient inférieures : les données d'entraînement de Meta ne contenaient que 45 000 heures de données annotées, ce qui était supérieur à celui de Meta. Whisper's 10 fois moins et 10 fois plus de prise en charge linguistique, ce qui représente une grande amélioration. Cependant, Meta a également déclaré que son nouveau modèle n'est pas parfait. « Par exemple, il existe un risque que le modèle parole-texte puisse mal transcrire des mots ou des phrases sélectionnés. Cependant, nous pensons toujours que la collaboration de l'ensemble de la communauté de l'IA est nécessaire. important pour les responsables "Il est essentiel de développer la technologie de l'IA de manière indépendante." Meta a désormais mis en open source les modèles et le code pertinents afin que d'autres membres de la communauté des chercheurs puissent s'appuyer sur ce travail.
Meta n'a pas pleinement envisagé l'avenir des grands modèles vocaux, mais ils espèrent pouvoir le faire et espèrent qu'un seul modèle pourra résoudre plusieurs tâches vocales dans toutes les langues. "Nous avons formé différents modèles pour la reconnaissance vocale, la synthèse vocale et la reconnaissance du langage, mais nous avons des raisons de croire qu'à l'avenir, un modèle sera capable d'effectuer toutes ces tâches et bien plus encore, conduisant à de meilleures performances globales", a déclaré Meta.
En regardant vers l'avenir, Meta espère étendre la couverture du MMS pour prendre en charge davantage de langues et améliorer sa gestion des dialectes. Briser davantage les barrières linguistiques entre les gens du monde entier, permettant aux gens de tous les coins du monde de communiquer normalement par le son. C’est une belle vision, mais nous pensons que ce jour viendra tôt ou tard.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!