Home > Technology peripherals > AI > Byte's large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

Byte's large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

WBOY
Release: 2024-07-25 17:53:43
Original
930 people have browsed it

Whether it’s tongue twisters with super fast speech and complex pronunciation, exquisite classical Chinese, or casual chats full of impromptu and inspiration, the model can provide accurate and authentic translation results smoothly and naturally.

In recent years, artificial intelligence (AI), especially AI represented by large language models (LLMs), is developing at an alarming rate. These models are used in a variety of natural language processing tasks. Demonstrated outstanding abilities. However, despite breakthroughs in many fields, simultaneous interpretation (Simultaneous Interpretation, SI), which represents the top level of human language, is still a problem that has not been completely overcome.

Traditional simultaneous interpretation software on the market usually adopts the cascaded model method, that is, automatic speech recognition (ASR) is performed first, and then machine translation (MT) is performed. There is a significant problem with this approach – error propagation. Errors in the ASR process will directly affect the subsequent translation quality, leading to serious error accumulation. In addition, due to limited low-latency requirements, traditional simultaneous interpretation systems usually only use small models with poor performance, which creates bottlenecks in dealing with complex and changeable practical application scenarios.

Researchers from the ByteDance Research team launched an end-to-end simultaneous interpretation agent: Cross Language Agent - Simultaneous Interpretation, CLASI. Its effect is close to professional artificial-level simultaneous interpretation, showing great potential and Advanced technical capabilities. CLASI adopts an end-to-end architecture to avoid the problem of error propagation in the cascade model. It relies on the speech understanding capabilities of the large bean bag base model and the large bean bag model speech group. It also has the ability to acquire knowledge from the outside, and finally formed A simultaneous interpretation system that is comparable to human performance.

Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

  • Paper address: https://byteresearchcla.github.io/clasi/technical_report.pdf
  • Display page: https://byteresearchcla.github.io/clasi/

Effect Show

Video Demo: First, use a few impromptu videos to experience the effect of CLASI. All subtitles are recorded and output in real time. We can see that whether it is tongue twisters with fast speech and complex pronunciation, exquisite classical Chinese, or casual chats full of impromptu and inspiration, the model can provide accurate and authentic translation results smoothly and naturally. Not to mention, CLASI excels in its specialty – translating conference scenes.

Impromptu conversation-ConstellationBytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.Reading-Chibi FuBytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.Tongue twistersBytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

For more videos, please click "Read the original text" to view

Quantitative comparison: The researchers invited professional simultaneous interpreters to conduct manual evaluations in four different fields in terms of Chinese-English and English-Chinese translation, and used an evaluation index consistent with manual simultaneous interpretation: the proportion of effective information (percentage system). As can be seen in the figure, the CLASI system is significantly ahead of all commercial systems and open source SOTA systems, and even reaches or exceeds the level of human simultaneous interpretation on some test sets (it is generally believed that the average level of human simultaneous interpretation is about 80%).

Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

System Architecture

En termes d'architecture système, CLASI adopte une architecture basée sur les agents LLM (à gauche dans la figure ci-dessous), qui définit l'interprétation simultanée comme une série d'opérations simples et coordonnées, comprenant la lecture de flux audio, la récupération (facultatif) et la lecture de la mémoire, mettre à jour la mémoire, la sortie, etc. L'ensemble du processus est contrôlé de manière autonome par un vaste modèle linguistique, permettant ainsi d'obtenir un équilibre efficace entre performances en temps réel et qualité de traduction. Le système peut ajuster de manière flexible les stratégies de traitement de chaque lien en fonction des besoins réels, garantissant ainsi le maintien de l'exactitude et de la cohérence du contenu traduit tout en transmettant efficacement les informations. Le modèle sous-jacent de CLASI est un LLM conditionné par un encodeur, pré-entraîné sur des quantités massives de données non supervisées et supervisées. L'architecture système du modèle CLASI est présentée dans la figure ci-dessous.

Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

Figure 1 : Schéma montrant le processus de fonctionnement global du CLASSI. À l'étape 1, CLASSI traite les données audio actuellement entrées. Le chercheur est ensuite activé (facultatif) pour récupérer les informations pertinentes de la base de connaissances définie par l'utilisateur. Dans cet exemple, l'utilisation de la paire de traduction « Modèle Ising : Modèle Ising » dans la base de connaissances peut aider le modèle à générer la traduction correcte. À l'étape 3, CLASI charge la transcription (facultatif) et la traduction depuis la mémoire du tour précédent. Ensuite (étapes 4 et 5), CLASI peut permettre à la chaîne de pensées (CoT) de produire les résultats de translittération (facultatif) et de traduction, puis de mettre à jour sa mémoire. Enfin, revenez à l’étape 1 pour traiter le prochain tour de parole.

Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

Figure 2 : Schéma structurel du CLASSI. Au tour r, CLASI prend en entrée le flux audio actuel, la mémoire précédente (r-1) et les connaissances récupérées (le cas échéant). CLASSI génère une réponse basée sur les instructions données, puis met à jour la mémoire. Dans le même temps, CLASI affichera également désormais l'horodatage du dernier fragment sémantique. Pour l'exemple donné, ce qui précède l'expression « juste avant » est considéré comme un fragment sémantique complet, donc l'horodatage de coupure est juste avant cette expression.

Résultats expérimentaux

Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

Tableau 1 : Dans l'évaluation manuelle de la proportion de champs valides (Valid Information Proportion, VIP), le système CLASI a largement surpassé tous les autres produits concurrents, et dans les deux sens linguistiques. une précision de plus de 78 % a été obtenue. D'une manière générale, la précision de l'interprétation simultanée humaine peut être considérée comme supérieure à 70 % et peut idéalement atteindre 95 %, les chercheurs utilisant une précision de 80 % comme norme moyenne pour les traducteurs humains de haut niveau.

Exemple d'analyse

Chinois vers anglais : Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

Anglais vers chinois :

Bytes large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.

On peut voir que la traduction de CLASI est nettement meilleure que celle des systèmes commerciaux à bien des égards.

Résumé

Des chercheurs de l'équipe ByteDance Research ont proposé un agent d'interprétation simultanée basé sur le grand modèle Beanbao : CLASSI. Grâce à une pré-formation et à un apprentissage par imitation à grande échelle, CLASI surpasse considérablement les performances des systèmes d'interprétation simultanée automatique existants en matière d'évaluation humaine, atteignant presque le niveau de l'interprétation simultanée humaine.

1. Les chercheurs proposent une stratégie d'alphabétisation basée sur les données qui imite les traducteurs humains professionnels. Cette stratégie équilibre facilement la qualité de la traduction et la latence sans nécessiter une conception humaine préalable complexe. Contrairement à la plupart des systèmes commerciaux qui réécrivent fréquemment les résultats pendant la traduction pour améliorer la qualité, cette stratégie garantit que tous les résultats sont déterministes tout en conservant une qualité élevée.

2. Les traducteurs humains doivent généralement préparer le contenu d'interprétation simultanée à l'avance. S'inspirant de cela, les chercheurs ont introduit un processus de génération augmentée par récupération multimodale (MM-RAG) pour permettre à LLM d'avoir des connaissances spécifiques à un domaine en temps réel. Le module proposé améliore encore la qualité de la traduction avec une surcharge de calcul minimale lors de l'inférence.

3. Les chercheurs ont travaillé en étroite collaboration avec des interprètes simultanés humains professionnels pour développer une nouvelle stratégie d'évaluation manuelle « Proportion d'informations valides » (VIP) et publié des lignes directrices détaillées. Dans le même temps, un ensemble de tests d'annotation manuelle multi-domaines pour la traduction vocale longue, plus proche des scénarios réels, a également été publié.

The above is the detailed content of Byte's large-model simultaneous interpretation agent has a level of simultaneous interpretation comparable to humans right from the start.. For more information, please follow other related articles on the PHP Chinese website!

source:jiqizhixin.com
Statement of this Website
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
Popular Tutorials
More>
Latest Downloads
More>
Web Effects
Website Source Code
Website Materials
Front End Template