Qu'il s'agisse de virelangues avec un discours ultra rapide et une prononciation complexe, d'un chinois classique exquis ou de discussions informelles pleines d'improvisation et d'inspiration, le modèle peut fournir des résultats de traduction précis et authentiques de manière fluide et naturelle.
Ces dernières années, l'intelligence artificielle (IA), en particulier l'IA représentée par les grands modèles de langage (LLM), se développe à un rythme alarmant. Ces modèles sont utilisés dans une variété de tâches de traitement du langage naturel et ont démontré des capacités exceptionnelles. Cependant, malgré des avancées dans de nombreux domaines, l’interprétation simultanée (Simultaneous Interpretation, SI), qui représente le niveau le plus élevé du langage humain, reste un problème qui n’a pas été complètement surmonté.
Les logiciels d'interprétation simultanée traditionnels sur le marché adoptent généralement la méthode du modèle en cascade, c'est-à-dire que la reconnaissance automatique de la parole (ASR) est effectuée en premier, puis la traduction automatique (MT). Il y a un problème important avec cette approche : la propagation des erreurs. Les erreurs dans le processus ASR affecteront directement la qualité de la traduction ultérieure, entraînant une grave accumulation d’erreurs. De plus, en raison des exigences limitées en matière de faible latence, les systèmes d'interprétation simultanée traditionnels n'utilisent généralement que de petits modèles aux performances médiocres, ce qui crée des goulots d'étranglement dans le traitement de scénarios d'application pratiques complexes et changeants.
Les chercheurs de l'équipe ByteDance Research ont lancé un agent d'interprétation simultanée de bout en bout : Cross Language Agent - Simultaneous Interpretation, CLASI. Son effet est proche de l'interprétation simultanée professionnelle de niveau artificiel, montrant un grand potentiel et des capacités techniques avancées. CLASI adopte une architecture de bout en bout pour éviter le problème de propagation des erreurs dans le modèle en cascade. Il s'appuie sur les capacités de compréhension vocale du modèle de base du grand pouf et du groupe vocal du grand pouf. acquérir des connaissances de l'extérieur et finalement former un système d'interprétation simultanée comparable à la performance humaine.
Effet Afficher
Démo vidéo : Tout d'abord, utilisez quelques vidéos impromptues pour découvrir l'effet de CLASSI. Tous les sous-titres sont enregistrés et diffusés en temps réel. Nous pouvons voir qu'il s'agit de virelangues avec un discours rapide et une prononciation complexe, d'un chinois classique exquis ou de discussions informelles pleines d'improvisation et d'inspiration, le modèle peut fournir des résultats de traduction précis et authentiques de manière fluide et naturelle. Sans oublier que CLASI excelle dans sa spécialité : la traduction de scènes de conférence.
Conversation impromptue-ConstellationLecture-Chibi Fu Virelangues
Pour plus de vidéos, veuillez cliquer sur "Lire le texte original" pour voir
Comparaison quantitative : Les chercheurs ont invité des interprètes simultanés professionnels à effectuer des évaluations manuelles dans quatre domaines différents en termes de traduction chinois-anglais et anglais-chinois, et ont utilisé un indice d'évaluation cohérent avec l'interprétation simultanée manuelle : la proportion d'informations efficaces (système de pourcentage) . Comme le montre la figure, le système CLASI est nettement en avance sur tous les systèmes commerciaux et les systèmes SOTA open source, et atteint ou dépasse même le niveau d'interprétation simultanée humaine sur certains ensembles de tests (on pense généralement que le niveau moyen d'interprétation humaine l'interprétation simultanée est d'environ 80 %).
Architecture du système
Dari segi seni bina sistem, CLASI mengguna pakai seni bina berdasarkan ejen LLM (kiri dalam rajah di bawah), yang mentakrifkan tafsiran serentak sebagai satu siri operasi yang mudah dan diselaraskan, termasuk membaca strim audio, mendapatkan semula (pilihan), dan memori bacaan , kemas kini memori, output, dsb. Keseluruhan proses dikawal secara autonomi oleh model bahasa yang besar, mencapai keseimbangan yang cekap antara prestasi masa nyata dan kualiti terjemahan. Sistem ini boleh melaraskan strategi pemprosesan setiap pautan secara fleksibel mengikut keperluan sebenar, memastikan ketepatan dan keselarasan kandungan terjemahan dikekalkan sambil menghantar maklumat dengan cekap. Model asas CLASI ialah LLM bersyarat Pengekod, dilatih terlebih dahulu mengenai sejumlah besar data yang tidak diawasi dan diawasi. Seni bina sistem model CLASI ditunjukkan dalam rajah di bawah.
Rajah 1: Gambar rajah menunjukkan keseluruhan proses pengendalian CLASI. Dalam langkah 1, CLASI memproses data audio yang sedang dimasukkan. Seterusnya, pencari diaktifkan (pilihan) untuk mendapatkan maklumat yang berkaitan daripada pangkalan pengetahuan yang ditentukan pengguna. Dalam contoh ini, menggunakan pasangan terjemahan "Model Ising: Model Ising" dalam pangkalan pengetahuan boleh membantu model mengeluarkan terjemahan yang betul. Dalam langkah 3, CLASI memuatkan transkripsi (pilihan) dan terjemahan daripada memori daripada pusingan sebelumnya. Seterusnya (langkah 4 dan 5), CLASI mungkin membolehkan Rantaian Pemikiran (CoT) mengeluarkan hasil alih huruf (pilihan) dan terjemahan, kemudian mengemas kini ingatannya. Akhir sekali, kembali ke langkah 1 untuk memproses pusingan ucapan seterusnya.
Rajah 2: Gambar rajah struktur CLASI. Dalam pusingan r, CLASI mengambil sebagai input aliran audio semasa, memori sebelumnya (r-1), dan pengetahuan yang diperoleh semula (jika ada). CLASI mengeluarkan respons berdasarkan arahan yang diberikan dan kemudian mengemas kini memori. Pada masa yang sama, CLASI juga akan mengeluarkan cap waktu tarikh akhir bagi serpihan semantik terakhir setakat ini. Untuk contoh yang diberikan, apa yang datang sebelum frasa "sebelum ini" dianggap sebagai serpihan semantik yang lengkap, jadi cap masa cutoff berada tepat sebelum frasa ini.
Keputusan eksperimen
Jadual 1: Dalam penilaian manual perkadaran medan yang sah (Perkadaran Maklumat Sah, VIP), sistem CLASI mengatasi hala tuju bahasa yang lain, dan semua produk yang bersaing dengan ketara. ketepatan lebih 78% telah dicapai. Secara umumnya, ketepatan tafsiran serentak manusia boleh dianggap melebihi 70%, dan idealnya boleh mencapai 95%, dengan penyelidik menggunakan ketepatan 80% sebagai standard purata untuk penterjemah manusia peringkat tinggi. .
RingkasanPenyelidik dari pasukan Penyelidikan ByteDance mencadangkan ejen tafsiran serentak berdasarkan model besar Beanbao: CLASI. Terima kasih kepada pra-latihan dan pembelajaran peniruan berskala besar, CLASI dengan ketara mengatasi prestasi sistem tafsiran serentak automatik sedia ada dalam penilaian manusia, hampir mencapai tahap tafsiran serentak manusia.
1. Penyelidik mencadangkan strategi literasi dipacu data yang meniru penterjemah manusia profesional. Strategi ini dengan mudah mengimbangi kualiti terjemahan dan kependaman tanpa memerlukan pra-reka bentuk manusia yang kompleks. Tidak seperti kebanyakan sistem komersial yang kerap menulis semula output semasa terjemahan untuk meningkatkan kualiti, strategi ini menjamin bahawa semua output adalah deterministik sambil mengekalkan kualiti yang tinggi.
2 Penterjemah manusia secara amnya perlu menyediakan kandungan tafsiran serentak lebih awal Diilhamkan oleh ini, penyelidik memperkenalkan proses penjanaan perolehan semula berbilang modal (MM-RAG) untuk membolehkan LLM mempunyai pengetahuan khusus domain dalam masa nyata. Modul yang dicadangkan meningkatkan lagi kualiti terjemahan dengan overhed pengiraan minimum semasa inferens. 3 Penyelidik bekerjasama rapat dengan jurubahasa serentak manusia profesional untuk membangunkan strategi penilaian manual baharu "Valid Information Proportion" (VIP) dan menerbitkan garis panduan terperinci. Pada masa yang sama, set ujian anotasi manual berbilang domain untuk terjemahan pertuturan panjang yang lebih dekat dengan senario kehidupan sebenar turut dikeluarkan.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!