Rumah > Peranti teknologi > AI > teks badan

Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

WBOY
Lepaskan: 2024-07-25 17:53:43
asal
830 orang telah melayarinya

Sama ada penyimpangan lidah dengan pertuturan yang sangat pantas dan sebutan yang kompleks, bahasa Cina klasik yang indah atau sembang santai yang penuh dengan dadakan dan inspirasi, model ini boleh memberikan hasil terjemahan yang tepat dan tulen dengan lancar dan semula jadi.

Dalam beberapa tahun kebelakangan ini, kecerdasan buatan (AI), terutamanya AI yang diwakili oleh model bahasa besar (LLM), berkembang pada kadar yang membimbangkan. Model ini digunakan dalam pelbagai tugas pemprosesan bahasa semula jadi. Walau bagaimanapun, walaupun terdapat kejayaan dalam banyak bidang, tafsiran serentak (Simultaneous Interpretation, SI), yang mewakili tahap tertinggi bahasa manusia, masih menjadi masalah yang belum dapat diatasi sepenuhnya.

Perisian tafsiran serentak tradisional di pasaran biasanya menggunakan kaedah model bertingkat, iaitu pengecaman pertuturan automatik (ASR) dilakukan terlebih dahulu, dan kemudian terjemahan mesin (MT) dilakukan. Terdapat masalah yang ketara dengan pendekatan ini - penyebaran ralat. Ralat dalam proses ASR secara langsung akan menjejaskan kualiti terjemahan seterusnya, yang membawa kepada pengumpulan ralat yang serius. Di samping itu, disebabkan keperluan kependaman rendah yang terhad, sistem tafsiran serentak tradisional biasanya hanya menggunakan model kecil dengan prestasi yang lemah, yang mewujudkan kesesakan apabila berhadapan dengan senario aplikasi praktikal yang kompleks dan boleh diubah.

Penyelidik dari pasukan Penyelidikan ByteDance telah melancarkan ejen tafsiran serentak hujung ke hujung: Ejen Rentas Bahasa - Tafsiran Serentak, CLASI Kesannya hampir dengan tafsiran serentak peringkat buatan profesional, menunjukkan potensi besar dan keupayaan teknikal Termaju. CLASI mengguna pakai seni bina hujung ke hujung untuk mengelakkan masalah penyebaran ralat dalam model lata Ia bergantung pada keupayaan pemahaman pertuturan model asas pundi kacang besar dan kumpulan ucapan model pundi kacang besar memperoleh ilmu dari luar, dan akhirnya membentuk Sistem tafsiran serentak yang setanding dengan prestasi manusia.

Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

  • Alamat kertas: https://byteresearchcla.github.io/clasi/technical_report.pdf
  • Paparan halaman: https://byteresearchcla.github.io/clasi/
    Tunjukkan

Video Demo: Pertama, gunakan beberapa video dadakan untuk mengalami kesan CLASI Semua sari kata dirakam dan dikeluarkan dalam masa nyata. Kita dapat melihat bahawa sama ada ia adalah pemutar lidah dengan pertuturan yang pantas dan sebutan yang kompleks, bahasa Cina klasik yang indah atau sembang santai yang penuh dengan dadakan dan inspirasi, model ini boleh memberikan hasil terjemahan yang tepat dan sahih dengan lancar dan semula jadi. Apatah lagi, CLASI cemerlang dalam kepakarannya - menterjemah adegan persidangan. .

Perbandingan kuantitatif

: Para penyelidik menjemput jurubahasa serentak profesional untuk menjalankan penilaian manual dalam empat bidang berbeza dari segi terjemahan Cina-Inggeris dan Inggeris-Cina, dan menggunakan indeks penilaian yang konsisten dengan tafsiran serentak manual: perkadaran maklumat yang berkesan (sistem peratusan) . Seperti yang dapat dilihat dalam rajah, sistem CLASI jauh mendahului semua sistem komersial dan sistem SOTA sumber terbuka, malah mencapai atau melebihi tahap tafsiran serentak manusia pada beberapa set ujian (secara amnya dipercayai bahawa tahap purata manusia tafsiran serentak adalah kira-kira 80%). Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.Seni Bina Sistem

In Bezug auf die Systemarchitektur übernimmt CLASI eine auf LLM-Agenten basierende Architektur (links in der Abbildung unten), die Simultandolmetschen als eine Reihe einfacher und koordinierter Vorgänge definiert, einschließlich des Lesens von Audiostreams, des Abrufens (optional) und des Lesens des Speichers. Speicher, Ausgabe usw. aktualisieren. Der gesamte Prozess wird autonom durch ein großes Sprachmodell gesteuert und so ein effizientes Gleichgewicht zwischen Echtzeitleistung und Übersetzungsqualität erreicht. Das System kann die Verarbeitungsstrategien jedes Links flexibel an den tatsächlichen Bedarf anpassen und so sicherstellen, dass die Genauigkeit und Kohärenz der übersetzten Inhalte erhalten bleibt und gleichzeitig Informationen effizient übertragen werden. Das zugrunde liegende Modell von CLASI ist ein vom Encoder bedingter LLM, der auf riesigen Mengen unbeaufsichtigter und überwachter Daten vorab trainiert wurde. Die Systemarchitektur des CLASI-Modells ist in der folgenden Abbildung dargestellt.

Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

Abbildung 1: Diagramm, das den gesamten Betriebsablauf von CLASI zeigt. In Schritt 1 verarbeitet CLASI die aktuell eingegebenen Audiodaten. Anschließend wird der Sucher aktiviert (optional), um relevante Informationen aus der benutzerdefinierten Wissensdatenbank abzurufen. In diesem Beispiel kann die Verwendung des Übersetzungspaars „Ising-Modell: Ising-Modell“ in der Wissensdatenbank dazu beitragen, dass das Modell die richtige Übersetzung ausgibt. In Schritt 3 lädt CLASI die Transkription (optional) und die Übersetzung aus dem Speicher der vorherigen Runde. Als nächstes (Schritte 4 und 5) aktiviert CLASI möglicherweise die Chain of Thoughts (CoT), um die Transliterations- (optional) und Übersetzungsergebnisse auszugeben, und aktualisiert dann seinen Speicher. Kehren Sie abschließend zu Schritt 1 zurück, um die nächste Rederunde zu verarbeiten.

Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

Abbildung 2: Strukturdiagramm von CLASI. In Runde r verwendet CLASI als Eingabe den aktuellen Audiostream, den vorherigen Speicher (r-1) und das abgerufene Wissen (falls vorhanden). CLASI gibt eine Antwort basierend auf den gegebenen Anweisungen aus und aktualisiert dann den Speicher. Gleichzeitig gibt CLASI auch den Deadline-Zeitstempel des ab sofort letzten semantischen Fragments aus. Für das gegebene Beispiel wird das, was vor der Phrase „kurz davor“ steht, als vollständiges semantisches Fragment betrachtet, sodass der Cutoff-Zeitstempel direkt vor dieser Phrase liegt.

Experimentelle Ergebnisse

Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

Tabelle 1: Bei der manuellen Auswertung des gültigen Feldanteils (Valid Information Proportion, VIP) übertraf das CLASI-System alle anderen Konkurrenzprodukte deutlich, und zwar in beiden Sprachrichtungen An Es wurde eine Genauigkeit von über 78 % erreicht. Im Allgemeinen kann davon ausgegangen werden, dass die Genauigkeit des menschlichen Simultandolmetschens über 70 % liegt und idealerweise 95 % erreichen kann, wobei Forscher eine Genauigkeit von 80 % als durchschnittlichen Standard für hochqualifizierte menschliche Übersetzer verwenden.

Beispielanalyse

Chinesisch nach Englisch: Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

Englisch nach Chinesisch:

Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.

Es zeigt sich, dass die Übersetzung von CLASI in vielen Aspekten deutlich besser ist als kommerzielle Systeme.

Zusammenfassung

Forscher des ByteDance Research-Teams schlugen einen Simultandolmetscher vor, der auf dem großen Beanbao-Modell basiert: CLASI. Dank umfangreichem Vortraining und Nachahmungslernen übertrifft CLASI die Leistung bestehender automatischer Simultandolmetschersysteme bei der menschlichen Bewertung deutlich und erreicht fast das Niveau menschlicher Simultandolmetschen.

1. Forscher schlagen eine datengesteuerte Alphabetisierungsstrategie vor, die professionelle menschliche Übersetzer nachahmt. Diese Strategie gleicht Übersetzungsqualität und Latenz problemlos aus, ohne dass ein komplexer menschlicher Vorentwurf erforderlich ist. Im Gegensatz zu den meisten kommerziellen Systemen, die die Ausgabe während der Übersetzung häufig umschreiben, um die Qualität zu verbessern, garantiert diese Strategie, dass die gesamte Ausgabe deterministisch ist und gleichzeitig eine hohe Qualität beibehält.

2. Menschliche Übersetzer müssen im Allgemeinen Simultandolmetscherinhalte vorbereiten. Davon inspiriert führten Forscher einen multimodalen Retrieval-Augmented-Generierungsprozess (MM-RAG) ein, um LLM in Echtzeit über domänenspezifisches Wissen zu verfügen. Das vorgeschlagene Modul verbessert die Übersetzungsqualität bei minimalem Rechenaufwand während der Inferenz weiter.

3. Forscher arbeiteten eng mit professionellen menschlichen Simultandolmetschern zusammen, um eine neue manuelle Bewertungsstrategie „Valid Information Proportion“ (VIP) zu entwickeln und detaillierte Richtlinien zu veröffentlichen. Gleichzeitig wurde auch ein domänenübergreifendes manuelles Annotationstestset für die Übersetzung langer Sprache veröffentlicht, das realen Szenarien näher kommt.

Atas ialah kandungan terperinci Ejen tafsiran serentak model besar Byte mempunyai tahap tafsiran serentak yang setanding dengan manusia sejak awal lagi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!