초고속 스피치와 복잡한 발음을 갖춘 혀 트위스터든, 절묘한 고전 중국어든, 즉흥적이고 영감이 가득한 일상적인 채팅이든, 모델은 부드럽고 자연스럽게 정확하고 확실한 번역 결과를 제공할 수 있습니다.
최근 인공지능(AI), 특히 대규모 언어 모델(LLM)로 대표되는 AI는 놀라운 속도로 발전하고 있습니다. 이러한 모델은 다양한 자연어 처리 작업에 사용되어 뛰어난 능력을 보여줍니다. 그러나 여러 분야의 획기적인 발전에도 불구하고 인간 언어의 최고 수준을 대표하는 동시통역(SI)은 여전히 완전히 극복되지 못한 문제로 남아 있다.
시중에 나와 있는 기존 동시통역 소프트웨어는 일반적으로 계단식 모델 방식을 채택합니다. 즉, 자동 음성 인식(ASR)이 먼저 수행된 다음 기계 번역(MT)이 수행됩니다. 이 접근 방식에는 오류 전파라는 심각한 문제가 있습니다. ASR 프로세스의 오류는 후속 번역 품질에 직접적인 영향을 미치며 심각한 오류 누적으로 이어집니다. 또한 낮은 대기 시간 요구 사항으로 인해 기존 동시 통역 시스템은 일반적으로 성능이 낮은 작은 모델만 사용하므로 복잡하고 변경 가능한 실제 응용 프로그램 시나리오를 처리할 때 병목 현상이 발생합니다.
ByteDance 연구진은 엔드투엔드 동시통역 에이전트인 Cross Language Agent - 동시통역, CLASI를 출시했습니다. 그 효과는 전문적인 인공 수준 동시통역에 가깝고 엄청난 잠재력과 고급 기술 역량을 보여줍니다. CLASI는 캐스케이드 모델의 오류 전파 문제를 피하기 위해 엔드 투 엔드 아키텍처를 채택합니다. 이는 대형 빈백 기본 모델과 대형 빈백 모델 음성 그룹의 음성 이해 기능도 갖추고 있습니다. 외부로부터 지식을 습득하여 최종적으로 인간의 능력에 버금가는 동시통역 시스템을 형성합니다.
Effect Show
Video Demo: 먼저 몇 가지 즉석 동영상을 사용하여 CLASI의 효과를 경험해 보세요. 모든 자막이 실시간으로 녹음되고 출력됩니다. 빠른 말투와 복잡한 발음을 지닌 텅 트위스터든, 절묘한 고전 중국어든, 즉흥적이고 영감이 넘치는 일상적인 대화든, 모델은 정확하고 진정성 있는 번역 결과를 원활하고 자연스럽게 제공할 수 있음을 알 수 있습니다. 말할 것도 없이 CLASI는 회의 장면 번역이라는 전문 분야에서 탁월합니다.
더 많은 영상을 보려면 "원문 읽기"를 클릭하세요.
정량적 비교: 연구진은 전문 동시통역가를 초빙하여 중영 번역, 영중 번역의 4가지 분야에 대한 수동 평가를 실시하고 수동 동시통역과 일치하는 평가 지표를 사용했습니다: 효과적인 정보의 비율(백분율 체계) . 그림에서 볼 수 있듯이 CLASI 시스템은 모든 상용 시스템 및 오픈 소스 SOTA 시스템보다 훨씬 앞서 있으며 일부 테스트 세트에서는 인간 동시 해석 수준에 도달하거나 초과합니다(일반적으로 인간의 평균 수준은 동시통역은 약 80%)
시스템 아키텍처
시스템 아키텍처 측면에서 CLASI는 LLM 에이전트(아래 그림 왼쪽) 기반 아키텍처를 채택합니다. 이는 동시 통역을 오디오 스트림 읽기, 검색(선택 사항) 및 메모리 읽기를 포함한 일련의 간단하고 조정된 작업으로 정의합니다. 메모리, 출력 등을 업데이트합니다. 전체 프로세스는 대규모 언어 모델에 의해 자율적으로 제어되므로 실시간 성능과 번역 품질 간의 효율적인 균형을 달성합니다. 시스템은 실제 필요에 따라 각 링크의 처리 전략을 유연하게 조정할 수 있으므로 정보를 효율적으로 전송하는 동시에 번역된 콘텐츠의 정확성과 일관성을 유지할 수 있습니다. CLASI의 기본 모델은 막대한 양의 비지도 및 지도 데이터에 대해 사전 훈련된 인코더 조건 LLM입니다. CLASI 모델의 시스템 아키텍처는 아래 그림과 같습니다.
그림 1: CLASI의 전반적인 운영 프로세스를 보여주는 다이어그램. 1단계에서는 CLASI가 현재 입력되는 오디오 데이터를 처리합니다. 다음으로, 사용자가 정의한 지식베이스에서 관련 정보를 얻기 위해 검색기가 활성화됩니다(선택 사항). 이 예에서는 지식 베이스의 번역 쌍 "Ising 모델: Ising 모델"을 사용하면 모델이 올바른 번역을 출력하는 데 도움이 될 수 있습니다. 3단계에서 CLASI는 이전 라운드의 메모리에서 전사(선택 사항) 및 번역을 로드합니다. 다음(4단계 및 5단계), CLASI는 CoT(Chain of Thoughts)를 활성화하여 음역(선택 사항) 및 번역 결과를 출력한 다음 메모리를 업데이트할 수 있습니다. 마지막으로 1단계로 돌아가서 다음 연설을 진행합니다.
그림 2: CLASI의 구조 다이어그램. r 라운드에서 CLASI는 현재 오디오 스트림, 이전 메모리(r-1) 및 검색된 지식(있는 경우)을 입력으로 사용합니다. CLASI는 주어진 명령에 따라 응답을 출력한 다음 메모리를 업데이트합니다. 동시에 CLASI는 현재 마지막 의미 조각의 마감 시간 타임스탬프도 출력합니다. 주어진 예에서 "직전"이라는 문구 앞에 오는 것은 완전한 의미 조각으로 간주되므로 컷오프 타임스탬프는 이 문구 바로 앞에 있습니다.
실험 결과
표 1: 유효한 필드 비율(Valid Information Proportion, VIP)의 수동 평가에서 CLASI 시스템은 다른 모든 경쟁 제품을 크게 능가했으며 두 언어 방향 모두에서 78% 이상의 정확도를 달성했습니다. 일반적으로 인간 동시통역의 정확도는 70% 이상이라고 볼 수 있으며, 이상적으로는 95%에 달할 수 있으며, 연구자들은 80% 정확도를 고급 인간 번역가의 평균 표준으로 사용합니다.
분석 예
중국어에서 영어로:
영어에서 중국어로:
CLASI의 번역이 여러 측면에서 상용 시스템보다 훨씬 낫다는 것을 알 수 있습니다.
요약
바이트댄스 연구진은 빈바오 대형 모델을 기반으로 한 동시통역 에이전트인 CLASI를 제안했습니다. 대규모 사전 훈련과 모방 학습 덕분에 CLASI는 인간 동시통역 평가에서 기존 자동동시통역 시스템의 성능을 크게 능가하여 거의 인간 동시통역 수준에 도달했습니다.
1. 연구자들은 전문 인간 번역가를 모방한 데이터 기반 문해력 전략을 제안합니다. 이 전략은 복잡한 인간 사전 설계 없이 번역 품질과 대기 시간의 균형을 쉽게 유지합니다. 품질을 향상시키기 위해 번역 중에 출력을 자주 다시 작성하는 대부분의 상용 시스템과 달리 이 전략은 높은 품질을 유지하면서 모든 출력이 결정적임을 보장합니다.
2. 인간 번역가는 일반적으로 동시통역 콘텐츠를 미리 준비해야 합니다. 이에 착안하여 연구자들은 LLM이 도메인별 지식을 실시간으로 확보할 수 있도록 MM-RAG(Multi-modal Retrieval-Augmented Generation) 프로세스를 도입했습니다. 제안된 모듈은 추론 중 계산 오버헤드를 최소화하면서 번역 품질을 더욱 향상시킵니다.
3. 연구원들은 전문 동시통역가들과 긴밀히 협력하여 새로운 수동 평가 전략인 "Valid Information Proportion"(VIP)을 개발하고 세부 지침을 발표했습니다. 동시에 실제 시나리오에 더 가까운 긴 음성 번역을 위한 다중 도메인 수동 주석 테스트 세트도 출시되었습니다.
위 내용은 바이트의 대형모델 동시통역 에이전트는 처음부터 인간과 동등한 동시통역 수준을 갖추고 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!