30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다.-일체 포함-php.cn

어느 도시에서 왔든 기억 속에는 자신만의 '고향 사투리'가 있다고 생각합니다. 오 사투리는 부드럽고 섬세하며, 관중 사투리는 단순하고 두껍고, 사천 사투리는 유머러스하고 유머러스하며, 광동어는 예스럽고 자유분방합니다. ..

어떤 의미에서 방언은 언어 습관일 뿐만 아니라 정서적 연결이자 문화적 정체성이기도 합니다. 우리가 인터넷 서핑을 하면서 접하는 새로운 단어 중 상당수는 다양한 곳의 현지 방언에서 유래합니다.

물론 때로는 사투리가 의사소통의 '장벽'이 되기도 합니다.

실생활에서 우리는 다음과 같은 방언으로 인한 "닭과 오리의 대화"를 자주 볼 수 있습니다.

기술계의 최근 동향에 주목하면 현재 AI 음성 비서가 이미 달성할 수 있는 "실시간 응답" 수준은 인간의 반응보다 훨씬 빠릅니다. 더욱이 AI는 인간의 감정을 완벽하게 이해하고 스스로 다양한 감정을 표현할 수 있게 됐다.

이를 바탕으로 음성 어시스턴트가 모든 방언을 인식하고 이해할 수 있다면 의사소통 장벽을 완전히 허물고 어떤 그룹과도 장벽 없이 소통할 수 있습니다.

실제로 이미 누군가가 이 작업을 수행했습니다. 최근 China Telecom 인공 지능 연구소(TeleAI)가 업계 최초로 30개 방언의 자유로운 혼합을 지원하는 "Xingchen Super Multi-Dialect 음성 인식 모델"을 출시했습니다. 광둥어, 상하이어, 사천어, 온주어 등 중국 방언을 가장 많이 지원하는 대형 음성 인식 모델입니다.

예를 들어 다음 회의 시나리오에서 여러 방언의 입력에 직면했을 때 Xingchen의 대규모 다방어 음성 인식 모델의 인식 정확도는 업계 최고의 수준에 도달했습니다.

먼저 광동 회사 대표가 광동어로 말했습니다.

갑자기 다음 화자가 상하이어로 전환했습니다.

30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다.

다음 대화에서 쓰촨 사투리와 산시 사투리 사이의 대화에서 Xingchen의 대규모 다방어 음성 인식 모델 또한 정확하게 인식하고 텍스트 기록으로 변환할 수 있습니다:

음성 비서와 대화해 본 사람이라면 누구나 표준 중국어 음성 인식의 정확성이 상당히 좋다는 것을 알지만, 강한 억양이나 방언에 직면하면 인식이 잘 되지 않습니다. 정확도가 크게 떨어지거나 "다른 사람을 활용"할 수도 있습니다.

이 문제를 해결하기 위해 전통적인 음성 인식 모델은 각 방언에 대해 별도로 방언 모델을 훈련시키는 것입니다. 이로 인해 동일한 애플리케이션 뒤에 여러 방언 모델을 유지해야 하며, 하나를 통해 여러 방언을 인식하는 것이 불가능합니다. 모델. 그러나 후자는 실제 시나리오에서 가장 필요한 것입니다.

음성 분야에 깊이 관여해 온 China Telecom은 보다 "보편적인" 대형 음성 인식 모델을 만들겠다는 이 제안에 도전하기로 결정했습니다.

30개 이상의 방언, 어떻게 큰 모델을 얻을 수 있나요?

대형 모델이 한 번에 30개 이상의 방언을 학습하도록 하는 것은 상상만큼 쉽지 않습니다. 데이터, 알고리즘 및 컴퓨팅 성능 측면에서도 과제가 존재합니다.

한편으로는 방언 데이터의 희소한 양으로 인해 다른 방언 데이터의 공통 정보를 사용하지 않고 단독으로 방언 모델을 학습시키는 효과가 만족스럽지 못한 경우가 많습니다.

Speech 분야에서 수년간 축적된 TeleAI는 30가지 이상의 방언 데이터베이스, 300,000시간 이상의 방언 데이터베이스를 구축했으며 방언 데이터베이스는 풍부함과 품질 측면에서 업계 선두에 있습니다. 고품질 음성 데이터는 모델이 방언을 보다 효율적이고 체계적으로 구성하고 요약할 수 있으므로 연구자들에게 큰 이점이 됩니다. 장기적으로는 고품질의 방언 데이터베이스를 구축하는 것도 방언 보호와 연구의 기반이 됩니다.

또 다른 과제는 음성 인식 기술에서 비롯됩니다. 의도적으로 중국어로 전환할 필요 없이, 볼륨을 높이거나 말하는 속도를 늦출 필요 없이 사용자가 가족과 대화하는 것처럼 자연스럽게 대형 모델과 대화할 수 있도록 하는 것이 현재 업계에서 추구하는 새로운 목표입니다.

China Telecom의 CTO이자 인공 지능 연구소 소장인 Li Xuelong이 이끄는 TeleAI는 대규모 Xingchen 음성 인식 모델을 독립적으로 개발했습니다. 팀은 초대형 다중 시나리오 데이터 세트 및 대규모 매개변수 조건에서 사전 훈련 붕괴 문제를 해결하고 80층 모델의 안정적인 훈련을 달성하는 "증류 + 확장" 공동 훈련 알고리즘을 개척했습니다. . 동시에 초대형 음성 사전 훈련 및 다방어 조인트 모델링을 통해 단일 모델은 30개 방언의 자유로운 혼합 음성 인식을 지원할 수 있습니다.

30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다.

Xingchen 음성 인식 대형 모델은 "음성에서 토큰으로, 텍스트로"라는 새로운 모델링 패러다임을 통해 업계 최초의 오픈 소스 대형 음성 인식 모델이기도 합니다. 추론이 수십배로 줄어듭니다.

절대적으로 뛰어난 성능을 자랑하는 Xingchen 음성 인식 모델은 이전에 국제적으로 권위 있는 국제 대회에서 여러 차례 우승했습니다.

예를 들어, 권위 있는 국제 연설 컨퍼런스인 Interspeech 2024 Discrete Speech Unit Modeling Challenge의 ASR 트랙(자동 음성 인식, 자동 음성 인식)에서 Xingchen 음성 인식 대형 모델 팀이 Johns Hopkins University, Card Well보다 앞서 있습니다. 멜론대학교, 엔비디아 등 국내외 유명 대학과 기업이 단숨에 트랙 우승을 차지했습니다.

이 대회에서 팀이 제안한 시스템 솔루션은 매우 독특합니다. 프런트엔드 사전 훈련 모델 표현 조정 전략(Frontend Model), 표현 추출 및 이산화 프로세스를 포함하여 훈련 중에 "3단계" 설계를 채택합니다. (Discrete Token Process)과 다국어 인식 모델 훈련 프로세스 (Discrete ASR Model)가 있으며, 추론 단계에서는 후자의 두 프로세스만 사용됩니다.

표현 이산화 방법을 사용하면 모델이 음성 추론 전송 비트율을 줄이고, 메모리 사용량을 줄이고, 훈련 효율성을 향상시키는 목적을 달성하기 위해 음성에서 작업 관련 정보를 유지하면서 기타 관련 없는 정보를 제거할 수 있습니다. 또한 가능한 솔루션을 제공합니다. 통합 모델 구축, 멀티모달 모델 모델링, 멀티태스킹을 위한 화자 프라이버시 보호(ASR, TTS, 화자 인식 등) 방향으로 제공됩니다.

업계에서 잘 알려진 다국어 음성 인식 데이터 세트인 KeSpeech 작업에서 Xingchen 음성 인식 대형 모델이 이전 최고 결과보다 20% 앞선 기록을 깨고 92.97%의 단어 정확도를 달성했습니다. NIST(국립표준기술연구소)가 진행한 저자원 광둥어 전화 바벨 음성 인식 작업에서도 Xingchen 음성 인식 대형 모델이 업계 최고의 성과를 거두었습니다.

일반적인 컴퓨팅 성능 문제 측면에서 Xingchen 음성 인식 대형 모델의 R&D 팀에도 장점이 있습니다. 차이나텔레콤은 국내 최초로 클라우드 컴퓨팅 분야에 진출한 통신사로, 컴퓨팅 파워 구축과 컴퓨팅 파워 스케줄링을 위한 다수의 핵심 기술을 축적해 왔다. 또한, China Telecom은 베이징-천진-허베이 지능형 컴퓨팅 센터, 중남부 지능형 컴퓨팅 센터 등 대규모 모델 교육 요구를 충족하는 여러 공공 지능형 컴퓨팅 센터를 연속적으로 가동했습니다.

이러한 장점을 바탕으로 Xingchen의 대규모 다중 사투리 음성 인식 모델이 탄생하여 단일 모델이 특정 단일 사투리만 인식할 수 있다는 딜레마를 깨뜨렸습니다. 여러 벤치마크 테스트에서 Xingchen 초다국어 음성 인식 대형 모델은 매우 뛰어난 기능을 보여주었습니다.

30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다.

방언을 이해하고 유창하게 답변합니다

대형 모델에서 자격을 갖춘 음성 어시스턴트입니다

기술이 발전하기 전에 널리 사용되었던 음성 비서, 스마트 장치 및 고객 서비스 시스템의 사용자 경험은 음성 인식 시스템의 정확성에 크게 좌우됩니다. 많은 국내외 제조업체가 이 트랙을 위해 열심히 노력하고 있지만 주류 언어 외에 수억 명의 사용자가 있는 중국어 방언이 제대로 된 관심을 받지 못하고 그 현장 가치가 심각하게 과소평가되어 있다는 사실도 모두가 알게 될 것입니다.

30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다.

장기적으로 Xingchen의 대규모 다국어 음성 인식 모델의 다국어 기능은 매우 광범위한 사회 생활 시나리오에서 가치가 있을 수 있습니다. 음성 상호 작용 빈도가 높은 Smart Cockpit 시나리오를 예로 들면, 다양한 방언에 능숙한 Xingchen의 대규모 다중 방언 음성 인식 모델을 사용하면 시스템이 다양한 방언의 음성 입력을 보다 정확하게 인식하고 전사할 수 있습니다. 특히 방언이 흔히 사용되는 분야에서 더욱 자연스럽고 원활한 경험을 제공함으로써 "닭과 오리의 대화"로 인한 오해를 줄일 수 있습니다.

감정적 동반자 관계의 관점에서 볼 때, 대형 모델의 사투리 이해와 숙련도는 대화형 로봇 제품의 동반자 관계 품질을 크게 향상시킬 수 있으며, 중국어에 능숙하지 못한 노인 및 기타 그룹의 문제를 효과적으로 해결할 수 있습니다. 정보 서비스에 액세스합니다. SF영화 '그녀'의 줄거리처럼 AI는 현실 세계의 인간관계를 뛰어넘는 수준 높은 진료를 인간에게 제공할 수 있다.

현재 Xingchen의 대규모 다국어 음성 인식 모델은 다양한 산업에 통합되기 시작했으며 새로운 응용 시나리오를 적극적으로 탐색하고 있습니다. 예를 들어, Xingchen 대규모 다중 방언 음성 인식 모델은 Xingchen 대규모 다중 방언에 액세스한 후 Fujian, Jiangxi, Guangxi, 베이징, 내몽골 및 기타 지역에 있는 China Telecom의 Wanhao 지능형 고객 서비스 시스템에서 시범 운영되었습니다. 음성 인식 모델 Wanhao 지능형 고객 서비스는 30개 방언을 몇 초 안에 이해하고 하루 평균 약 200만 건의 통화를 처리합니다 지능형 고객 서비스 Yisheng 플랫폼은 Xingchen 슈퍼 다방어 음성의 음성 이해 및 분석 기능과 연결됩니다. 인식 모델을 통해 31개 지역 전체를 커버하고 매일 125만 건의 고객 서비스 통화를 처리할 수 있습니다.

차이나 텔레콤에게는 또 다른 매우 중요한 출발점이 있습니다. 2023년 이전에는 사람들이 대형 모델 기술을 이야기할 때 공공 복지 가치가 거의 언급되지 않습니다. 그러나 2024년에는 이 가치가 점점 더 "보여진다".

대형모델 기술의 적용은 방언문화 보호에 큰 기여를 할 것입니다. 우리나라의 130개 이상의 언어 중 화자가 10,000명 미만인 언어가 68개, 5,000명 미만이 48개, 1,000명 미만이 25개, 그리고 화자가 12명 또는 몇 명에 불과한 언어도 있습니다. 말할 수있다. 대규모 음성 모델의 참여는 멸종 위기에 처한 방언을 기록 및 보호하고 방언의 계승과 학습을 촉진하는 데 도움이 될 수 있습니다. 방언 콘텐츠가 다량 포함된 역사 문서 및 기록 보관소의 경우 방언 대형 모델은 문화유산 손실을 방지하기 위한 디지털화 및 정리 작업에도 도움이 될 수 있습니다.

'음성비서' 정식 오픈

차이나텔레콤은 어떻게 대형 모델 구현 전쟁을 주도할 수 있을까요?

대형 모델을 위한 전쟁은 1년 반 동안 계속되어 왔습니다. 현재 업계에서는 대형 모델 추론 비용이 크게 떨어지면서 대형 모델 적용이 폭발적인 시기를 맞이할 것이라는 합의가 있습니다.

국내외의 많은 대형 모델 플레이어 중에서 차이나 텔레콤은 매우 특별한 것입니다. 이 새로운 단계에서는 우리에게 익숙한 기술 회사에 비해 China Telecom과 같은 통신업체는 자원 및 비즈니스 측면에서 더 많은 이점을 가지고 있습니다.

운영자는 풍부한 네트워크와 컴퓨팅 리소스를 보유하고 있으므로 교육 및 추론 비용이 상대적으로 저렴합니다. 특히 대형 모델의 구성에서는 규모를 활용하기가 더 쉽습니다. 반면, 차이나텔레콤은 대규모 고객 기반과 풍부한 2C, 2H, 2B 정보 서비스 사업을 보유하고 있어 다양한 분야에서 대규모 인공지능 모델의 구현을 빠르게 촉진하고 새로운 경제 성장 포인트를 형성할 수 있습니다. 이러한 이점은 운영자에게 인공 지능 분야에 대한 투자를 늘리고 기술 발전을 촉진할 수 있는 인센티브를 제공합니다.

국내 통신사 중 차이나 텔레콤은 AI 분야에 최초로 배포하며, 기술 혁신과 핵심 역량에 대한 독립적인 연구 및 개발의 발전 경로를 고수하고 있습니다. 작년부터 Xingchen 의미론적 대형 모델부터 Xingchen 다중 모드 대형 모델 및 Xingchen 음성 인식 대형 모델에 이르기까지 China Telecom의 대형 모델은 항상 빠른 반복을 유지하고 의미론, 음성, 시각 및 다중 양식의 전체 모델을 완성했습니다. . 동적 대형 모델 레이아웃.

30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다.

사람들이 중앙 기업의 전통적인 인상을 깨는 이유는 China Telecom이 대형 모델 오픈 소스 분야에서도 헤비급 플레이어이기 때문입니다. 올해 TeleAI는 7B, 12B, 52B 스타 시맨틱 대형 모델을 연속적으로 오픈소스화했습니다. 올해 안에 수천억 개의 별에 대한 대규모 의미 모델도 공식적으로 오픈 소스화될 예정입니다.

최근 인공지능의 기술 발전 추세를 보면, 일반 인공지능을 구현하는 과정에서 음성이 핵심적인 부분이고, 그 중 음성인식이 매우 중요한 부분임을 알 수 있습니다.

그러나 우리는 음성 합성 기술의 성숙이 다양한 음성 지원 시나리오를 재구성하는 열쇠가 될 것이라는 점도 알고 있습니다. TeleAI는 또한 의인화를 보다 현실적으로 만드는 대규모 초자연적 음성 생성 모델을 동시에 개발하여 제로 샘플 음성 재생 및 의인화 정렬 GPT-4o를 달성한 것으로 이해됩니다. 이는 음성 인식 및 생성 애플리케이션 수준에서 획기적인 발전을 이루고 보편적인 속도를 가속화할 것입니다. AI 음성 비서 착륙 애플리케이션.

30개 이상의 방언으로 변경한 후 China Telecom의 대규모 음성 모델 테스트를 통과하지 못했습니다. 이렇게 다재다능한 중국어 음성 비서를 기대하시나요?