음성 생성의 '스마트 출현': 100,000시간의 데이터 교육, Amazon은 10억 개의 매개변수 BASE TTS 제공
생성 딥러닝 모델의 급속한 발전으로 자연어 처리(NLP)와 컴퓨터 비전(CV)이 큰 변화를 겪었습니다. 전문적인 훈련이 필요한 이전 지도 모델부터 다양한 작업을 완료하기 위해 간단하고 명확한 지침만 필요한 일반 모델까지. 이러한 변화는 우리에게 보다 효율적이고 유연한 솔루션을 제공합니다.
음성 처리 및 TTS(텍스트 음성 변환) 분야에서 변화가 일어나고 있습니다. 수천 시간의 데이터를 활용하여 모델은 합성을 실제 인간의 음성에 점점 더 가깝게 만듭니다.
최근 연구에서 Amazon은 BASE TTS를 공식 출시하여 TTS 모델의 매개변수 규모를 전례 없는 수준인 10억 개로 늘렸습니다.
논문 제목: BASE TTS: 10만 시간의 데이터에 대한 10억 매개변수 텍스트 음성 변환 모델 구축에서 얻은 교훈
논문 링크: https://arxiv.org/pdf/2402.08093. pdf
BASE TTS는 대규모 다국어, 다중 스피커 TTS(LTTS) 시스템입니다. 훈련에 약 10만 시간의 퍼블릭 도메인 음성 데이터를 사용했는데, 이는 이전에 가장 많은 양의 훈련 데이터를 보유했던 VALL-E의 두 배에 달하는 규모다. LLM의 성공적인 경험에서 영감을 받은 BASE TTS는 TTS를 다음 토큰 예측의 문제로 취급하고 이를 대량의 훈련 데이터와 결합하여 강력한 다중 언어 및 다중 화자 기능을 달성합니다.
이 기사의 주요 기여는 다음과 같이 요약됩니다.
제안된 BASE TTS는 현재 10억 개의 매개변수를 갖춘 가장 큰 TTS 모델이며 100,000시간의 공개 도메인 음성 데이터로 구성된 데이터 세트를 기반으로 훈련되었습니다. 주관적인 평가를 통해 BASE TTS는 공개 LTTS 기준 모델보다 성능이 뛰어납니다.
이 기사에서는 BASE TTS를 더 큰 데이터 세트와 모델 크기로 확장하여 복잡한 텍스트에 적절한 운율을 렌더링하는 BASE TTS의 기능을 향상시키는 방법을 보여줍니다. 대규모 TTS 모델의 텍스트 이해 및 렌더링 기능을 평가하기 위해 연구원들은 "긴급 기능" 테스트 세트를 개발하고 이 벤치마크에서 BASE TTS의 다양한 변형 성능을 보고했습니다. 결과는 데이터 세트의 크기와 매개변수의 수가 증가함에 따라 BASE TTS의 품질이 점차 향상되고 있음을 보여줍니다.
3. 음성 신호의 음운론적 및 운율적 정보만 캡처하는 것을 목표로 하는 WavLM SSL 모델을 기반으로 하는 새로운 이산 음성 표현이 제안되었습니다. 이러한 표현은 기본 양자화 방법보다 성능이 뛰어나므로 높은 압축 수준(단 400비트/초)에도 불구하고 간단하고 빠른 스트리밍 디코더를 통해 고품질 파형으로 디코딩할 수 있습니다.
다음으로 논문 내용을 살펴보겠습니다.
BASE TTS 모델
최근 음성 모델링 작업과 유사하게 연구원들은 TTS 작업을 처리하기 위해 LLM 기반 접근 방식을 채택했습니다. 텍스트는 별개의 오디오 표현(음성 코드라고 함)을 예측하는 Transformer 기반 자동 회귀 모델에 입력되며, 이는 선형 및 컨벌루션 레이어로 구성된 별도로 훈련된 디코더에 의해 파형으로 디코딩됩니다.
BASE TTS는 연구원들이 음성 코딩이라고 부르는 개별 음성 표현이 뒤따르는 텍스트 토큰의 공동 배포를 시뮬레이션하도록 설계되었습니다. 오디오 코덱에 의한 음성 분리는 설계의 핵심입니다. 이를 통해 LTTS의 최근 연구 결과의 기초가 되는 LLM용으로 개발된 방법을 직접 적용할 수 있기 때문입니다. 구체적으로 우리는 교차 엔트로피 훈련 목표를 가진 디코딩 자동 회귀 변환기를 사용하여 음성 코딩을 모델링합니다. 비록 간단하지만 이 목표는 표현 음성의 복잡한 확률 분포를 포착하여 초기 신경 TTS 시스템에서 볼 수 있는 과도한 평활화 문제를 완화할 수 있습니다. 암시적 언어 모델로서 충분히 큰 변형이 충분한 데이터에 대해 훈련되면 BASE TTS는 운율 렌더링에서도 질적으로 도약할 것입니다.
이산적 언어 표현
이산적 표현은 LLM 성공의 기초이지만 음성에서 간결하고 유익한 표현을 식별하는 것은 텍스트만큼 명확하지 않으며 이전에는 덜 탐구되었습니다. BASE TTS의 경우, 연구원들은 먼저 개별 병목 현상을 통해 멜 스펙트로그램을 재구성하기 위해 자동 인코더 아키텍처를 기반으로 하는 VQ-VAE 기준선(섹션 2.2.1)을 사용하려고 했습니다. VQ-VAE는 특히 TTS의 모델링 단위로서 음성 및 이미지 표현의 성공적인 패러다임이 되었습니다.
연구원들은 WavLM 기반 음성 코딩을 통해 음성 표현을 학습하는 새로운 방법도 도입했습니다(2.2.2절). 이 접근 방식에서 연구자들은 WavLM SSL 모델에서 추출한 특징을 이산화하여 멜 스펙트로그램을 재구성합니다. 연구원들은 화자 분리를 용이하게 하기 위해 추가 손실 기능을 적용하고 BPE(바이트 쌍 인코딩)를 사용하여 생성된 음성 코드를 압축하여 시퀀스 길이를 줄여 더 긴 오디오 모델링에 Transformer를 사용할 수 있도록 했습니다.
두 가지 표현 모두 압축되어(각각 325비트/초 및 400비트/초) 널리 사용되는 오디오 코덱에 비해 더 효율적인 자동 회귀 모델링이 가능합니다. 이러한 압축 수준을 기반으로 다음 목표는 디코딩 중에 재구성할 수 있는 정보(화자, 오디오 잡음 등)를 음성 코드에서 제거하여 음성 코드의 용량이 음성 및 운율을 인코딩하는 데 주로 사용되도록 하는 것입니다. 정보.
자동 회귀 음성 모델링(SpeechGPT)
연구원들은 텍스트 및 참조 음성을 조건으로 음성 코딩을 예측하는 데 사용되는 GPT-2 아키텍처를 사용하여 자동 회귀 모델 "SpeechGPT"를 훈련했습니다. 참조 음성 조건은 동일한 화자로부터 무작위로 선택된 발화로 구성되었으며 고정 크기 임베딩으로 인코딩되었습니다. 참조 음성 임베딩, 텍스트 및 음성 인코딩은 Transformer 기반 자동 회귀 모델로 모델링된 시퀀스로 연결됩니다. 우리는 텍스트와 음성에 대해 별도의 위치 임베딩과 별도의 예측 헤드를 사용합니다. 그들은 텍스트에 대한 사전 훈련 없이 처음부터 자동 회귀 모델을 훈련했습니다. 의성어를 안내하는 텍스트 정보를 보존하기 위해 SpeechGPT도 입력 시퀀스의 텍스트 부분의 다음 토큰을 예측할 목적으로 학습되므로 SpeechGPT 부분은 텍스트 전용 LM입니다. 여기서는 음성 손실에 비해 텍스트 손실에 대해 더 낮은 가중치가 채택됩니다.
파형 생성
또한 연구원들은 화자 신원 및 녹음 조건 재구성을 담당하는 별도의 음성 코더-파형 디코더("음성 코덱"이라고 함)를 지정했습니다. 모델의 확장성을 높이기 위해 LSTM 레이어를 컨벌루션 레이어로 대체하여 중간 표현을 디코딩했습니다. 연구에 따르면 이 컨볼루션 기반 음성 코덱은 계산적으로 효율적이어서 확산 기반 기본 디코더에 비해 전체 시스템 합성 시간을 70% 이상 단축하는 것으로 나타났습니다.
연구원들은 또한 실제로 음성 코덱의 입력이 음성 인코딩이 아니라 자동 회귀 변환기의 마지막 숨겨진 상태임을 지적했습니다. 이는 이전 TortoiseTTS 방법의 조밀한 잠재 표현이 단일 음성 코드보다 더 풍부한 정보를 제공하기 때문에 수행되었습니다. 훈련 과정에서 연구원들은 훈련된 SpeechGPT(매개변수 고정)에 텍스트와 대상 코드를 입력한 다음 최종 숨겨진 상태에 따라 디코더를 조정했습니다. SpeechGPT의 마지막 숨겨진 상태를 입력하면 음성의 분할 및 음향 품질이 향상되는 동시에 디코더가 SpeechGPT의 특정 버전에 연결됩니다. 이는 두 구성요소가 항상 순차적으로 구축되도록 하기 때문에 실험을 복잡하게 만듭니다. 이 제한 사항은 향후 작업에서 해결되어야 합니다.
실험 평가
연구원들은 LLM이 데이터 및 매개변수 스케일링을 통해 새로운 기능을 "발현"하는 것과 유사하게 스케일링이 까다로운 텍스트 입력에 대한 적절한 운율과 표현을 생성하는 모델의 능력에 어떤 영향을 미치는지 조사했습니다. 이 가설이 LTTS에도 적용되는지 테스트하기 위해 연구자들은 복합 명사, 감정, 외국어, 준언어, 구두점, 문제 및 구문 복잡성이라는 7가지 어려운 범주를 식별하여 TTS의 잠재적 창발 능력을 평가하는 평가 체계를 제안했습니다.
여러 실험을 통해 BASE TTS의 구조와 품질, 기능 및 계산 성능을 검증했습니다.
먼저 연구원들은 자동 인코더 기반 및 WavLM 기반 음성 코딩으로 달성한 모델 품질을 비교했습니다.
그런 다음 연구원들은 음성 코드의 음향 디코딩을 위한 두 가지 방법인 확산 기반 디코더와 음성 코덱을 평가했습니다.
이러한 구조적 절제를 완료한 후 우리는 언어 전문가뿐만 아니라 데이터세트 크기 및 모델 매개변수의 3가지 변형에 걸쳐 BASE TTS의 새로운 기능을 평가했습니다.
또한 연구원들은 자동 명료도 및 화자 유사성 측정뿐만 아니라 자연스러움을 측정하기 위해 주관적인 MUSHRA 테스트를 수행했으며 다른 오픈 소스 텍스트 음성 변환 모델과의 음성 품질 비교를 보고했습니다.
VQ-VAE 음성 코딩 vs. WavLM 음성 코딩
두 가지 음성 토큰화 방법의 품질과 다양성을 종합적으로 테스트하기 위해 연구원들은 6명의 미국 영어 사용자와 4명의 스페인어 사용자를 대상으로 MUSHRA를 실시했습니다. 영어의 평균 MUSHRA 점수 측면에서 VQ-VAE와 WavLM 기반 시스템은 비슷했습니다(VQ-VAE: 74.8 대 WavLM: 74.7). 그러나 스페인어의 경우 WavLM 기반 모델이 VQ-VAE 모델(VQ-VAE: 73.3 vs WavLM: 74.7)보다 통계적으로 훨씬 더 좋습니다. 영어 데이터는 데이터 세트의 약 90%를 구성하는 반면 스페인어 데이터는 2%만 구성합니다.
표 3은 화자별로 분류된 결과를 보여줍니다.
WavLM 기반 시스템이 VQ-VAE 기준선과 같거나 그 이상 성능을 발휘했기 때문에 이를 사용하여 추가 실험에서 BASE TTS를 표현했습니다.
확산 기반 디코더와 음성 코드 디코더
위에서 언급했듯이 BASE TTS는 종단간 음성 코덱을 제안하여 확산 기반 베이스라인 디코더를 단순화합니다. 이 방법은 유창하며 추론 속도가 3배 향상됩니다. 이 접근 방식으로 인해 품질이 저하되지 않도록 하기 위해 제안된 음성 코덱을 기준선과 비교하여 평가했습니다. 표 4에는 영어권 미국인 4명과 스페인어권 2명에 대한 MUSHRA 평가 결과가 나열되어 있습니다.
결과에 따르면 음성 코덱은 품질을 저하시키지 않기 때문에 선호되는 방법이며 대부분의 음성에 대해 더 빠른 추론을 제공하면서 품질을 향상시킵니다. 연구원들은 또한 음성 모델링을 위해 두 가지 강력한 생성 모델을 결합하는 것은 중복되며 확산 디코더를 포기함으로써 단순화될 수 있다고 말했습니다.
긴급력: 데이터 및 모델 크기 절제
표 1은 BASE-소형, BASE-중형 및 BASE-대형 시스템별 모든 매개변수를 보고합니다.
세 시스템과 각 시스템에 대한 언어 전문가 판단 결과 각 범주의 평균 점수는 그림 4에 나와 있습니다.
표 5의 MUSHRA 결과에서 음성의 자연스러움은 BASE-small에서 BASE-medium으로 크게 향상되지만 BASE-medium에서 BASE-medium으로 크게 향상되는 것을 확인할 수 있습니다. BASE- 큰 것의 개선이 더 작습니다:
BASE TTS 대 업계 기준
일반적으로 BASE TTS는 가장 자연스러운 음성을 생성하고 입력 텍스트와의 불일치가 가장 적으며 TTS와 가장 유사합니다. 참조 화자의 음성 관련 결과는 표 6과 표 7에 나와 있습니다.
음성 코덱을 통한 합성 효율성 향상
음성 코덱은 스트리밍 처리, 즉 증분형 음성 생성이 가능합니다. 방법. 이 기능을 자동 회귀 SpeechGPT와 결합하면 시스템은 100밀리초만큼 낮은 첫 번째 바이트 대기 시간을 달성할 수 있습니다. 이는 단 몇 개의 디코딩된 음성 코드만으로 이해할 수 있는 음성을 생성하는 데 충분합니다.
이 최소 대기 시간은 전체 음성 시퀀스(하나 이상의 문장)를 한 번에 생성해야 하며 첫 번째 바이트 대기 시간은 총 생성 시간과 동일한 확산 기반 디코더와는 극명한 대조를 이룹니다.
또한 연구원들은 음성 코덱이 확산 기준에 비해 전체 시스템의 계산 효율성을 3배 더 높인다는 사실을 관찰했습니다. 그들은 NVIDIA® V100 GPU에서 배치 크기 1로 약 20초 동안 1000개의 명령문을 생성하는 벤치마크를 실행했습니다. 평균적으로 확산 디코더를 사용하는 10억 매개변수 SpeechGPT는 합성을 완료하는 데 69.1초가 걸리는 반면, 음성 코덱을 사용하는 동일한 SpeechGPT는 17.8초만 걸립니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 음성 생성의 '스마트 출현': 100,000시간의 데이터 교육, Amazon은 10억 개의 매개변수 BASE TTS 제공의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











하지만 공원에 있는 노인을 이길 수는 없을까요? 파리올림픽이 본격화되면서 탁구가 많은 주목을 받고 있다. 동시에 로봇은 탁구 경기에서도 새로운 돌파구를 마련했습니다. 방금 DeepMind는 탁구 경기에서 인간 아마추어 선수 수준에 도달할 수 있는 최초의 학습 로봇 에이전트를 제안했습니다. 논문 주소: https://arxiv.org/pdf/2408.03906 DeepMind 로봇은 탁구를 얼마나 잘 치나요? 아마도 인간 아마추어 선수들과 동등할 것입니다: 포핸드와 백핸드 모두: 상대는 다양한 플레이 스타일을 사용하고 로봇도 견딜 수 있습니다: 다양한 스핀으로 서브를 받습니다. 그러나 게임의 강도는 그만큼 강렬하지 않은 것 같습니다. 공원에 있는 노인. 로봇용, 탁구용

8월 21일, 2024년 세계로봇대회가 베이징에서 성대하게 개최되었습니다. SenseTime의 홈 로봇 브랜드 "Yuanluobot SenseRobot"은 전체 제품군을 공개했으며, 최근에는 Yuanluobot AI 체스 두는 로봇인 체스 프로페셔널 에디션(이하 "Yuanluobot SenseRobot")을 출시하여 세계 최초의 A 체스 로봇이 되었습니다. 집. Yuanluobo의 세 번째 체스 게임 로봇 제품인 새로운 Guoxiang 로봇은 AI 및 엔지니어링 기계 분야에서 수많은 특별한 기술 업그레이드와 혁신을 거쳤으며 처음으로 3차원 체스 말을 집는 능력을 실현했습니다. 가정용 로봇의 기계 발톱을 통해 체스 게임, 모두 체스 게임, 기보 복습 등과 같은 인간-기계 기능을 수행합니다.

개학이 코앞으로 다가왔습니다. 새 학기를 앞둔 학생들뿐만 아니라 대형 AI 모델도 스스로 관리해야 합니다. 얼마 전 레딧에는 클로드가 게으르다고 불평하는 네티즌들이 붐볐습니다. "레벨이 많이 떨어졌고, 자주 멈췄고, 심지어 출력도 매우 짧아졌습니다. 출시 첫 주에는 4페이지 전체 문서를 한 번에 번역할 수 있었지만 지금은 반 페이지도 출력하지 못합니다. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ "클로드에게 완전히 실망했습니다"라는 제목의 게시물에

베이징에서 열린 세계로봇컨퍼런스에서는 휴머노이드 로봇의 전시가 현장의 절대 화두가 됐다. 스타더스트 인텔리전트 부스에서는 AI 로봇 어시스턴트 S1이 덜시머, 무술, 서예 3대 퍼포먼스를 선보였다. 문학과 무술을 모두 갖춘 하나의 전시 공간은 수많은 전문 관객과 미디어를 끌어 모았습니다. 탄력 있는 현의 우아한 연주를 통해 S1은 정밀한 작동과 속도, 힘, 정밀성을 갖춘 절대적인 제어력을 보여줍니다. CCTV 뉴스는 '서예'의 모방 학습 및 지능형 제어에 대한 특별 보도를 진행했습니다. 회사 설립자 Lai Jie는 부드러운 움직임 뒤에 하드웨어 측면이 최고의 힘 제어와 가장 인간과 유사한 신체 지표(속도, 하중)를 추구한다고 설명했습니다. 등)이지만 AI측에서는 사람의 실제 움직임 데이터를 수집해 로봇이 강한 상황에 직면했을 때 더욱 강해지고 빠르게 진화하는 방법을 학습할 수 있다. 그리고 민첩하다

비전과 로봇 학습의 긴밀한 통합. 최근 화제를 모으고 있는 1X 휴머노이드 로봇 네오(NEO)와 두 개의 로봇 손이 원활하게 협력해 옷 개기, 차 따르기, 신발 싸기 등을 하는 모습을 보면 마치 로봇 시대로 접어들고 있다는 느낌을 받을 수 있다. 실제로 이러한 부드러운 움직임은 첨단 로봇 기술 + 정교한 프레임 디자인 + 다중 모드 대형 모델의 산물입니다. 우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호작용을 요구한다는 것을 알고 있으며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있습니다. 예를 들어, 로봇이 차를 따르도록 하려면 먼저 로봇이 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 주전자 입구와 컵 입구가 일치할 때까지 부드럽게 움직여야 합니다. 을 누른 다음 주전자를 특정 각도로 기울입니다. 이것

참가자들은 이번 ACL 컨퍼런스에서 많은 것을 얻었습니다. ACL2024는 6일간 태국 방콕에서 개최됩니다. ACL은 전산언어학 및 자연어 처리 분야 최고의 국제학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하고 매년 개최된다. ACL은 NLP 분야에서 학술 영향력 1위를 항상 차지하고 있으며, CCF-A 추천 컨퍼런스이기도 합니다. 올해로 62회째를 맞이하는 ACL 컨퍼런스에는 NLP 분야의 최신 저서가 400편 이상 접수됐다. 어제 오후 컨퍼런스에서는 최우수 논문과 기타 상을 발표했습니다. 이번에 최우수논문상 7개(미출판 2개), 우수주제상 1개, 우수논문상 35개가 있다. 이 컨퍼런스에서는 또한 3개의 리소스 논문상(ResourceAward)과 사회적 영향상(Social Impact Award)을 수상했습니다.

오늘 오후 Hongmeng Zhixing은 공식적으로 새로운 브랜드와 신차를 환영했습니다. 8월 6일, Huawei는 Hongmeng Smart Xingxing S9 및 Huawei 전체 시나리오 신제품 출시 컨퍼런스를 개최하여 파노라마식 스마트 플래그십 세단 Xiangjie S9, 새로운 M7Pro 및 Huawei novaFlip, MatePad Pro 12.2인치, 새로운 MatePad Air, Huawei Bisheng을 선보였습니다. 레이저 프린터 X1 시리즈, FreeBuds6i, WATCHFIT3 및 스마트 스크린 S5Pro를 포함한 다양한 새로운 올-시나리오 스마트 제품, 스마트 여행, 스마트 오피스, 스마트 웨어에 이르기까지 화웨이는 풀 시나리오 스마트 생태계를 지속적으로 구축하여 소비자에게 스마트한 경험을 제공합니다. 만물인터넷. Hongmeng Zhixing: 스마트 자동차 산업의 업그레이드를 촉진하기 위한 심층적인 권한 부여 화웨이는 중국 자동차 산업 파트너와 손을 잡고

Machine Power Report 편집자: Yang Wen 대형 모델과 AIGC로 대표되는 인공지능의 물결은 우리가 살고 일하는 방식을 조용히 변화시키고 있지만, 대부분의 사람들은 여전히 그것을 어떻게 사용하는지 모릅니다. 이에 직관적이고 흥미롭고 간결한 인공지능 활용 사례를 통해 AI 활용 방법을 자세히 소개하고 모두의 사고를 자극하고자 'AI in Use' 칼럼을 론칭하게 됐다. 또한 독자들이 혁신적인 실제 사용 사례를 제출하는 것을 환영합니다. 맙소사 AI가 정말 천재가 되었네요. 최근에는 AI가 생성한 사진의 진위 판별이 어렵다는 점이 화제가 되고 있다. (자세한 내용은 AI 사용 | 3단계로 AI 미녀 되기, 1초 만에 AI에 의해 원래 모습으로 돌아가기 참조) 인터넷에서 인기 있는 AI Google lady 외에도 다양한 FLUX 생성기가 있습니다. 소셜 플랫폼에 등장
