음성 생성의 '스마트 출현': 100,000시간의 데이터 교육, Amazon은 10억 개의 매개변수 BASE TTS 제공

WBOY
풀어 주다: 2024-02-16 18:40:25
앞으로
1272명이 탐색했습니다.

생성 딥러닝 모델의 급속한 발전으로 자연어 처리(NLP)와 컴퓨터 비전(CV)이 큰 변화를 겪었습니다. 전문적인 훈련이 필요한 이전 지도 모델부터 다양한 작업을 완료하기 위해 간단하고 명확한 지침만 필요한 일반 모델까지. 이러한 변화는 우리에게 보다 효율적이고 유연한 솔루션을 제공합니다.

음성 처리 및 TTS(텍스트 음성 변환) 분야에서 변화가 일어나고 있습니다. 수천 시간의 데이터를 활용하여 모델은 합성을 실제 인간의 음성에 점점 더 가깝게 만듭니다.

최근 연구에서 Amazon은 BASE TTS를 공식 출시하여 TTS 모델의 매개변수 규모를 전례 없는 수준인 10억 개로 늘렸습니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

  • 논문 제목: BASE TTS: 10만 시간의 데이터에 대한 10억 매개변수 텍스트 음성 변환 모델 구축에서 얻은 교훈

  • 논문 링크: https://arxiv.org/pdf/2402.08093. pdf

BASE TTS는 대규모 다국어, 다중 스피커 TTS(LTTS) 시스템입니다. 훈련에 약 10만 시간의 퍼블릭 도메인 음성 데이터를 사용했는데, 이는 이전에 가장 많은 양의 훈련 데이터를 보유했던 VALL-E의 두 배에 달하는 규모다. LLM의 성공적인 경험에서 영감을 받은 BASE TTS는 TTS를 다음 토큰 예측의 문제로 취급하고 이를 대량의 훈련 데이터와 결합하여 강력한 다중 언어 및 다중 화자 기능을 달성합니다.

이 기사의 주요 기여는 다음과 같이 요약됩니다.

제안된 BASE TTS는 현재 10억 개의 매개변수를 갖춘 가장 큰 TTS 모델이며 100,000시간의 공개 도메인 음성 데이터로 구성된 데이터 세트를 기반으로 훈련되었습니다. 주관적인 평가를 통해 BASE TTS는 공개 LTTS 기준 모델보다 성능이 뛰어납니다.

이 기사에서는 BASE TTS를 더 큰 데이터 세트와 모델 크기로 확장하여 복잡한 텍스트에 적절한 운율을 렌더링하는 BASE TTS의 기능을 향상시키는 방법을 보여줍니다. 대규모 TTS 모델의 텍스트 이해 및 렌더링 기능을 평가하기 위해 연구원들은 "긴급 기능" 테스트 세트를 개발하고 이 벤치마크에서 BASE TTS의 다양한 변형 성능을 보고했습니다. 결과는 데이터 세트의 크기와 매개변수의 수가 증가함에 따라 BASE TTS의 품질이 점차 향상되고 있음을 보여줍니다.

3. 음성 신호의 음운론적 및 운율적 정보만 캡처하는 것을 목표로 하는 WavLM SSL 모델을 기반으로 하는 새로운 이산 음성 표현이 제안되었습니다. 이러한 표현은 기본 양자화 방법보다 성능이 뛰어나므로 높은 압축 수준(단 400비트/초)에도 불구하고 간단하고 빠른 스트리밍 디코더를 통해 고품질 파형으로 디코딩할 수 있습니다.

다음으로 논문 내용을 살펴보겠습니다.

BASE TTS 모델

최근 음성 모델링 작업과 유사하게 연구원들은 TTS 작업을 처리하기 위해 LLM 기반 접근 방식을 채택했습니다. 텍스트는 별개의 오디오 표현(음성 코드라고 함)을 예측하는 Transformer 기반 자동 회귀 모델에 입력되며, 이는 선형 및 컨벌루션 레이어로 구성된 별도로 훈련된 디코더에 의해 파형으로 디코딩됩니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

BASE TTS는 연구원들이 음성 코딩이라고 부르는 개별 음성 표현이 뒤따르는 텍스트 토큰의 공동 배포를 시뮬레이션하도록 설계되었습니다. 오디오 코덱에 의한 음성 분리는 설계의 핵심입니다. 이를 통해 LTTS의 최근 연구 결과의 기초가 되는 LLM용으로 개발된 방법을 직접 적용할 수 있기 때문입니다. 구체적으로 우리는 교차 엔트로피 훈련 목표를 가진 디코딩 자동 회귀 변환기를 사용하여 음성 코딩을 모델링합니다. 비록 간단하지만 이 목표는 표현 음성의 복잡한 확률 분포를 포착하여 초기 신경 TTS 시스템에서 볼 수 있는 과도한 평활화 문제를 완화할 수 있습니다. 암시적 언어 모델로서 충분히 큰 변형이 충분한 데이터에 대해 훈련되면 BASE TTS는 운율 렌더링에서도 질적으로 도약할 것입니다.

이산적 언어 표현

이산적 표현은 LLM 성공의 기초이지만 음성에서 간결하고 유익한 표현을 식별하는 것은 텍스트만큼 명확하지 않으며 이전에는 덜 탐구되었습니다. BASE TTS의 경우, 연구원들은 먼저 개별 병목 현상을 통해 멜 스펙트로그램을 재구성하기 위해 자동 인코더 아키텍처를 기반으로 하는 VQ-VAE 기준선(섹션 2.2.1)을 사용하려고 했습니다. VQ-VAE는 특히 TTS의 모델링 단위로서 음성 및 이미지 표현의 성공적인 패러다임이 되었습니다.

연구원들은 WavLM 기반 음성 코딩을 통해 음성 표현을 학습하는 새로운 방법도 도입했습니다(2.2.2절). 이 접근 방식에서 연구자들은 WavLM SSL 모델에서 추출한 특징을 이산화하여 멜 스펙트로그램을 재구성합니다. 연구원들은 화자 분리를 용이하게 하기 위해 추가 손실 기능을 적용하고 BPE(바이트 쌍 인코딩)를 사용하여 생성된 음성 코드를 압축하여 시퀀스 길이를 줄여 더 긴 오디오 모델링에 Transformer를 사용할 수 있도록 했습니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

두 가지 표현 모두 압축되어(각각 325비트/초 및 400비트/초) 널리 사용되는 오디오 코덱에 비해 더 효율적인 자동 회귀 모델링이 가능합니다. 이러한 압축 수준을 기반으로 다음 목표는 디코딩 중에 재구성할 수 있는 정보(화자, 오디오 잡음 등)를 음성 코드에서 제거하여 음성 코드의 용량이 음성 및 운율을 인코딩하는 데 주로 사용되도록 하는 것입니다. 정보.

자동 회귀 음성 모델링(SpeechGPT)

연구원들은 텍스트 및 참조 음성을 조건으로 음성 코딩을 예측하는 데 사용되는 GPT-2 아키텍처를 사용하여 자동 회귀 모델 "SpeechGPT"를 훈련했습니다. 참조 음성 조건은 동일한 화자로부터 무작위로 선택된 발화로 구성되었으며 고정 크기 임베딩으로 인코딩되었습니다. 참조 음성 임베딩, 텍스트 및 음성 인코딩은 Transformer 기반 자동 회귀 모델로 모델링된 시퀀스로 연결됩니다. 우리는 텍스트와 음성에 대해 별도의 위치 임베딩과 별도의 예측 헤드를 사용합니다. 그들은 텍스트에 대한 사전 훈련 없이 처음부터 자동 회귀 모델을 훈련했습니다. 의성어를 안내하는 텍스트 정보를 보존하기 위해 SpeechGPT도 입력 시퀀스의 텍스트 부분의 다음 토큰을 예측할 목적으로 학습되므로 SpeechGPT 부분은 텍스트 전용 LM입니다. 여기서는 음성 손실에 비해 텍스트 손실에 대해 더 낮은 가중치가 채택됩니다.

파형 생성

또한 연구원들은 화자 신원 및 녹음 조건 재구성을 담당하는 별도의 음성 코더-파형 디코더("음성 코덱"이라고 함)를 지정했습니다. 모델의 확장성을 높이기 위해 LSTM 레이어를 컨벌루션 레이어로 대체하여 중간 표현을 디코딩했습니다. 연구에 따르면 이 컨볼루션 기반 음성 코덱은 계산적으로 효율적이어서 확산 기반 기본 디코더에 비해 전체 시스템 합성 시간을 70% 이상 단축하는 것으로 나타났습니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

연구원들은 또한 실제로 음성 코덱의 입력이 음성 인코딩이 아니라 자동 회귀 변환기의 마지막 숨겨진 상태임을 지적했습니다. 이는 이전 TortoiseTTS 방법의 조밀한 잠재 표현이 단일 음성 코드보다 더 풍부한 정보를 제공하기 때문에 수행되었습니다. 훈련 과정에서 연구원들은 훈련된 SpeechGPT(매개변수 고정)에 텍스트와 대상 코드를 입력한 다음 최종 숨겨진 상태에 따라 디코더를 조정했습니다. SpeechGPT의 마지막 숨겨진 상태를 입력하면 음성의 분할 및 음향 품질이 향상되는 동시에 디코더가 SpeechGPT의 특정 버전에 연결됩니다. 이는 두 구성요소가 항상 순차적으로 구축되도록 하기 때문에 실험을 복잡하게 만듭니다. 이 제한 사항은 향후 작업에서 해결되어야 합니다.

실험 평가

연구원들은 LLM이 데이터 및 매개변수 스케일링을 통해 새로운 기능을 "발현"하는 것과 유사하게 스케일링이 까다로운 텍스트 입력에 대한 적절한 운율과 표현을 생성하는 모델의 능력에 어떤 영향을 미치는지 조사했습니다. 이 가설이 LTTS에도 적용되는지 테스트하기 위해 연구자들은 복합 명사, 감정, 외국어, 준언어, 구두점, 문제 및 구문 복잡성이라는 7가지 어려운 범주를 식별하여 TTS의 잠재적 창발 능력을 평가하는 평가 체계를 제안했습니다.

여러 실험을 통해 BASE TTS의 구조와 품질, 기능 및 계산 성능을 검증했습니다.

  • 먼저 연구원들은 자동 인코더 기반 및 WavLM 기반 음성 코딩으로 달성한 모델 품질을 비교했습니다.

  • 그런 다음 연구원들은 음성 코드의 음향 디코딩을 위한 두 가지 방법인 확산 기반 디코더와 음성 코덱을 평가했습니다.

  • 이러한 구조적 절제를 완료한 후 우리는 언어 전문가뿐만 아니라 데이터세트 크기 및 모델 매개변수의 3가지 변형에 걸쳐 BASE TTS의 새로운 기능을 평가했습니다.

  • 또한 연구원들은 자동 명료도 및 화자 유사성 측정뿐만 아니라 자연스러움을 측정하기 위해 주관적인 MUSHRA 테스트를 수행했으며 다른 오픈 소스 텍스트 음성 변환 모델과의 음성 품질 비교를 보고했습니다.

VQ-VAE 음성 코딩 vs. WavLM 음성 코딩

두 가지 음성 토큰화 방법의 품질과 다양성을 종합적으로 테스트하기 위해 연구원들은 6명의 미국 영어 사용자와 4명의 스페인어 사용자를 대상으로 MUSHRA를 실시했습니다. 영어의 평균 MUSHRA 점수 측면에서 VQ-VAE와 WavLM 기반 시스템은 비슷했습니다(VQ-VAE: 74.8 대 WavLM: 74.7). 그러나 스페인어의 경우 WavLM 기반 모델이 VQ-VAE 모델(VQ-VAE: 73.3 vs WavLM: 74.7)보다 통계적으로 훨씬 더 좋습니다. 영어 데이터는 데이터 세트의 약 90%를 구성하는 반면 스페인어 데이터는 2%만 구성합니다.

표 3은 화자별로 분류된 결과를 보여줍니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

WavLM 기반 시스템이 VQ-VAE 기준선과 같거나 그 이상 성능을 발휘했기 때문에 이를 사용하여 추가 실험에서 BASE TTS를 표현했습니다.

확산 기반 디코더와 음성 코드 디코더

위에서 언급했듯이 BASE TTS는 종단간 음성 코덱을 제안하여 확산 기반 베이스라인 디코더를 단순화합니다. 이 방법은 유창하며 추론 속도가 3배 향상됩니다. 이 접근 방식으로 인해 품질이 저하되지 않도록 하기 위해 제안된 음성 코덱을 기준선과 비교하여 평가했습니다. 표 4에는 영어권 미국인 4명과 스페인어권 2명에 대한 MUSHRA 평가 결과가 나열되어 있습니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

결과에 따르면 음성 코덱은 품질을 저하시키지 않기 때문에 선호되는 방법이며 대부분의 음성에 대해 더 빠른 추론을 제공하면서 품질을 향상시킵니다. 연구원들은 또한 음성 모델링을 위해 두 가지 강력한 생성 모델을 결합하는 것은 중복되며 확산 디코더를 포기함으로써 단순화될 수 있다고 말했습니다.

긴급력: 데이터 및 모델 크기 절제

표 1은 BASE-소형, BASE-중형 및 BASE-대형 시스템별 모든 매개변수를 보고합니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

세 시스템과 각 시스템에 대한 언어 전문가 판단 결과 각 범주의 평균 점수는 그림 4에 나와 있습니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

표 5의 MUSHRA 결과에서 음성의 자연스러움은 BASE-small에서 BASE-medium으로 크게 향상되지만 BASE-medium에서 BASE-medium으로 크게 향상되는 것을 확인할 수 있습니다. BASE- 큰 것의 개선이 더 작습니다:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

BASE TTS 대 업계 기준

일반적으로 BASE TTS는 가장 자연스러운 음성을 생성하고 입력 텍스트와의 불일치가 가장 적으며 TTS와 가장 유사합니다. 참조 화자의 음성 관련 결과는 표 6과 표 7에 나와 있습니다.

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

음성 코덱을 통한 합성 효율성 향상

음성 코덱은 스트리밍 처리, 즉 증분형 음성 생성이 가능합니다. 방법. 이 기능을 자동 회귀 SpeechGPT와 결합하면 시스템은 100밀리초만큼 낮은 첫 번째 바이트 대기 시간을 달성할 수 있습니다. 이는 단 몇 개의 디코딩된 음성 코드만으로 이해할 수 있는 음성을 생성하는 데 충분합니다.

이 최소 대기 시간은 전체 음성 시퀀스(하나 이상의 문장)를 한 번에 생성해야 하며 첫 번째 바이트 대기 시간은 총 생성 시간과 동일한 확산 기반 디코더와는 극명한 대조를 이룹니다.

또한 연구원들은 음성 코덱이 확산 기준에 비해 전체 시스템의 계산 효율성을 3배 더 높인다는 사실을 관찰했습니다. 그들은 NVIDIA® V100 GPU에서 배치 크기 1로 약 20초 동안 1000개의 명령문을 생성하는 벤치마크를 실행했습니다. 평균적으로 확산 디코더를 사용하는 10억 매개변수 SpeechGPT는 합성을 완료하는 데 69.1초가 걸리는 반면, 음성 코덱을 사용하는 동일한 SpeechGPT는 17.8초만 걸립니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 음성 생성의 '스마트 출현': 100,000시간의 데이터 교육, Amazon은 10억 개의 매개변수 BASE TTS 제공의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿