> 기술 주변기기 > 일체 포함 > Microsoft의 최신 NaturalSpeech2 음성 합성 모델: 보다 정확한 음성 재구성을 제공하고 스틱 읽기 효과를 방지합니다.

Microsoft의 최신 NaturalSpeech2 음성 합성 모델: 보다 정확한 음성 재구성을 제공하고 스틱 읽기 효과를 방지합니다.

WBOY
풀어 주다: 2023-08-04 09:41:05
앞으로
1077명이 탐색했습니다.

Microsoft의 최신 NaturalSpeech2 음성 합성 모델: 보다 정확한 음성 재구성을 제공하고 스틱 읽기 효과를 방지합니다.

7월 27일 Microsoft는 최근 NaturalSpeech2라는 음성 모델을 출시했습니다. 이 모델은 "잠재적 확산" 설계를 채택했으며 제로 샘플 음성 합성 수준에서 뛰어난 결과를 제공한다고 Microsoft는 주장합니다. "등급" 음성/노래 솔루션은 사용자에게 고품질의 다양한 음성 합성 경험을 제공할 수 있습니다.

Microsoft는 샘플 없이 다양한 화자 ID, 운율 및 스타일(예: 노래)로 음성을 생성하는 NaturalSpeech2의 능력을 보여주는 일련의 시연을 실시했습니다.

Microsoft의 최신 NaturalSpeech2 음성 합성 모델: 보다 정확한 음성 재구성을 제공하고 스틱 읽기 효과를 방지합니다.

▲ 이미지 출처는 NaturalSpeech 2 논문에서 가져온 것입니다.

보고되었습니다 기존의 음성-텍스트(TTS) 시스템과 달리 Microsoft의 NaturalSpeech2는 "이산 마커" 대신 "연속 벡터"를 사용하여 음성을 표현함으로써 "감정 부족"을 생성하지 않고 보다 완전한 음성 세그먼트를 생성합니다. 스틱 읽기(단어 단위로 말하기)".

Microsoft의 최신 NaturalSpeech2 음성 합성 모델: 보다 정확한 음성 재구성을 제공하고 스틱 읽기 효과를 방지합니다.

▲ 이미지 소스는 NaturalSpeech 2 논문에서 가져왔습니다.

실험 결과에 따르면

NaturalSpeech2가 제로 샘플 조건에서 생성한 음성은 음성 프롬프트 및 실제 음성의 운율과 거의 일치하며 LibriTTS에서는 자연스럽습니다. 및 VCTK 테스트 세트 학위(CMOS에서 측정)는 사람의 말과 구별할 수 없습니다 .

이 프로젝트의 논문은 GitHub에 게시되었습니다. 관심 있는 IT House 친구들은

여기를 클릭하여 방문할 수 있습니다.

위 내용은 Microsoft의 최신 NaturalSpeech2 음성 합성 모델: 보다 정확한 음성 재구성을 제공하고 스틱 읽기 효과를 방지합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿