목차
네티즌들의 뜨거운 댓글
기술 주변기기 일체 포함 언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

Jul 04, 2023 pm 05:57 PM
ai 목소리

AI가 참여하는 음성 세계는 정말 마술적입니다. 한 사람의 목소리를 다른 사람의 목소리로 바꿀 수 있을 뿐만 아니라 동물과도 목소리를 교환할 수 있습니다.

음성 변환의 목표는 내용을 변경하지 않고 소스 음성을 대상 음성으로 변환하는 것임을 알고 있습니다. 최근의 다대다 음성 변환 방법은 자연스러움과 화자 유사성을 향상시키지만 복잡성을 크게 증가시킵니다. 이는 훈련 및 추론 비용이 더 비싸지고 개선 사항을 평가하고 확립하기가 어려워진다는 것을 의미합니다.

질문은 고품질 음성 변환에 복잡성이 필요합니까?입니다. 남아프리카 Stellenbosch 대학의 최근 논문에서 여러 연구자들이 이 문제를 조사했습니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

  • 문서 주소: https://arxiv.org/pdf/2305.18975.pdf
  • GitHub 주소: https://bshall.github.io/knn-vc/

연구 하이라이트는 다음과 같습니다. 간단하고 강력한 모든 음성 변환 방법인 K-Nearest Neighbor Speech Conversion(kNN-VC)을 도입했습니다 . 명시적인 변환 모델을 훈련하는 대신 K-최근접 이웃 회귀가 간단히 사용됩니다.

구체적으로 연구원들은 먼저 자기 지도 음성 표현 모델을 사용하여 소스 발화와 참조 발화의 특징 시퀀스를 추출한 다음 소스 표현의 각 프레임을 가장 가까운 이웃으로 대체하여 대상 화자로 변환했습니다. 참조 에서 마지막으로 신경 보코더를 사용하여 변환된 특징을 합성하여 변환된 음성을 얻습니다.

결과에 따르면 KNN-VC는 단순함에도 불구하고 여러 기본 음성 변환 시스템과 비교하여 주관적 평가와 객관적 평가 모두에서 유사하거나 향상된 명료도 및 화자 유사성을 달성합니다.

KNN-VC 음성 변환 효과를 감상해 보세요. 먼저 사람의 음성 변환을 살펴보면 KNN-VC는 LibriSpeech 데이터 세트에서 볼 수 없는 소스 및 타겟 화자에 적용됩니다.

소스 음성00:11

합성 음성 100:11

합성 음성 200:11

KNN- VC는 또한 언어 간 음성 변환을 지원합니다. 예를 들어 스페인어에서 독일어로, 독일어에서 일본어로, 중국어에서 스페인어로 변환됩니다.

소스 중국어 00:08

타겟 스페인어 00:05

합성음성 300:08

Even 더 놀랍게도 KNN-VC는 여전히 사람의 목소리를 교환할 수 있습니다. 그리고 개가 짖는 소리.

원본 개 짖는 소리00:09

원본 사람 목소리00:05

합성 음성400:08

S 합성 음성 5 00:05

KNN-VC가 어떻게 실행되고 다른 jixian 방법과 비교되는지 살펴보겠습니다.

방법 개요 및 실험 결과

kNN-VC의 아키텍처 다이어그램은 인코더-컨버터-보코더 구조를 따라 아래와 같습니다. 먼저 인코더는 소스 및 참조 음성의 자체 감독 표현을 추출한 다음 변환기는 각 소스 프레임을 참조의 가장 가까운 이웃에 매핑하고 마지막으로 보코더는 변환된 특징을 기반으로 오디오 파형을 생성합니다.

인코더는 WavLM을 사용하고, 변환기는 K 최근접 이웃 회귀를 사용하고, 보코더는 HiFiGAN을 사용합니다. 훈련이 필요한 유일한 구성 요소는 보코더입니다.

WavLM 인코더의 경우 연구원은 사전 훈련된 WavLM-Large 모델만 사용했으며 기사에서는 이에 대한 어떠한 훈련도 수행하지 않았습니다. kNN 변환 모델의 경우 kNN은 비모수적이며 교육이 필요하지 않습니다. HiFiGAN 보코더의 경우 원본 HiFiGAN 작성자의 저장소가 WavLM 기능을 보코딩하는 데 사용되어 교육이 필요한 유일한 부분이 되었습니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?Pictures

실험에서 연구원들은 먼저 KNN-VC를 다른 기본 방법과 비교하여 사용 가능한 가장 큰 대상 데이터(화자당 약 8분의 오디오)를 사용하여 음성 변환 시스템을 테스트했습니다.

KNN-VC의 경우 연구원은 모든 대상 데이터를 매칭 세트로 사용합니다. 기본 방법의 경우 각 대상 발화에 대한 화자 임베딩의 평균을 냅니다.

아래 표 1은 명료도, 자연성 및 화자 유사성에 대한 각 모델의 결과를 보고합니다. 볼 수 있듯이 kNN-VC는 최고의 기본 FreeVC와 비슷한 자연스러움과 명확성을 달성하지만 스피커 유사성은 크게 향상되었습니다. 이는 또한 고품질 음성 변환에는 복잡성이 증가할 필요가 없다는 이 기사의 주장을 확인시켜 줍니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?

또한 연구원들은 사전 일치된 데이터로 훈련된 HiFi-GAN으로 인해 얼마나 많은 개선이 이루어졌는지, 그리고 대상 화자 데이터 크기가 명료도 및 화자 유사성에 얼마나 영향을 미치는지 이해하고 싶었습니다.

아래 그림 2는 서로 다른 대상 스피커 크기의 두 가지 HiFi-GAN 변형에 대한 WER(작을수록 좋음)과 EER(높을수록 좋음) 간의 관계를 보여줍니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?Pictures

네티즌들의 뜨거운 댓글

"가장 가까운 이웃만 사용하는" 새로운 음성 변환 방법 kNN-VC에 대해 일부 사람들은 사전 훈련된 음성 모델이 기사에 사용되었다고 생각합니다. 이므로 "only"가 사용됩니다. 정확하지 않습니다. 하지만 kNN-VC가 여전히 다른 모델에 비해 단순하다는 점은 부인할 수 없습니다.

결과는 또한 kNN-VC가 매우 복잡한 모든 음성 변환 방법에 비해 최고는 아니지만 동등하게 효과적이라는 것을 증명합니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?Pictures

어떤 사람들은 사람의 목소리와 개 짖는 소리가 서로 바뀌는 예가 매우 흥미롭다고도 했습니다.

언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?사진

위 내용은 언어 간, 사람 목소리, 개 짖는 소리 교환을 지원하고 가장 가까운 이웃만 사용하는 간단한 음성 변환 모델이 얼마나 놀라운가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SQL에서 새 열을 추가하는 방법 SQL에서 새 열을 추가하는 방법 Apr 09, 2025 pm 02:09 PM

Alter Table 문을 사용하여 SQL의 기존 테이블에 새 열을 추가하십시오. 특정 단계에는 다음이 포함됩니다. 테이블 이름 및 열 정보 결정, Alter Table 문 작성 및 진술 실행. 예를 들어, 고객 테이블에 이메일 열을 추가하십시오 (Varchar (50)) : Alter Table 고객 이메일 추가 Varchar (50);

SQL에서 열을 추가하기위한 구문은 무엇입니까? SQL에서 열을 추가하기위한 구문은 무엇입니까? Apr 09, 2025 pm 02:51 PM

SQL에서 열을 추가하기위한 구문은 Alter Table_Name ADD CORMEN_NAME DATY_TYPE [NOT NULL] [DEFAULT DEFAULT_VALUE]; 여기서 table_name은 테이블 이름이고 column_name은 새 열 이름, data_type는 데이터 유형이며 NULL은 NULL 값이 허용되는지 여부를 지정하고 기본값 기본값을 지정합니다.

SQL 클리어 테이블 : 성능 최적화 팁 SQL 클리어 테이블 : 성능 최적화 팁 Apr 09, 2025 pm 02:54 PM

SQL 테이블 개선 성능을 개선하기위한 팁 : 삭제 대신 Truncate 테이블을 사용하고 공간을 확보하고 ID 열을 재설정하십시오. 계단식 삭제를 방지하기 위해 외국의 주요 제약 조건을 비활성화하십시오. 트랜잭션 캡슐화 작업을 사용하여 데이터 일관성을 보장합니다. 배치는 빅 데이터를 삭제하고 한계를 통해 행 수를 제한합니다. 쿼리 효율성을 향상시키기 위해 지우고 지수를 재구성하십시오.

SQL에서 열을 추가 할 때 기본값을 설정하는 방법 SQL에서 열을 추가 할 때 기본값을 설정하는 방법 Apr 09, 2025 pm 02:45 PM

새로 추가 된 열에 대한 기본값을 설정하고 Alter Table 문을 사용하십시오. 문 : 열 추가를 지정하고 기본값을 설정하십시오. Alter Table_Name Add Column_name Data_Type Default_value; 구속 조건 조항을 사용하여 기본값을 지정하십시오. ALTER TABLE TABLE_NAME CORMENT CORMEN_NAME DATA DATA DATA DATA DATA DATA DATA DATAY_TYPE 제한 DEFAULT_COSSTRANT DEFAULT DEFAULT_VALUE;

삭제 명령문을 사용하여 SQL 테이블을 지우십시오 삭제 명령문을 사용하여 SQL 테이블을 지우십시오 Apr 09, 2025 pm 03:00 PM

예, 삭제 명령문은 SQL 테이블을 지우는 데 사용될 수 있습니다. 단계는 다음과 같습니다. 삭제 명령문 사용 : table_name에서 삭제; TABLE_NAME을 제거 할 테이블 이름으로 바꾸십시오.

phpmyadmin은 데이터 테이블을 만듭니다 phpmyadmin은 데이터 테이블을 만듭니다 Apr 10, 2025 pm 11:00 PM

phpmyadmin을 사용하여 데이터 테이블을 만들려면 다음 단계가 필수적입니다. 데이터베이스에 연결하고 새 탭을 클릭하십시오. 테이블의 이름을 지정하고 저장 엔진을 선택하십시오 (InnoDB 권장). 열 이름, 데이터 유형, NULL 값 허용 여부 및 기타 속성을 포함하여 열 추가 버튼을 클릭하여 열 디테일을 추가하십시오. 기본 키로 하나 이상의 열을 선택하십시오. 저장 버튼을 클릭하여 테이블과 열을 만듭니다.

Redis 메모리 조각화를 처리하는 방법? Redis 메모리 조각화를 처리하는 방법? Apr 10, 2025 pm 02:24 PM

Redis 메모리 조각화는 할당 된 메모리에 재 할당 할 수없는 작은 자유 영역의 존재를 말합니다. 대처 전략에는 다음이 포함됩니다. REDIS를 다시 시작하십시오 : 메모리를 완전히 지우지 만 인터럽트 서비스. 데이터 구조 최적화 : Redis에 더 적합한 구조를 사용하여 메모리 할당 및 릴리스 수를 줄입니다. 구성 매개 변수 조정 : 정책을 사용하여 최근에 가장 적게 사용 된 키 값 쌍을 제거하십시오. 지속 메커니즘 사용 : 데이터를 정기적으로 백업하고 Redis를 다시 시작하여 조각을 정리하십시오. 메모리 사용 모니터링 : 적시에 문제를 발견하고 조치를 취하십시오.

Oracle 데이터베이스 작성 방법 Oracle 데이터베이스 작성 방법 Oracle 데이터베이스 작성 방법 Oracle 데이터베이스 작성 방법 Apr 11, 2025 pm 02:33 PM

Oracle 데이터베이스를 만드는 것은 쉽지 않으므로 기본 메커니즘을 이해해야합니다. 1. 데이터베이스 및 Oracle DBMS의 개념을 이해해야합니다. 2. SID, CDB (컨테이너 데이터베이스), PDB (Pluggable Database)와 같은 핵심 개념을 마스터합니다. 3. SQL*Plus를 사용하여 CDB를 생성 한 다음 PDB를 만들려면 크기, 데이터 파일 수 및 경로와 같은 매개 변수를 지정해야합니다. 4. 고급 응용 프로그램은 문자 세트, 메모리 및 기타 매개 변수를 조정하고 성능 튜닝을 수행해야합니다. 5. 디스크 공간, 권한 및 매개 변수 설정에주의를 기울이고 데이터베이스 성능을 지속적으로 모니터링하고 최적화하십시오. 그것을 능숙하게 마스터 함으로써만 지속적인 연습이 필요합니다. Oracle 데이터베이스의 생성 및 관리를 진정으로 이해할 수 있습니다.

See all articles