


당신의 목소리를 훔치는 데 걸리는 시간은 단 3초! 마이크로소프트, 음성 합성 모델 VALL-E 출시 : 네티즌들은 '전화 사기' 기준이 다시 낮아졌다고 감탄
ChatGPT에서 스크립트 작성을 돕고 Stable Diffusion에서 일러스트레이션을 생성할 수 있습니다. 비디오를 만들려면 성우가 필요합니까? 그것은오고!
최근 Microsoft 연구원은 입력된 인간 음성을 시뮬레이션하고 해당 오디오를 기반으로 합성하기 위해 3초의 오디오 샘플만 제공하면 되는 새로운 TTS(텍스트 음성 변환) 모델을 출시했습니다. 화자의 감성적인 톤을 유지하면서 제작됩니다.
논문 링크: https://www.php.cn/link/402cac3dacf2ef35050ca72743ae6ca7
프로젝트 링크: https://valle-demo.github.io/
코드 링크: https://github.com /microsoft/unilm
먼저 효과를 살펴보겠습니다. 3초짜리 녹음이 있다고 가정해 보겠습니다.
diversity_speaker audio: 00:0000:03
그런 다음 "Because we not need it"이라는 텍스트를 입력하면 합성된 음성을 얻을 수 있습니다.
diversity_s1 오디오: 00:0000:01
다양한 무작위 시드를 사용해도 맞춤형 음성 합성을 수행할 수도 있습니다.
diversity_s2 Audio: 00:0000:02
VALL-E는 이 음성을 입력하는 등 스피커의 주변 소리도 유지할 수 있습니다.
env_speaker audio: 00:0000:03
그러면 "음 더 편리하다는 걸 아시는 것 같네요."라는 텍스트에 따라 주변 소리를 유지하면서 합성된 음성을 출력할 수 있습니다.
env_vall_e Audio: 00:0000:02
그리고 VALL-E는 화난 목소리를 입력하는 등 말하는 사람의 감정을 유지할 수도 있습니다.
anger_pt 오디오: 00:0000:03
"비닐봉지 개수를 줄여야 합니다."라는 문구에 따라 분노를 표현할 수도 있습니다.
anger_ours 오디오: 00:0000:02
프로젝트 웹사이트에 더 많은 예시가 있습니다.
방법론적으로 말하면, 연구원들은 기성 신경 오디오 코덱 모델에서 추출한 개별 인코딩으로 언어 모델 VALL-E를 훈련했으며 TTS를 연속 신호 회귀가 아닌 조건부 언어 모델링 작업으로 처리했습니다.
사전 훈련 단계에서 VALL-E가 수신한 TTS 훈련 데이터는 영어 음성 60,000시간에 도달했는데, 이는 기존 시스템에서 사용하는 데이터보다 수백 배 더 많은 수치입니다.
그리고 VALL-E는 상황 내 학습 능력도 보여줍니다. 보이지 않는 화자의 3초 등록 녹음을 사운드 프롬프트로 사용하여 고품질 맞춤형 음성을 합성하면 됩니다.
실험 결과에 따르면 VALL-E는 음성 자연성 및 화자 유사성 측면에서 최첨단 제로 샷 TTS 시스템보다 훨씬 우수하며 화자의 감정과 사운드 큐의 음향 환경을 보존할 수도 있습니다. 합성에서.
제로샷 음성 합성
지난 10년 동안 음성 합성은 신경망 개발과 엔드투엔드 모델링을 통해 엄청난 발전을 이루었습니다.
그러나 현재 계단식 텍스트 음성 변환(TTS) 시스템은 일반적으로 중간 표현으로 멜 스펙트로그램을 사용하는 음향 모델과 보코더가 있는 파이프라인을 활용합니다.
일부 고성능 TTS 시스템은 단일 또는 다중 스피커의 고품질 음성을 합성할 수 있지만 여전히 녹음 스튜디오의 고품질 깨끗한 데이터가 필요합니다. 인터넷에서 크롤링된 대규모 데이터는 데이터 요구 사항을 충족할 수 없습니다. 모델의 성능이 저하될 수 있습니다.
훈련 데이터의 양이 상대적으로 적기 때문에 현재 TTS 시스템은 여전히 일반화 능력이 떨어지는 문제를 안고 있습니다.
제로샷 작업 설정에서 훈련 데이터에 나타나지 않은 화자의 경우 음성의 유사성과 자연성이 급격히 떨어집니다.
제로샷 TTS 문제를 해결하기 위해 기존 작업에서는 일반적으로 추가적인 미세 조정, 복잡한 사전 설계 기능 또는 무거운 구조 엔지니어링이 필요한 스피커 적응 및 스피커 인코딩과 같은 방법을 활용합니다.
텍스트 합성 분야의 성공을 고려하면 이 문제에 대해 복잡하고 전문적인 네트워크를 설계하는 대신, 연구원들은 궁극적인 해결책은 최대한 다양한 데이터로 모델을 훈련시키는 것이라고 믿습니다.
VALL-E 모델
텍스트 합성 분야에서는 레이블이 지정되지 않은 인터넷의 대규모 데이터가 모델에 직접 입력됩니다. 훈련 데이터의 양이 증가함에 따라 모델 성능도 지속적으로 향상됩니다.
연구원들은 이 아이디어를 음성 합성 분야로 옮겼습니다. VALL-E 모델은 방대하고 다양한 다중 화자 음성 데이터를 활용하는 언어 모델을 기반으로 한 최초의 TTS 프레임워크입니다.
개인화된 음성을 합성하기 위해 VALL-E 모델은 3초 등록 녹음의 음향 토큰과 음소 프롬프트를 기반으로 해당 음향 토큰을 생성합니다. 이 정보는 화자와 내용 정보를 제한할 수 있습니다.
마지막으로 생성된 음향 토큰은 해당 신경 코덱으로 최종 파형을 합성하는 데 사용됩니다.
오디오 코덱 모델의 개별 음향 토큰을 사용하면 TTS를 조건부 코덱 언어 모델링으로 간주할 수 있으므로 일부 고급 힌트 기반 대형 모델 기술(예: GPT)을 TTS 작업에 사용할 수 있습니다.
음향 토큰은 추론 과정에서 다양한 샘플링 전략을 사용하여 TTS에서 다양한 합성 결과를 생성할 수도 있습니다.
연구원들은 LibriLight 데이터 세트를 사용하여 VALL-E를 훈련시켰습니다. 이 데이터 세트는 7,000명 이상의 고유한 화자가 사용하는 60,000시간의 영어 음성으로 구성되어 있습니다. 원시 데이터는 오디오 전용이므로 음성 인식 모델만 사용하여 대화 내용을 생성합니다.
LibriTTS와 같은 이전 TTS 훈련 데이터 세트와 비교하여, 논문에서 제공되는 새로운 데이터 세트는 더 시끄러운 음성과 부정확한 필사본을 포함하지만 다른 화자와 운율을 제공합니다.
연구원들은 기사에서 제안한 방법이 노이즈에 강하고 빅데이터를 활용하여 좋은 일반성을 달성할 수 있다고 믿습니다.
기존 TTS 시스템은 항상 수십 시간의 단일 언어 화자 데이터 또는 수백 시간의 다국어 화자 데이터를 훈련에 사용한다는 점에 주목할 가치가 있습니다. 이는 VALL-E보다 수백 배 이상 작습니다.
간단히 말하면, VALL-E는 오디오 인코딩 및 디코딩 코드를 중간 표현으로 사용하고 대량의 다양한 데이터를 사용하여 모델에 강력한 상황별 학습 기능을 제공하는 TTS를 위한 새로운 언어 모델 방법입니다.
추론: 프롬프트를 통한 상황 내 학습
상황 내 학습은 추가 매개변수 업데이트 없이 보이지 않는 입력의 레이블을 예측할 수 있는 텍스트 기반 언어 모델의 놀라운 능력입니다.
TTS의 경우 모델이 미세 조정 없이 보이지 않는 화자에 대한 고품질 음성을 합성할 수 있다면 해당 모델은 상황별 학습 능력을 갖춘 것으로 간주됩니다.
그러나 기존 TTS 시스템은 추가적인 미세 조정이 필요하거나 보이지 않는 화자에 대한 상당한 성능 저하를 겪기 때문에 강력한 상황 내 학습 기능을 갖추고 있지 않습니다.
언어 모델이 제로샷 상황에서 상황별 학습을 달성하려면 프롬프트가 필요합니다.
연구원이 설계한 단서와 추론은 다음과 같습니다.
먼저 텍스트를 음소 시퀀스로 변환하고 등록된 녹음을 음향 행렬로 인코딩하여 음소 단서와 음향 단서를 형성합니다. 둘 다 AR 및 NAR 모델에서 사용됩니다.
AR 모델의 경우 힌트에 따라 샘플링 기반 디코딩을 사용합니다. 빔 검색으로 인해 LM이 무한 루프에 들어갈 수 있기 때문입니다. 또한 샘플링 기반 방법은 출력의 다양성을 크게 높일 수 있습니다.
NAR 모델의 경우 탐욕스러운 디코딩을 사용하여 확률이 가장 높은 토큰을 선택합니다.
마지막으로 신경 코덱을 사용하여 8개의 인코딩 시퀀스에 따라 조정된 파형을 생성합니다.
음향 단서는 합성할 음성과 반드시 의미론적 관계를 가질 필요는 없으므로 두 가지 경우로 나눌 수 있습니다.
VALL-E: 주요 목표는 보이지 않는 화자에게 주어진 콘텐츠를 생성하는 것입니다.
이 모델의 입력은 텍스트 문장, 등록된 음성 및 해당 전사입니다. 등록된 음성의 전사된 음소를 주어진 문장의 음소 시퀀스에 음소 단서로 추가하고 등록된 음성의 첫 번째 수준 음향 토큰을 음향 접두사로 사용합니다. VALL-E는 음소 단서와 음향 접두어를 사용하여 주어진 텍스트에 대한 음향 토큰을 생성하여 화자의 음성을 복제합니다.
VALL-E-continual: 전체 기록과 발화의 처음 3초를 각각 음소 및 음향 단서로 사용하고 모델에 연속 콘텐츠를 생성하도록 요청합니다.
추론 과정은 등록된 음성과 생성된 음성이 의미상 연속적이라는 점을 제외하면 VALL-E 설정과 동일합니다.
실험 섹션
연구원들은 LibriSpeech 및 VCTK 데이터 세트에서 VALL-E를 평가했는데, 여기서 테스트된 모든 화자는 훈련 코퍼스에 나타나지 않았습니다.
VALL-E는 +0.12 비교 평균 옵션 점수(CMOS) 및 +0.93 LibriSpeech(SMOS) 유사성 평균 옵션 점수로 음성 자연성과 화자 유사성 측면에서 최첨단 제로샷 TTS 시스템보다 훨씬 뛰어난 성능을 발휘합니다. .
VALL-E는 또한 VCTK에서 +0.11 SMOS 및 +0.23 CMOS의 성능 향상으로 기본 시스템을 능가하고 심지어 지상 진실에 대해 +0.04 CMOS 점수에 도달하여 VCTK에서 보이지 않는 음성을 보여줍니다. 화자의 합성된 음성은 자연스럽습니다. 인간의 녹음으로.
또한 정성적 분석에 따르면 VALL-E는 2개의 동일한 텍스트와 대상 화자로 다양한 출력을 합성할 수 있으며 이는 음성 인식 작업을 위한 의사 데이터 생성에 도움이 될 수 있습니다.
VALL-E가 소리 환경(예: 잔향)과 소리가 유발하는 감정(예: 분노 등)을 유지할 수 있다는 것도 실험에서 확인할 수 있습니다.
보안 위험
강력한 기술이 오용되면 사회에 해를 끼칠 수 있습니다. 예를 들어 전화 사기의 기준이 다시 낮아졌습니다!
VALL-E의 장난과 속임수 가능성으로 인해 Microsoft는 테스트를 위해 VALL-E의 코드나 인터페이스를 열지 않았습니다.
일부 네티즌 공유: 시스템 관리자에게 전화하면 그들이 "안녕하세요"라고 말하는 몇 마디를 녹음한 다음 "안녕하세요, 저는 시스템 관리자입니다. 내 사운드는 고유 식별자이며 "저는 항상 이것이 불가능하다고 생각했습니다. 너무 적은 데이터로는 이 작업을 수행할 수 없습니다. 이제 제가 틀렸을지도 모르겠네요...
프로젝트의 마지막 윤리성명서에서 연구원은 "본 글의 실험은 모델 사용자가 타겟 화자이고 화자의 승인을 받은 상태에서 진행되었습니다. 그러나 모델을 보이지 않는 화자로 일반화하는 경우 해당 부분에는 화자가 수정을 수행하는 데 동의하는지 확인하는 프로토콜과 편집된 음성을 감지하는 시스템을 포함하여 음성 편집 모델이 수반되어야 합니다. 또한 논문에서는 VALL-E가 화자의 정체성을 유지하는 음성을 합성할 수 있기 때문에 음성 인식을 속이거나 특정 화자를 모방하는 등 모델을 오용할 가능성이 있는 위험이 있다고 명시하고 있습니다.
이 위험을 줄이기 위해 오디오 클립이 VALL-E에 의해 합성되었는지 구별하는 감지 모델을 구축할 수 있습니다. 이러한 모델을 더욱 발전시키면서 Microsoft AI 원칙도 실제로 적용할 것입니다.
https://www.php.cn/link/402cac3dacf2ef35050ca72743ae6ca7
위 내용은 당신의 목소리를 훔치는 데 걸리는 시간은 단 3초! 마이크로소프트, 음성 합성 모델 VALL-E 출시 : 네티즌들은 '전화 사기' 기준이 다시 낮아졌다고 감탄의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Bing은 Microsoft가 출시한 온라인 검색 엔진입니다. 검색 기능은 매우 강력하며 국내 버전과 해외 버전의 두 가지 입구가 있습니다. 이 두 버전의 입구는 어디에 있습니까? 국제 버전에 액세스하는 방법은 무엇입니까? 아래에서 자세한 내용을 살펴보겠습니다. Bing 중국어 버전 웹 사이트 입구: https://cn.bing.com/ Bing 국제 버전 웹 사이트 입구: https://global.bing.com/ Bing 국제 버전에 액세스하는 방법은 무엇입니까? 1. 먼저 Bing을 열려면 URL을 입력하세요: https://www.bing.com/ 2. 국내 버전과 해외 버전에 대한 옵션이 있는 것을 볼 수 있습니다. 국제 버전을 선택하고 키워드만 입력하면 됩니다.

WeChat Voice에서 소리가 들리지 않는 이유는 무엇입니까? WeChat은 일상 생활에 없어서는 안 될 커뮤니케이션 도구입니다. 많은 사용자가 사용 중에 문제를 경험했습니다. 예를 들어 WeChat 음성이 들리지 않나요? 그래서 뭐 할까? 이 사이트에서 사용자가 WeChat 음성에서 소리를 들을 수 없는 경우 어떻게 해야 하는지 자세히 소개할 수 있습니다. WeChat 음성이 들리지 않으면 어떻게 해야 하나요? 1. 휴대폰 시스템에서 설정한 소리가 상대적으로 낮거나 음소거 상태인 경우 볼륨을 높이거나 무음 모드를 끌 수 있습니다. 2. WeChat 스피커 기능이 켜져 있지 않을 수도 있습니다. "설정"을 열고 "채팅" 옵션을 선택하세요. 3. "채팅" 옵션을 클릭한 후

6월 3일자 뉴스에 따르면, 마이크로소프트는 모든 윈도우 10 사용자에게 적극적으로 전체 화면 알림을 보내 윈도우 11 운영체제로의 업그레이드를 독려하고 있다. 이 이동에는 하드웨어 구성이 새 시스템을 지원하지 않는 장치가 포함됩니다. 2015년부터 Windows 10은 거의 70%의 시장 점유율을 차지하며 Windows 운영 체제로서의 지배력을 확고히 자리 잡았습니다. 하지만 시장점유율은 82%를 훨씬 웃돌며, 2021년 출시 예정인 윈도우 11보다 시장점유율이 훨씬 높다. Windows 11이 출시된 지 거의 3년이 지났지만 시장 침투 속도는 여전히 느립니다. Microsoft는 Windows 10에 대한 기술 지원을 2025년 10월 14일 이후 종료한다고 발표했습니다.

8월 14일 이 사이트의 소식에 따르면 오늘 8월 패치 화요일 이벤트 당일 마이크로소프트는 22H2와 23H2용 KB5041585 업데이트, 21H2용 KB5041592 업데이트를 포함해 윈도우 11 시스템용 누적 업데이트를 출시했다. 위 장비가 8월 누적 업데이트로 설치된 후, 본 사이트에 첨부된 버전번호 변경 사항은 다음과 같습니다. 21H2 장비 설치 후, 장비 설치 후 버전번호가 Build22000.314722H2로 증가되었습니다. Windows 1121H2용 KB5041585 업데이트의 주요 내용은 다음과 같습니다.

4월 18일 뉴스: 최근 Canary 채널을 사용하는 Microsoft Edge 브라우저의 일부 사용자가 최신 버전으로 업그레이드한 후 비밀번호 자동 저장 옵션이 비활성화된 것을 발견했다고 보고했습니다. 조사 결과 이는 기능의 취소라기보다는 브라우저 업그레이드 이후의 소소한 조정인 것으로 밝혀졌습니다. Edge 브라우저를 사용하여 웹 사이트에 액세스하기 전에 사용자는 브라우저에서 웹 사이트의 로그인 비밀번호를 저장할 것인지 묻는 창을 표시한다고 보고했습니다. 저장을 선택하면 Edge는 다음 로그인 시 저장된 계정번호와 비밀번호를 자동으로 입력해 사용자에게 큰 편의성을 제공합니다. 그러나 최신 업데이트는 기본 설정을 변경하는 조정과 유사합니다. 사용자는 비밀번호를 저장하도록 선택한 다음 설정에서 저장된 계정 및 비밀번호 자동 채우기를 수동으로 켜야 합니다.

4월 27일 이 사이트의 소식에 따르면 마이크로소프트는 이달 초 카나리아 및 개발자 채널에 윈도우 11 빌드 26100 프리뷰 버전 업데이트를 출시했는데, 이는 윈도우 1124H2 업데이트의 후보 RTM 버전이 될 것으로 예상된다. 새 버전의 주요 변경 사항은 파일 탐색기, Copilot 통합, PNG 파일 메타데이터 편집, TAR 및 7z 압축 파일 생성 등입니다. @PhantomOfEarth는 Microsoft가 TAR 및 7z 압축 파일 생성과 같은 24H2 버전(게르마늄)의 일부 기능을 23H2/22H2(니켈) 버전으로 위임했다는 사실을 발견했습니다. 다이어그램에 표시된 것처럼 Windows 11은 TAR의 기본 생성을 지원합니다.

3월 21일 뉴스에 따르면 마이크로소프트는 최근 마이크로소프트 엣지 브라우저를 업데이트하고 실용적인 '이미지 확대' 기능을 추가했다. 이제 Edge 브라우저를 사용할 때 사용자는 이미지를 마우스 오른쪽 버튼으로 클릭하기만 하면 팝업 메뉴에서 이 새로운 기능을 쉽게 찾을 수 있습니다. 더욱 편리한 점은 사용자가 이미지 위에 커서를 놓은 다음 Ctrl 키를 두 번 클릭하여 이미지 확대 기능을 빠르게 호출할 수도 있다는 것입니다. 편집자의 이해에 따르면 최근 출시된 Microsoft Edge 브라우저는 Canary 채널의 새로운 기능에 대해 테스트되었습니다. 안정적인 버전의 브라우저에서는 실용적인 "이미지 확대" 기능도 공식적으로 출시되어 사용자에게 더욱 편리한 이미지 탐색 경험을 제공합니다. 해외 과학기술 언론도 이에 주목했다.

2024년 하반기, 마이크로소프트 공식 보안 블로그는 보안 커뮤니티의 요청에 대한 응답으로 메시지를 게시했습니다. 회사는 보안 강화를 위해 2024년 하반기 출시되는 윈도우 11에서 NTLM(NTLAN Manager) 인증 프로토콜을 삭제할 계획이다. 이전 설명에 따르면 Microsoft는 이전에도 비슷한 조치를 취한 적이 있습니다. 작년 10월 12일 Microsoft는 공식 보도 자료를 통해 NTLM 인증 방법을 단계적으로 폐지하고 더 많은 기업과 사용자가 Kerberos로 전환하도록 유도하는 전환 계획을 제안했습니다. NTLM 인증을 끈 후 유선 응용 프로그램 및 서비스에 문제가 발생할 수 있는 기업을 돕기 위해 Microsoft는 IAKerb 및
