1월 10일 뉴스 마이크로소프트는 최근 오디오 단 3초만에 사람의 말을 모방할 수 있는 인공지능 도구 VALL-E를 출시했습니다.
이 도구는 60,000시간의 영어 음성 데이터로 훈련되었으며 특정 음성의 3초 클립을 사용하여 콘텐츠를 생성합니다. 현재의 많은 AI 도구와 달리 VALL-E는 화자가 직접 말한 적이 없는 단어라도 화자의 분위기와 어조를 복제할 수 있습니다.
IT House는 코넬 대학의 논문에서 VALL-E를 사용하여 여러 사운드를 합성했다는 사실을 알게 되었습니다. 이러한 AI 합성 오디오는 GitHub에서 들을 수 있습니다.
연구원들은 많은 경우 Vall-E가 현재의 텍스트 음성 변환 모델보다 성능이 뛰어나다는 점에 주목합니다. 그러나 이 연구에서는 AI 모델이 현재 몇 가지 문제를 안고 있다고 적고 있습니다. 예를 들어, 텍스트 프롬프트의 일부 단어는 불분명하게 발음되거나, 완전히 누락되거나, 출력에 두 번 나타날 수 있습니다. 또한 이 모델은 현재 특정 목소리, 특히 악센트가 있는 목소리를 모방하는 데 어려움을 겪고 있습니다.
다른 새로운 AI 기술과 마찬가지로 VALL-E도 안전, 윤리 등의 측면에서 우려를 제기했습니다. Microsoft는 VALL-E 사용에 대한 윤리 성명을 발표했지만 향후 사용에 대해서는 불분명했습니다.
현재 Microsoft Vall-E는 아직 오픈 소스가 아닙니다. Microsoft는 GitHub에 Vall-E 리포지토리를 만들었지만 현재는 설명 파일만 포함하고 있습니다.
위 내용은 마이크로소프트, 단 3초의 오디오로 사람의 말을 모방할 수 있는 AI 음성 생성 도구 VALL-E 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!