Meta, 단 2초 만에 실제 사람의 음성을 시뮬레이션하는 오디오 AI 모델 출시
최근 Meta는 오디오 시뮬레이션에 상당한 이점을 제공하는 Voicebox AI 모델을 출시했습니다.
Voicebox는 오디오 세부 사항과 음색을 정확하게 식별하고 텍스트 결과를 기반으로 음성 출력으로 변환하기 위해 2초의 오디오 샘플만 필요하다고 보고되었습니다.
Voicebox는 오디오 편집, 샘플링 및 스타일링을 돕는 생성적 AI 모델입니다.
이 기술은 제작자가 나중에 오디오 트랙을 쉽게 편집하는 데 도움이 되는 동시에 성대가 손상된 사람들에게 도움을 제공하고 다시 "소리"를 내는 데 도움이 될 수 있습니다. 시각 장애가 있는 사람들은 친구가 쓴 메시지를 소리로 들을 수 있고, 어떤 외국어라도 자신의 목소리로 말할 수 있습니다.
동시에 음성 클립의 이전 및 다음 콘텐츠를 기반으로 누락된 콘텐츠를 자동으로 채울 수도 있습니다.
Meta에 따르면 Voicebox는 미래의 메타버스에서 AI 비서나 NPC에게 자연스럽고 사실적인 음성 효과를 제공하여 사용자의 몰입감을 크게 향상시킬 수 있다고 합니다.
Voicebox의 다용성은 다음을 포함한 다양한 작업을 지원합니다.
상황에 맞는 텍스트 음성 변환 합성: Voicebox는 2초 정도의 짧은 오디오 샘플을 사용하여 오디오 스타일을 일치시키고 이를 텍스트 음성 변환 생성에 사용할 수 있습니다.
음성 편집 및 소음 감소: Voicebox는 전체 음성을 다시 녹음할 필요 없이 소음으로 인해 중단된 음성 부분을 다시 생성하거나 잘못 말한 단어를 대체할 수 있습니다. 예를 들어 개가 짖는 소리 때문에 중단된 음성 세그먼트를 식별하고 잘라낸 다음 오디오 편집을 위한 지우개처럼 Voicebox에 세그먼트를 재생성하도록 지시할 수 있습니다.
교차 언어 변환: 누군가의 음성 샘플과 영어, 프랑스어, 독일어, 스페인어, 폴란드어 또는 포르투갈어로 된 텍스트가 주어지면 Voicebox는 샘플 음성과 텍스트가 다른 경우에도 이러한 언어 중 하나로 텍스트 읽기를 생성할 수 있습니다. 언어. 앞으로 사람들은 이 기능을 사용하여 언어를 이해하지 못하더라도 보다 자연스럽고 진정성 있는 방식으로 의사소통을 할 수 있게 될 것입니다.
Flow Matching은 Voicebox에서 사용하는 방법으로 확산 모델의 성능을 향상시키는 것으로 나타났습니다. Voicebox는 명료도(5.9% 대 1.9% 단어 오류율)와 오디오 유사성(0.580 대 0.681)에서 현재 최첨단 영어 모델인 VALL-E보다 성능이 뛰어나며 속도는 20배 더 빠릅니다. 언어 간 스타일 전송의 경우 Voicebox는 YourTTS보다 성능이 뛰어나 평균 단어 오류율을 10.9%에서 5.2%로 줄이고 오디오 유사성을 0.335에서 0.481로 향상시킵니다.
Voicebox는 단어 오류율에서 Vall-E 및 YourTTS를 능가하는 새로운 최첨단 결과를 달성합니다.
Voicebox는 또한 영어 및 다국어 벤치마크에서 각각 오디오 스타일 유사성 지표에 대한 최첨단 결과를 달성합니다.
메타는 현재 위조 분야에서 Voicebox를 사용할 경우 발생할 수 있는 잠재적인 피해를 인지하고 실제 음성과 Voicebox에서 생성된 음성을 구별할 수 있는 방법을 찾고 있다는 점을 언급할 가치가 있습니다.
메타는 해결책이 나올 때까지 불필요한 피해를 피하기 위해 보이스박스 AI 모델을 대중에게 공개하지 않을 것입니다.
편집자 코멘트: AI는 이제 다양한 분야에 적용되어 작업 일반화를 성공적으로 수행하는 최초의 다기능 및 효율적인 모델로서 Voicebox가 음성 생성 AI의 새로운 시대를 열 수 있다고 믿습니다. Meta가 오디오 사기에 효과적으로 대처할 수 없는 경우 Voicebox 기술이 비활성화될 수 있습니다.
위 내용은 Meta, 단 2초 만에 실제 사람의 음성을 시뮬레이션하는 오디오 AI 모델 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











메타커넥트 2024 행사는 9월 25일부터 26일까지 진행되며, 이번 행사에서 회사는 새로운 저가형 가상현실 헤드셋을 선보일 것으로 예상된다. Meta Quest 3S라는 소문이 있는 이 VR 헤드셋은 FCC 목록에 등장한 것으로 보입니다. 이 제안

GPU를 준비하세요! Llama3.1이 드디어 등장했지만, 출처는 Meta 공식이 아닙니다. 오늘 레딧에서는 라마의 대형 모델 새 버전 유출 소식이 입소문을 냈습니다. 기본 모델 외에도 벤치마크 결과인 8B, 70B, 최대 매개변수인 405B도 포함되어 있습니다. 아래 그림은 Llama3.1의 각 버전과 OpenAIGPT-4o, Llama38B/70B의 비교 결과를 보여줍니다. 여러 벤치마크에서 70B 버전조차 GPT-4o를 능가하는 것을 볼 수 있습니다. 이미지 출처: https://x.com/mattshumer_/status/1815444612414087294 분명히 8B 및 70 버전 3.1입니다.

META는 일반적으로 Metaverse라는 가상 세계 또는 플랫폼을 나타냅니다. 메타버스는 현실 세계를 반영하거나 초월하고, 현실 세계와 상호작용할 수 있는 디지털 기술을 이용해 인간이 구축한 가상 세계로, 새로운 사회 시스템을 갖춘 디지털 생활 공간이다.

24일 뉴스에 따르면 소셜미디어 업계에서 막강한 영향력을 갖고 있는 기술기업 메타가 차세대 컴퓨팅 플랫폼으로 꼽히는 기술인 증강현실(AR) 글래스에 큰 기대를 걸고 있다. 최근 메타의 기술 이사인 Andrew Bosworth는 인터뷰에서 회사가 2024년에 코드명 "Orion"이라는 고급 AR 안경 프로토타입을 출시할 것으로 예상된다고 밝혔습니다. 메타는 오랫동안 AR 기술에 다른 분야 못지않게 투자해 왔으며, 아이폰에 버금가는 획기적인 제품을 만들기 위해 수십억 달러에 달하는 막대한 투자를 해왔습니다. 지난해 오리온 안경 양산 계획 종료를 발표했지만,

어제 밤 Meta는 Llama38B 및 70B 모델을 출시했습니다. Llama3 명령 조정 모델은 대화/채팅 사용 사례에 맞게 미세 조정 및 최적화되었으며 일반 벤치마크에서 기존의 많은 오픈 소스 채팅 모델보다 성능이 뛰어납니다. 예를 들어 Gemma7B 및 Mistral7B입니다. Llama+3 모델은 데이터와 규모를 개선하고 새로운 차원에 도달했습니다. 최근 Meta에서 출시한 2개의 맞춤형 24K GPU 클러스터에서 15T 이상의 데이터 토큰에 대해 교육을 받았습니다. 이 교육 데이터 세트는 Llama2보다 7배 더 크고 4배 더 많은 코드를 포함합니다. 이를 통해 Llama 모델의 기능을 현재 최고 수준으로 끌어올려 Llama2의 두 배인 8K 이상의 텍스트 길이를 지원합니다. 아래에

이제 오랫동안 기다려온 Llama 3.1이 공식 출시되었습니다! 메타는 “오픈소스가 새로운 시대를 선도한다”는 목소리를 공식적으로 내놨다. 메타는 공식 블로그를 통해 “지금까지 오픈소스 대형 언어 모델은 기능이나 성능 면에서 대부분 폐쇄형 모델에 뒤처져 있었다. 이제 오픈소스가 이끄는 새로운 시대를 열고 있다”며 “MetaLlama3.1405B를 공개 출시했다”고 밝혔다. , 우리는 그것이 세계에서 가장 크고 가장 강력한 오픈 소스 기본 모델이라고 믿습니다. 현재까지 모든 Llama 버전의 총 다운로드는 3억 회를 초과했으며 Meta 창립자이자 CEO인 Zuckerberg도 이제 막 시작했습니다. 기사. 긴 기사 "OpenSourceAIisthePathForward",

라마3가 왔습니다! 방금 Meta의 공식 웹사이트가 업데이트되어 공식적으로 Llama의 380억 및 700억 매개변수 버전이 발표되었습니다. 그리고 출시 이후에는 오픈 소스 SOTA입니다. Meta 공식 데이터에 따르면 Llama38B 및 70B 버전은 각각의 매개변수 규모에서 모든 상대를 능가합니다. 8B 모델은 MMLU, GPQA 및 HumanEval과 같은 많은 벤치마크에서 Gemma7B 및 Mistral7BInstruct보다 성능이 뛰어납니다. 70B 모델은 인기 비공개 소스 프라이드치킨 Claude3Sonnet을 능가하고 Google의 GeminiPro1.5와 함께 왔다 갔다 했습니다. Huggingface 링크가 나오자마자 오픈소스 커뮤니티는 다시 열광했습니다. 눈이 예리한 시각장애인 학생들도 즉시 발견했습니다.

Meta의 Quest 3 최초 출시(Amazon에서 현재 $499.99)로부터 1년 이상이 지났습니다. 그 이후로 Apple은 훨씬 더 비싼 Vision Pro를 출시했으며 Byte Dance는 이제 중국에서 Pico 4 Ultra를 공개했습니다. 그러나
