인공지능은 가상 세계의 중추가 될 것입니다.
인공지능은 컴퓨터 비전, 자연어 처리, 블록체인, 디지털 트윈 등 메타버스의 다양한 관련 기술과 결합될 수 있습니다.
2월에 Zuckerberg는 회사의 첫 번째 가상 이벤트인 Inside The Lab에서 Metaverse가 어떤 모습일지 선보였습니다. 그는 회사가 사용자가 설명만으로 자신만의 가상 현실 아바타를 생성할 수 있는 새로운 생성 AI 모델 시리즈를 개발 중이라고 말했습니다.
Zuckerberg는 사용자가 음성 비서와 보다 자연스럽게 소통할 수 있도록 장치에 음성 비서를 구축하기 위한 완전한 엔드투엔드 신경 모델인 Project CAIRaoke와 같은 일련의 향후 프로젝트를 발표했습니다. 한편 Meta는 모든 언어에 대해 직접적인 음성 대 음성 번역을 제공하는 범용 음성 번역기를 구축하기 위해 열심히 노력하고 있습니다.
몇 달 후 Meta는 약속을 지켰습니다. 그러나 Meta가 게임에 스킨을 적용한 유일한 기술 회사는 아닙니다. Nvidia와 같은 회사들도 더욱 풍부한 Metaverse 경험을 제공하기 위해 자체 개발한 AI 모델을 출시했습니다.
오픈 소스 사전 훈련된 Transformer(OPT-1750억 매개변수)
GANverse 3D는 NVIDIA AI Research에서 딥 러닝을 사용하여 2D 이미지를 3D 애니메이션 버전으로 처리하는 모델입니다. 작년 ICLR 및 CVPR에 발표된 연구 논문에 설명된 이 도구는 보다 빠르고 저렴한 비용으로 시뮬레이션을 생성할 수 있습니다.
이 모델은 StyleGAN을 사용하여 단일 이미지에서 여러 뷰를 자동으로 생성합니다. 가상 세계에서 3D 객체를 정확하게 렌더링하기 위해 애플리케이션을 NVIDIA Omniverse의 확장으로 가져올 수 있습니다. NVIDIA가 출시한 Omniverse는 사용자가 가상 환경에서 최종 아이디어의 시뮬레이션을 만들 수 있도록 도와줍니다.
3D 모델 제작은 메타버스를 구축하는 핵심 요소가 되었습니다. Nike 및 Forever21과 같은 소매업체는 전자상거래 판매를 촉진하기 위해 Metaverse에 가상 매장을 설정했습니다.
Meta의 Reality Lab 팀은 텍사스 대학과 협력하여 메타공간의 음질을 향상시키는 인공 지능 모델을 구축했습니다. 이 모델은 장면의 오디오와 비디오를 일치시키는 데 도움이 됩니다. 오디오 클립을 변환하여 특정 환경에서 녹음된 것처럼 들리게 만듭니다. 이 모델은 무작위 온라인 동영상에서 데이터를 추출한 후 자기 지도 학습을 사용합니다. 이상적으로는 사용자가 AR 안경으로 좋아하는 추억을 보고 실제 경험에서 생성되는 정확한 소리를 들을 수 있어야 합니다.
Meta AI는 AViTAR를 다른 두 가지 음향 모델과 함께 오픈 소스로 출시했습니다. 이는 사운드가 메타버스 경험에서 종종 간과되는 부분이라는 점을 고려하면 매우 드뭅니다.
Meta AI에서 출시한 두 번째 음향 모델은 음향의 반향을 제거하는 데 사용됩니다.
이 모델은 주택의 3D 모델에서 얻은 다양한 사실적인 오디오 렌더링이 포함된 대규모 데이터세트로 훈련되었습니다. Reverb는 오디오의 품질을 저하시켜 이해하기 어렵게 만들 뿐만 아니라 자동 음성 인식의 정확도를 향상시킵니다.
VIDA는 관찰을 위해 오디오와 시각적 단서를 사용한다는 점에서 독특합니다. 일반적인 오디오 전용 방법을 개선한 VIDA는 음성을 향상하고 음성과 화자를 식별합니다.
Meta AI가 출시한 세 번째 음향 모델인 VisualVoice는 동영상에서 음성을 추출할 수 있습니다. VIDA와 마찬가지로 VisualVoice는 레이블이 지정되지 않은 비디오의 시청각 단서에 대해 교육을 받았습니다. 모델은 자동으로 음성을 분리했습니다.
이 모델에는 청각 장애인을 위한 기술 제작, 웨어러블 AR 장치의 사운드 향상, 시끄러운 환경에서 온라인 비디오의 음성 녹음 등 중요한 응용 시나리오가 있습니다.
작년에 NVIDIA는 모든 음성 해설에 어울리는 AI 기반 얼굴 애니메이션을 생성하는 Omniverse Audio2Face의 오픈 베타를 출시했습니다. 이 도구는 게임 및 시각 효과에 애니메이션을 적용하는 길고 지루한 프로세스를 단순화합니다. 또한 이 앱을 사용하면 사용자는 여러 언어로 명령을 내릴 수 있습니다.
올해 초 Nvidia는 사용자가 중립 아바타에서 블렌드헤이프 세트를 만들 수 있도록 BlendShape 생성과 같은 기능을 추가하는 도구 업데이트를 출시했습니다. 또한 스트리밍 오디오 플레이어 기능이 추가되어 텍스트 음성 변환 애플리케이션을 사용하여 오디오 데이터를 스트리밍할 수 있습니다. Audio2Face는 오디오 트랙으로 애니메이션을 적용할 수 있는 3D 캐릭터 모델을 설정합니다. 그런 다음 오디오는 심층 신경망에 공급됩니다. 사용자는 후처리에서 캐릭터를 편집하여 성능을 변경할 수도 있습니다.
위 내용은 Xiaozha는 많은 돈을 썼습니다! Meta는 Metaverse를 위해 특별히 AI 모델을 개발했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!