화상 회의 시스템은 50여년 전에 처음 상용화되었으며, 이를 통해 사람들은 수천 마일 떨어진 곳에 있는 동료, 친구 또는 가족과 시청각 통신을 할 수 있습니다. 화상회의의 궁극적인 목표는 원격 참여자들이 모두 같은 장소에 있는 것처럼 몰입형 커뮤니케이션을 가능하게 하는 것입니다
기존 3D 화상 회의 시스템은 눈맞춤 및 기타 비언어적 신호를 포착할 수 있는 잠재력을 보여주지만 값비싼 3D 획득 장비가 필요합니다
"AI-Mediated 3D Video Conferencing"이라는 프로젝트에서 NVIDIA, 캘리포니아 대학교 샌디에고 캠퍼스, 노스캐롤라이나 대학교 채플힐 캠퍼스 팀은 다음을 사용하여 고품질, 저가형 3D 화상 회의 시스템을 개발하는 데 성공했습니다. AI 인공지능 기술, 텔레프레즌스 방식으로 3D 스캐닝 기반으로는 구현할 수 없는 새로운 기능 제공
또한 팀의 솔루션은 입체 디스플레이 및 라이트 필드 디스플레이를 포함한 다양한 기존 3D 디스플레이와 호환됩니다
확장 읽기: AI를 사용하여 크기를 줄이는 Google은 프로젝트 Starline 호출 프로젝트의 새로운 반복을 시연합니다.
Google이 프로젝트 Starline 호출 프로젝트를 개선하기 위해 인공 지능을 사용하고 있다는 점은 주목할 가치가 있습니다. 간단히 말해서, 프로젝트 스타라인(Project Starline)은 라이트 필드 기술을 사용하여 마치 상대방이 실제로 맞은편에 앉아 있는 듯한 느낌을 주는 3D 영상 채팅방입니다. 이 혁신적인 원격 통신 도구는 Google의 하드웨어와 소프트웨어 발전을 결합하여 친구, 가족, 동료가 원격으로 통신할 때 더욱 몰입감을 느낄 수 있게 해줍니다
NVIDIA 팀이 "AI 중재 3D 화상 회의" 프로젝트로 돌아와 SIGGRAPH에서 설정을 시연하고 이에 대해 글을 썼습니다
도시된 시스템에는 단일 RGB 웹캠에서 2D 비디오를 녹화하고 전송하기 위한 송신기와 2D 비디오를 수신하여 3D로 변환하고 새로운 3D 보기를 제공하기 위한 수신기가 포함되어 있습니다.
일회성 접근 방식을 사용하여 연구원은 포즈가 없는 단일 이미지에서 사실적인 3D 표현을 실시간으로 추론 및 렌더링하고 NVIDIA RTX A5000 노트북에서 라이트 필드 이미지를 생성할 수 있습니다. 인스턴트 AI 초고해상도 기술을 사용해 참가자는 자신의 3D 셀프 이미지를 즉시 확인할 수 있습니다. 참가자들은 머리 추적을 통해 2D 웹캠 이미지가 입체적인 3D 보기로 바뀌는 모습을 실시간으로 볼 수 있습니다사용자는 2D 아바타 생성기 모듈을 사용하여 웹캠 사진을 사용하는 것 외에도 사용자 중심의 2D 아바타를 생성하고 사용자 정의할 수 있는 옵션이 있습니다
연구원들은 2D 입력을 효율적인 3면 암시적 3D 표현으로 변환하기 위한 Vision Transformer 기반의 새로운 인코더를 제안하여 3D 부스팅에서 중요한 진전을 이루었습니다. 사용자의 단일 RGB 이미지가 주어지면 이 방법은 사용자의 정면 3D 표현을 자동으로 생성하고 체적 3D 렌더링을 통해 새로운 관점에서 이를 효율적으로 렌더링할 수 있습니다
이 문장을 다시 쓰면 다음과 같습니다. 삼면 인코더는 훈련을 위해 사전 훈련된 EG3D에서 생성된 합성 데이터에 전적으로 의존하는 반면, 3D 리프팅 모듈은 생성된 사전을 사용하여 생성된 뷰가 다중 뷰에서 일관되고 사실적인 측면인지 확인합니다. 개인별 별도 교육 없이 누구나 한방에 적용 가능
팀은 최첨단 신경 방법을 사용하여 그림과 같이 특정 사용자 사진의 방향이 바뀐 시선을 합성하고 시선 보정을 통해 2D 이미지를 3D 이미지로 업그레이드하여 눈맞춤을 구현했습니다.
이 시스템은 1인용 입체 디스플레이 및 다인용 라이트 필드 디스플레이를 포함한 다양한 기성 3D 디스플레이를 지원합니다
이 사진은 디멘코의 32인치 3D 입체 모니터를 사용하는 모습입니다. 시선 추적 및 렌즈 기술을 사용하여 사용자 눈의 위치를 정확하게 표시하는 입체 이미지를 렌더링합니다. A는 개요를 제공하고 b와 c는 올바른 관점에서 참가자의 입체 이미지를 기록하는 시스템 기능을 보여줍니다. 한편, d와 e는 단일 RGB 이미지가 주어지면 이 방법이 사실적인 텔레프레즌스 효과를 생성할 수 있음을 보여줍니다
또한 연구원들은 32인치 Looking Glass 모니터를 사용하여 AI 시스템을 평가했습니다. 디스플레이는 실물 크기의 토킹 헤드를 동시에 표시할 수 있어 여러 사람이 명확하게 볼 수 있습니다. 이 라이트 필드 디스플레이는 일반 청중과 데모를 기다리는 사람들 모두에게 기술을 명확하게 보여줍니다
다음으로 줄을 서서 기다리는 사람들은 다양한 부스에서 입체 디스플레이를 체험해 볼 수 있고, 다채널 인공지능이 안내하는 3D 화상회의 통화도 경험할 수 있다
확장 독서: AI가 중재하는 3D 화상 회의
확장 읽기: 라이브 3D 인물 사진: 단일 이미지 인물 사진 뷰 합성을 위한 실시간 방사 필드
특히 팀은 NVIDIA TensorRT를 사용하여 인코더를 최적화하여 NVIDIA A6000 Ada Generation GPU에서 실시간 추론을 가능하게 했습니다. 캡처, 스트리밍, 렌더링을 포함하여 전체 시스템이 100ms 이내에 실행됩니다
위 내용은 엔비디아, 원격 회의 통화용 AI 3D 화상 채팅 솔루션 개발의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!