Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요?

현재 과학기술의 물결 속에서 메타버스(Metaverse)라는 개념은 무한한 상상력과 가능성으로 눈부신 신예처럼 전 세계의 주목을 받고 있습니다. 엄청난 개발 잠재력으로 인해 수많은 기업이 차례로 메타버스에 도전하게 되었습니다.

이들 중에서 Apple이 가장 기대가 큰 회사입니다. Apple은 7년간의 준비 끝에 지난 6월 6일, 마침내 WWDC 2023에서 헤드 마운트 디스플레이 장치인 Vision Pro를 공식 공개했습니다.

어떤 의미에서, XR 기기 분야에서 Apple이 어디까지 갈 수 있는지는 현재 기술의 한계가 어디까지 갈 수 있는지를 나타냅니다. 그러나 현재 상황으로 볼 때 Apple 제품은 여러 측면에서 좋은 성능을 발휘하지만 여전히 사람들의 기대에는 미치지 못합니다. 많은 디자인과 지표에서 우리는 현재의 기술적 병목 현상과 Apple이 취해야 할 몇 가지 절충안을 볼 수 있습니다. 더 중요한 것은 Vision Pro의 최종 가격이 미화 3,499달러(약 24,860위안)에 달한다는 점입니다. 이 가격은 이 제품이 틈새 '장난감'임에 틀림없으며 일반 사람들의 집에 들어갈 수 없다는 것을 의미합니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? 애플 주가

그렇다면 이상적인 메타버스 세계는 얼마나 멀리 떨어져 있으며, 아직 해결해야 할 기술적 문제와 과제는 무엇인가요? 이 질문에 답하기 위해 Dataman은 Cocos CEO Lin Shun, DataMesh 창립자 겸 CEO Li Jie, Youli Technology CEO Zhang Xuebing, Yuntian Bestseller CTO Liang Feng, AsiaInfo Technology R&D 센터 차장 Chen Guo, Mo Universe 최고 제품 책임자 Lin Yu를 인터뷰했습니다. 그리고 많은 업계 전문가들은 메타버스의 다양한 핵심 기술의 개발 동향을 이해하고 있습니다. 다음으로, Apple의 최신 XR 헤드 디스플레이 제품을 결합하여 니어 아이 디스플레이, 컴퓨팅 렌더링 + 5G 프라이빗 네트워크, 지각 상호 작용 및 콘텐츠 제작이라는 네 가지 핵심 기술 영역에서 최신 개발 동향과 기존 과제를 심층적으로 살펴보겠습니다.

근안 디스플레이: 디스플레이 패널의 기술 경로는 명확하며 광 도파관은 아직 "문"에 닿지 않았습니다

Near-eye 디스플레이는 메타버스 세계로의 첫 문입니다. Apple이 이번에 출시한 제품으로 보면 Vision Pro에는 12개의 카메라와 각 눈에 2,300만 픽셀이 할당된 Micro OLED 화면이 탑재되어 있습니다. 4K TV를 뛰어넘어 100인치 화면 시청이 가능하고 3D 영상 시청도 지원하는 것은 현재로서는 최고 수준이라고 평가된다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? Apple Vision Pro 제품 사진

그렇다면 니어 아이 디스플레이 전체의 핵심 기술은 무엇이고, 현재 업계의 발전은 어떤가요? Metaverse의 실현에서 Near-Eye 디스플레이 기술은 하드웨어 혁신의 핵심입니다. 이는 주로 디스플레이 패널과 광학 시스템(특히 광 도파관)의 두 부분으로 구성됩니다. 이 두 가지 기술 경로에는 여전히 극복해야 할 기술적 어려움이 많이 있습니다.

1. 디스플레이 패널은 해상도, 채도 및 새로 고침 빈도를 결정합니다.

디스플레이 패널은 근거리 디스플레이 기술의 중요한 부분으로 메타버스에서 사용자의 시각적 경험에 직접적인 영향을 미칩니다. 디스플레이 패널의 주요 기술 지표에는 해상도, 채도, 화면 주사율이 포함됩니다. 이러한 지표의 개선으로 사용자는 더욱 선명하고 풍부하며 부드러운 시각적 경험을 누릴 수 있습니다.

해상도는 디스플레이 패널의 핵심 지표 중 하나이며, 메타버스의 세부 정보를 표시하는 능력을 직접적으로 결정합니다. 현 단계에서 패널 해상도 향상은 기술적인 병목 현상에 직면해 있습니다. 패널 크기와 전력 소비를 보장하면서 해상도를 높이는 방법은 디스플레이 패널 기술에서 해결해야 할 중요한 문제입니다.

색채도는 메타버스의 색상 표시 능력에 영향을 미치는 또 다른 중요한 지표입니다. 현재 다양한 디스플레이 기술이 색 표현에 있어서 좋은 결과를 얻었지만, 메타버스에서 실제 색을 구현하려면 아직 일정한 거리가 있습니다.

새로 고침 빈도는 사용자의 동적 시각적 경험에 영향을 미칩니다. 높은 새로 고침 빈도는 더 부드러운 애니메이션 효과를 제공할 수 있습니다. 그러나 새로 고침 빈도를 높이면 컴퓨팅 및 전력 소비에 대한 부담이 커집니다. 새로 고침 빈도를 높이면서 전력 소비를 줄이는 방법은 또 다른 주요 기술 과제입니다.

디스플레이 패널 분야에서는 현재 주요 기술로는 액정표시장치(LCD), 유기발광다이오드(OLED), 마이크로 LED(Micro-LED) 등이 있다. LCD 기술은 상대적으로 성숙하고 가격이 저렴하지만 채도, 명암비, 재생률 측면에서 다른 기술에 비해 부족한 반면, OLED 디스플레이는 수명과 비용 문제를 해결해야 합니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? 디스플레이 패널 개발 과정

최근 몇 년간 MicroLED 디스플레이 기술은 뛰어난 성능으로 업계로부터 폭넓은 주목을 받아왔습니다. 미크론 수준의 LED를 픽셀로 사용하여 더 높은 해상도, 더 넓은 색 영역 및 더 높은 새로 고침 빈도를 제공할 뿐만 아니라 전력 소비가 적고 수명이 더 깁니다. 그러나 MicroLED 패널의 제조는 특히 픽셀 크기가 작고 픽셀 밀도가 높을 때 제조가 어렵고 비용이 많이 듭니다. 어떻게 대규모, 고효율 생산을 달성할 수 있는지는 여전히 해결해야 할 핵심 기술 문제입니다. 이번에 Vision Pro에는 Micro OLED 화면이 탑재되어 있지만 25,000에 가까운 가격에 이 Micro OLED 화면이 많은 '기여'를 했다고 생각합니다.

2. 광 도파관 기술은 디스플레이 패널에 비해 성숙도가 낮으며, 기술 경로와 획기적인 시기가 불확실합니다.

광학 시스템, 특히 광 도파관은 근안 디스플레이 기술에도 마찬가지로 중요합니다. 광도파로 기술의 핵심은 빛을 사용자의 망막으로 유도하여 사용자의 시야에 가상의 이미지를 생성하는 것입니다. 시야는 광 도파관의 품질을 측정하는 중요한 지표이며, 이는 메타버스에서 사용자의 시야 범위에 영향을 미칩니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요?

증강 현실(AR) 및 가상 현실(VR) 장치에서는 디스플레이 패널과 광 도파관이 긴밀하게 통합되는 경우가 많습니다. 디스플레이 패널은 이미지를 생성한 다음 광 도파관으로 공급됩니다. 광 도파관의 임무는 이러한 이미지를 사용자의 눈으로 안내하여 시야를 넓히거나 이미지의 초점을 조정하는 등 시각적 경험을 향상시키는 조정을 하는 것입니다. 이 과정은 영화관처럼 간단하게 상상할 수 있습니다. 디스플레이 패널은 이미지를 생성하는 프로젝터와 같고, 광 도파관은 프로젝터에서 생성된 이미지를 수신하여 청중에게 제공하는 프로젝션 스크린과 같습니다. 이 경우 청중은 사용자의 눈입니다).

광 도파관 기술은 회절 광 도파관, 굴절 광 도파관 및 홀로그램 광 도파관을 포함하여 여러 가지 유형으로 나눌 수 있습니다. 그 중 회절 광 도파관은 현재 가장 일반적으로 사용되는 것입니다. 들어오는 빛을 마이크로 격자를 통해 여러 각도로 분산시킨 다음 전반사를 사용하여 이러한 광선을 사용자의 망막으로 안내합니다. 이 기술은 더 넓은 시야와 더 높은 화질을 제공할 수 있지만 광효율, 분산, 복잡한 제조 공정 등의 문제가 있다.

광 효율 측면에서 회절형 광 도파관의 문제점은 빛의 일부만 효과적으로 활용할 수 있고 대부분의 빛이 산란되어 에너지가 낭비된다는 것입니다. 분산 측면에서는 빛의 회절 각도로 인해 서로 다른 색상의 빛이 격자를 통과한 후 분산을 생성하여 이미징의 색상 정확도에 영향을 미칩니다. 이것은 Metaverse와 같이 높은 수준의 사실성을 추구하는 응용 프로그램에는 의심할 여지 없이 큰 문제입니다.

또한 제조 공정의 복잡성은 극도로 높은 정밀도 요구 사항에 반영됩니다. 회절 광 도파관용 마이크로 격자는 나노미터 수준까지 정확해야 하며, 이는 생산 과정에서 기술적 어려움과 비용 압박이 매우 높습니다. 이러한 문제를 극복하기 위해 연구자들은 굴절형 광도파로, 홀로그래픽 광도파로 등 새로운 광도파로 기술을 추구하고 있다. 이러한 기술은 빛을 다양한 방식으로 유도하여 회절 광 도파관의 문제를 극복하는 새로운 솔루션을 제공할 가능성이 있습니다. 예를 들어, 홀로그램 광 도파관은 홀로그램 이미지를 사용하여 빛의 파면을 기록하고 재현하므로 분산을 줄이고 광 효율을 향상시키는 이점을 제공할 수 있습니다.

그러나 새로운 광 도파관 기술에도 나름의 과제가 있습니다. 예를 들어, 굴절 광 도파관은 회절 광 도파관보다 광학 효율이 우수하지만 일반적으로 시야가 더 작은 반면, 홀로그램 광 도파관은 대규모 고품질 홀로그램 이미지 제조를 달성하는 방법에 대한 문제에 직면합니다.

일반적으로 디스플레이 패널 기술에는 여전히 개선의 여지가 있지만 기술 로드맵은 비교적 확실하며 향후 몇 년 내에 추가 개선이 예상됩니다. 디스플레이 패널 기술에 비해 광도파로 기술은 덜 성숙되어 있으며, 기술 경로와 획기적인 시기가 여전히 불확실합니다. 광 도파관의 기본 원리는 이해되었지만 실제 응용 분야에서 효율적이고 고품질이며 저렴한 광 도파관을 설계하고 제조하는 방법은 여전히 기술적 과제입니다.

컴퓨팅 렌더링: GPU + 클라우드 컴퓨팅 + 엣지 컴퓨팅 + 5G가 컴퓨팅 성능 병목 현상을 극복할 수 있을까요?

메타버스에는 현실 세계와 원활하게 연결되는 몰입형 가상 환경의 구축이 필요하며, 컴퓨팅 렌더링은 이러한 목표를 달성하기 위한 핵심 기술 중 하나입니다. 컴퓨터 렌더링의 임무는 가상 세계의 3차원 모델과 그 재료, 조명 및 기타 속성을 최종 사용자가 볼 수 있는 2차원 이미지로 변환하는 것입니다. 이 프로세스에는 기하학적 계산, 광선 추적, 조명 계산, 재료 렌더링, 후처리 등 많은 계산이 필요합니다.

기기의 컴퓨팅 성능을 향상시키기 위해 Apple의 Vision Pro는 Mac 수준의 M2 칩과 실시간 센서 처리 칩 R1을 포함한 듀얼 칩 디자인을 채택했습니다. 그 중 R1 칩은 주로 센서 신호 전송 및 처리를 담당합니다.

Apple은 자체 XR 장치용 특수 칩을 설계할 수 있지만 업계 전체를 살펴보면 원하는 결과를 얻으려면 얼마나 많은 컴퓨팅 성능이 필요합니까? 다음으로 이 문제에 대해 더 깊이 논의하겠습니다.

1. 이상적인 메타버스 장면을 더 잘 구현하려면 각 XR 장치에 NVIDIA A100 GPU가 하나 이상 있어야 합니다.

이상적인 상태는 매우 높은 컴퓨팅 성능이 필요한 실시간, 고해상도, 높은 프레임 속도, 풀레이 추적 렌더링을 달성하는 것입니다. 특정 컴퓨팅 성능 요구 사항은 렌더링 복잡성, 해상도, 프레임 속도, 이미지 품질 등과 같은 여러 요소에 따라 달라집니다. 현재 계산량을 줄이기 위한 기술이 있는데 대표적인 것이 시선점 렌더링 기술이다. 이 기술은 인간 눈의 시각적 특성을 이용하여 시선점과 그 주변 영역에 대해서만 고정밀 렌더링을 수행하지만 성능은 낮다. -다른 영역의 정밀 렌더링으로 렌더링 작업의 복잡성을 효과적으로 줄입니다. 이번에 애플이 출시한 비전 프로(Vision Pro)는 다이내믹 포비티드 렌더링(Dynamic Foveated Rendering) 기술을 사용해 사용자의 눈이 바라보는 모든 프레임에 최대 화질을 정확하게 전달한다.

Apple Vision Pro 제품 소개

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요?

일반적으로 메타버스의 컴퓨팅 렌더링에 대한 수요는 기존 기술의 역량을 훨씬 초과합니다. 특히 모바일 기기에서는 전력 소모, 발열 등의 문제로 인해 컴퓨팅 파워를 제공하기가 더욱 어렵습니다. 3D 데이터 처리에는 많은 양의 컴퓨팅 리소스가 필요할 뿐만 아니라 실시간 또는 거의 실시간에 가까운 피드백도 필요합니다. 이는 컴퓨팅 성능과 대기 시간에 대한 요구 사항이 매우 높습니다. 최첨단 GPU 및 AI 칩을 포함한 기존 컴퓨팅 장치는 아직 이러한 요구 사항을 완전히 충족할 수 없습니다.

메타버스에서 컴퓨팅 파워 공급과 컴퓨팅 파워 수요 사이의 "간격"을 보다 명확하게 설명하기 위해 일반적인 시나리오를 사용하여 컴퓨팅 파워의 수요와 공급을 분석해 보겠습니다.

4K 해상도(예: 3840x2160 픽셀), 초당 60프레임, 픽셀당 100개의 광선을 추적하는 전체 광선 추적 렌더링을 달성하려고 한다고 가정해 보겠습니다. 하나의 광선을 처리하려면 약 500개의 부동 소수점 작업이 필요합니다(실제 데이터는 더 많은 것이 필요할 수 있음).

그러면 필요한 컴퓨팅 성능 = 3840픽셀 x 2160픽셀 x 60프레임/초 x 100 광선/픽셀 x 500 부동 소수점 작업/레이 = 4,976,640,000,000 부동 소수점 작업/초 = 25 TFLOPS.

이것은 매우 대략적인 추정치이며, 레이 트레이싱 렌더링에는 레이 트레이싱 외에도 셰이딩, 텍스처 샘플링, 기하학적 변환 등

NVIDIA의 고급 칩 A100의 최고 컴퓨팅 성능은 19.5TFLOPS입니다. JD.com에서 NVIDIA A100 40G의 가격은 60,000위안을 넘습니다. 즉, 이상적인 메타버스 장면 렌더링 효과를 얻으려면 장치에 적어도 하나의 A100 칩이 필요합니다. 칩 하나의 가격만 6만 위안이 넘으니 XR 장비의 가격은 더욱 높아질 것이다. 다른 기술적 한계를 제외하면 이 장치의 가격은 대부분의 소비자를 설득하기에 충분합니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? NVIDIA A100 칩

범용 GPU 성능 향상 외에도 특수 하드웨어 + 레이 트레이싱을 위한 특화 소프트웨어 최적화는 메타버스 애플리케이션의 컴퓨팅 성능을 향상시키는 중요한 방법인 것 같습니다. Metaverse 애플리케이션의 경우 Ray Tracing은 중요한 컴퓨팅 작업이므로 전문적인 Ray Tracing 하드웨어를 설계할 수 있습니다. 한 가지 예로 레이 트레이싱 계산을 가속화하기 위한 전용 RT 코어가 포함된 NVIDIA의 RTX GPU 시리즈가 있습니다. 이러한 종류의 하드웨어는 장면의 빛과 물체 사이의 교차점 계산과 같은 일부 계산 집약적인 작업을 하드웨어 수준에서 직접 수행할 수 있으므로 컴퓨팅 효율성이 크게 향상됩니다. 광선 추적 소프트웨어 최적화에는 더 나은 광선 정렬 알고리즘, 보다 효율적인 공간 분할 구조 등이 포함됩니다.

현재 메타버스의 계산과 렌더링은 GPU 없이는 이루어질 수 없으며, GPU 컴퓨팅 성능에는 두 가지 주요 소스가 있는데, 하나는 로컬 GPU이고 다른 하나는 클라우드 GPU입니다. 로컬 GPU는 게임, AR/VR 기기 등 실시간 렌더링이 필요한 장면에 주로 사용됩니다. 클라우드의 GPU는 영화 특수 효과, 건축 시각화 등 보다 복잡한 렌더링 작업에 사용될 수 있습니다. 클라우드 렌더링 결과는 네트워크를 통해 사용자의 장치로 전송됩니다.

이상적인 컴퓨팅 렌더링 솔루션은 로컬 및 클라우드 리소스를 통합하는 하이브리드 렌더링 시스템이어야 합니다. 이 시스템은 렌더링 작업을 로컬에서 수행할지 클라우드에서 수행할지 여부와 작업 성격, 네트워크 상태, 장치 성능 등과 같은 요소를 기반으로 작업을 할당하는 방법을 지능적으로 결정할 수 있어야 합니다. 또한 이 시스템은 필요에 따라 적절한 렌더링 기술을 선택할 수 있도록 광선 추적, 실시간 조명, 전역 조명 등과 같은 다양한 렌더링 기술도 지원해야 합니다.

이 목표를 달성하려면 로컬 및 클라우드(또는 엣지)에서 고속 데이터 전송이 달성되어야 합니다. 그렇다면 메타버스의 요구 사항을 충족하려면 얼마나 높은 인터넷 속도가 필요합니까?

2. 5G는 아직 부족하지만 5G 네트워크 구축의 진전은 기대만큼 크지 않습니다.

위의 일반적인 메타버스 컴퓨팅 전력 요구 사항(4K 해상도, 60프레임/초, 픽셀당 100개의 광선을 추적하는 전체 광선 추적 렌더링)을 예로 들어 클라우드(에지) + 최종 컴퓨팅 렌더링 방식을 사용할 수 있는 방법을 살펴보겠습니다. 많은 네트워크 대역폭이 필요합니다.

각 픽셀의 색상 정보를 24비트(빨간색 8비트, 녹색 8비트, 파란색 8비트)로 단순화하면 필요한 네트워크 대역폭을 계산할 수 있습니다.

3840픽셀 * 2160픽셀 * 24비트/픽셀 * 60프레임/초 = 11,943,936,000비트 = 11.92Gbps.

5G 네트워크의 최대 데이터 속도는 이론적으로 20Gbps에 도달할 수 있지만 이는 이상적인 실험실 환경에서 최대 속도입니다. 실제 사용에서 사용자는 일반적으로 100Mbps에서 3Gbps 사이의 속도를 기대할 수 있지만 이는 여전히 메타버스의 네트워크 요구 사항과는 다소 거리가 있습니다. 더 나은 5G 네트워크도 거의 사용할 수 없습니다.

세계에서 가장 많은 5G 기지국을 보유한 중국에서도 5G 네트워크 구축의 진전이 그리 빠르지 않다는 점을 지적할 필요가 있습니다. 계산에 따르면, 좋은 5G 네트워크를 구축하려면 최소 1천만 개의 5G 기지국이 필요합니다. 2023년 2월 말 기준으로 우리나라 전체 5G 기지국 수는 238만4000개에 이르렀고, 1000만개를 넘으려면 수년이 걸릴 전망이다. 즉, 네트워크 구축 측면에서는 아직 메타버스를 위한 준비가 되어 있지 않습니다.

분명히 현재 컴퓨팅 성능과 네트워크 측면에서 병목 현상이 발생하고 있습니다. 그렇다면 이 병목 현상을 어떻게 해결할 수 있을까요? 이를 위해 Dataman은 여러 업계 전문가를 인터뷰했습니다.

"GPU + 클라우드 컴퓨팅 + 엣지 컴퓨팅이 메타버스의 컴퓨팅 성능 병목 현상을 완화하는 황금 열쇠입니까?"라는 질문에 대해 Youli Technology의 CEO인 Zhang Xuebing은 클라우드-에지 협업이 해결하는 좋은 방법이 아니라고 생각합니다. 컴퓨팅 파워 문제, "클라우드 렌더링은 렌더링 로직을 서버 측에 중앙 집중화함으로써 특정 기간 내에 소수의 단말 장치의 렌더링 문제만 줄일 수 있습니다. 단말 장치의 개발 추세는 구성이 점점 더 높아지고 있으며 높을수록 컴퓨팅 성능은 더욱 강해지고 클라우드 렌더링의 리소스는 축적됩니다. 이는 비용 측면과 동시성 측면에서 비효율적이며 로컬 장치의 컴퓨팅 성능을 낭비합니다. 여러 동시성 문제를 해결하기 위한 렌더링 기능 병목 현상(클라우드 렌더링 + 에지 컴퓨팅 + GPU)이지만 서버 동시성, 로드 밸런싱, 비디오 스트리밍 네트워크 대역폭 및 클라우드 컴퓨팅 성능 병목 현상과 같은 많은 문제를 해결해야 합니다. 로컬 장치 렌더링 시. 병목 현상이 렌더링 알고리즘을 통해 해결되면 모든 클라우드 렌더링 구성은 과거의 일이 될 것입니다.”

Zhang Xuebing은 Unitech가 국내에서 개발한 스트리밍 렌더링 기술을 통해 로컬 컴퓨팅 성능을 활용하여 대규모 온라인 3차원 데이터의 원격 렌더링 문제를 해결할 수 있으며 CPU 렌더링을 통해 고급 그래픽 카드가 필요하지 않다고 소개했습니다. 클라우드 렌더링 비용 및 데이터 낮은 동시성 병목 현상으로 인해 기존 클라우드 렌더링 논리로는 해결할 수 없는 다양한 문제가 해결되었습니다.

Yuntian의 베스트셀러 CTO인 Liang Feng은 5G 시대에 클라우드 게임 및 메타버스와 같이 실시간 상호 작용과 빠른 응답을 갖춘 새로운 애플리케이션 시나리오로 인해 컴퓨팅 성능에 대한 수요가 기하급수적으로 증가했으며, 특히 통합이 가속화되었다고 믿습니다. AI와 메타버스, 그리고 To B에서 To C로의 점진적인 권력 이동은 컴퓨팅 능력의 발전을 위한 거대한 여지를 가져왔습니다. 우리가 진정으로 대규모 상용 애플리케이션을 실현하고 사용자에게 저지연 및 몰입감을 제공하고 싶다면 말이죠. 경험상 현재의 컴퓨팅 성능은 충분하지 않습니다. 독특하고 강력한 병렬 컴퓨팅 기능을 갖춘 GPU는 점차적으로 클라우드 컴퓨팅과 엣지를 결합한 컴퓨팅 성능 기반을 탐색하고 지원하는 중요한 방향이 되었습니다. 컴퓨팅은 신흥 애플리케이션의 대규모 상용화를 위한 새로운 아이디어를 제공합니다. 클라우드와 네트워크를 통합하여 글로벌 커버리지 컴퓨팅 네트워크를 만드는 것이 업계 발전 추세가 되고 있습니다.”

AsiaInfo 기술 R&D 센터의 부국장인 Chen Guo도 같은 견해를 가지고 있습니다. 그는 "메타버스의 이상적인 상태를 달성하려면 기존 컴퓨팅 리소스로는 충분하지 않습니다. 최고의 시각적 렌더링, 실시간입니다. 가상 및 실제 상호 작용, 정확한 지능형 추론은 컴퓨팅 성능 리소스에 대해 매우 높은 요구 사항을 제시합니다. 미래의 "클라우드 에지" 다중 컴퓨팅 성능 협업은 동시에 GPU 및 기타 관련 컴퓨팅 성능 요구 사항을 더 잘 충족할 것입니다. 기술은 또한 메타버스의 컴퓨팅 성능 병목 현상을 제거합니다. 핵심 - GPU 컴퓨팅 성능은 그래픽 렌더링을 가속화하고 물리적 시뮬레이션 기능을 제공하여 AIGC 기술이 요구하는 몰입형 경험을 충족하도록 촉진합니다. Metaverse 장면을 구축하기 위한 저비용 기술 수단을 홍보합니다. The Metaverse는 "사람, 장소 및 상품"의 신속한 모델링을 실현합니다. WebGPU 기술의 개발로 충실도가 높은 진정한 3D 대화형 응용 프로그램이 가능해지며, 이는 그래픽을 크게 향상시킵니다. 브라우저 성능을 향상시키고 프런트엔드의 성능 병목 현상을 없애줍니다.”

지각적 상호작용: 내부 캡처는 메타버스에서 가장 자연스러운 상호작용 방식입니다

지각적 상호작용은 메타버스 구축의 또 다른 주요 과제입니다. 진정한 몰입형 경험을 만들기 위해서는 사용자가 자연스럽고 직관적으로 메타버스와 상호 작용할 수 있도록 보장해야 하며, 이를 위해서는 시각, 청각, 촉각 등 다양한 감각 차원을 포괄해야 합니다.

Apple의 Vision Pro 제품을 보면 손과 눈의 음성 인터랙션 + Eyesight의 다양한 인터랙션 방식을 조합하여 사용하고 있습니다. Vision Pro에는 핸들이 없다는 점은 이전 XR 제품과 크게 다르다는 점을 언급할 가치가 있습니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? Apple Vision Pro 제품 시연 사진

Vision Pro는 음성, 시선 추적 및 제스처를 통해 작동됩니다. 사용자는 애플리케이션 아이콘을 보면서 탐색하고, 손을 탭하여 선택하고, 스와이프하여 스크롤하거나, 가상 키보드를 사용하여 텍스트를 입력할 수도 있습니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? Apple Vision Pro 제품 시연 사진

Vision Pro는 여전히 "선물" 제품이며 내년 초까지 공식적으로 출시되지 않을 것이라는 점을 지적해야 합니다. 따라서 시연 영상에서 어떤 기능을 구현할 수 있는지, 얼마나 효과적인지는 제품이 정식 출시되고 사용자가 직접 체험해 볼 때까지 기다려야 할 것으로 보인다.

지각적 상호작용에 대해 Apple은 기술적인 세부 사항을 많이 공개하지 않았습니다. 다음으로, 업계 관점에서 지각적 상호작용의 핵심 기술적 측면을 분석합니다. 일반적으로 XR 장치의 지각적 상호작용 방식은 시각적 상호작용, 청각적 상호작용, 촉각적 상호작용, 제스처 상호작용으로 나눌 수 있습니다.

시각적 상호작용은 주로 가상현실(VR)과 증강현실(AR) 기술에 의존합니다. 사용자가 메타버스에서 1인칭 관점으로 이동하고 관찰할 수 있는 성숙한 VR 및 AR 장치가 이미 있습니다. 그러나 이러한 장치는 헬멧을 착용해야 하는 경우가 많아 사용자의 편안함과 장기간 사용에 어려움을 겪습니다. 또한 사용자가 실제 세계처럼 자연스럽고 현실감을 느낄 수 있도록 충분한 시각적 해상도와 시야각을 어떻게 제공하는가 또한 중요한 기술적 과제입니다.

청각적 상호작용은 공간 오디오 및 객체 오디오를 포함한 3D 오디오 기술을 기반으로 합니다. 이러한 기술은 깊이와 방향이 있는 음장을 생성하여 사용자가 소리의 소스와 거리를 정확하게 결정할 수 있도록 합니다. 그러나 현재의 3D 오디오 기술은 특히 복잡한 사운드 환경과 사운드 물리적 효과를 시뮬레이션할 때 완전히 자연스러운 청취 경험을 제공하기가 여전히 어렵습니다.

촉각 상호작용은 가장 큰 과제 중 하나입니다. 진동 핸들, 햅틱 슈트 등 다양한 촉각 피드백 장치가 있지만 이러한 장치의 피드백 강도와 정확도는 실제 촉각 경험을 충족할 수 없습니다. 전기 자극 및 초음파 촉각 피드백과 같은 고급 기술이 개발 중이지만 아직 성숙되지 않았습니다.

위의 방법들에 비해 직관적이고 자연스러운 상호작용 방식인 제스처 상호작용은 메타버스에서 이상적인 상호작용 수단으로 간주됩니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요?

제스처 상호작용에는 캡처와 분석이라는 두 가지 핵심 링크가 있습니다. 캡처는 다양한 기술을 통해 사용자 손의 움직임 정보를 수집하는 반면, 분석은 이 정보를 처리하여 특정 제스처와 움직임을 식별합니다.

캡처 기술은 크게 외부 캡처와 내부 캡처로 구분됩니다. 외부 캡처는 Microsoft의 Kinect 및 Leap Motion의 경우처럼 카메라나 센서를 사용하여 손의 위치와 움직임을 기록하는 경우가 많습니다. 내부 캡처는 일반적으로 가속도계, 자이로스코프, 자력계 등과 같은 일련의 센서가 장착된 웨어러블 장치를 사용합니다. 이 장치는 3차원 공간에서 손의 변위, 회전 및 가속도를 캡처할 수 있습니다.

내부 캡처가 가장 이상적인 상호 작용 방식이라고 할 수 있습니다. 내부 캡쳐 센서가 손과 직접 접촉하기 때문에 사용자가 처한 환경이나 조명 조건에 관계없이 손의 움직임 정보를 안정적이고 정확하게 얻을 수 있습니다. 또한 내부 캡처 장치는 일반적으로 크기가 작고 착용하기 쉽기 때문에 사용자가 언제 어디서나 제스처와 상호 작용할 수 있습니다. 내부 캡처의 가장 큰 기술적 어려움은 센서 정확도와 복잡한 동작 인식 기능입니다. 손의 움직임은 매우 복잡합니다. 이를 실시간으로 정확하게 포착하여 가상의 움직임으로 변환하려면 센서의 정확성과 처리 속도에 대한 높은 요구 사항이 적용됩니다. 현재 내부 캡처는 기본적인 손 움직임을 잘 캡처하지만 손가락의 작은 움직임과 같은 보다 복잡한 제스처는 정확하게 식별하기 어려울 수 있습니다. 복잡한 제스처의 고정밀 인식 문제가 해결된다면 내부 캡처는 메타버스에서 가장 이상적인 상호 작용 방법이 될 것입니다.

분석 기술 측면에서는 주로 컴퓨터 비전과 머신러닝 알고리즘에 의존합니다. 컴퓨터 비전은 캡처 장치에서 얻은 이미지나 비디오를 처리하여 손의 주요 지점과 윤곽을 추출하는 데 사용됩니다. 기계 학습 알고리즘, 특히 딥 러닝 알고리즘은 이러한 데이터를 분석하고 특정 동작을 식별하는 데 사용됩니다. 파싱 기술 측면에서 현재 알고리즘은 주로 딥러닝에 의존하고 있으며 훈련을 위해 주석이 달린 대량의 데이터가 필요합니다. 그러나 손의 복잡성과 다양성으로 인해 이 데이터를 얻고 라벨을 지정하는 것은 매우 어렵습니다.

캡처 및 파싱 외에도 해결해야 할 또 다른 문제가 있습니다. 가상 객체와의 상호 작용, 가상 환경에서 사용자가 제스처를 통해 객체를 잡고 이동하고 조작할 수 있게 하는 방법, 사용자에게 촉각 피드백을 제공하는 방법, 모두 문제를 해결해야 합니다. 한 가지 가능한 방법은 가상 손 모델을 사용하여 사용자의 제스처를 가상 손의 움직임으로 변환한 다음 가상 손이 가상 개체를 작동하게 하는 것입니다. 동시에 사용자에게 촉각 피드백을 제공하기 위해서는 전기 자극, 초음파 등 보다 효과적인 촉각 피드백 기술에 대한 연구가 필요합니다.

지각적 상호작용 측면에서는 아직 해결해야 할 일련의 기술적 문제가 있음을 알 수 있습니다.

콘텐츠 제작: ChatGPT와 AIGC가 스마트 NPC 구축의 핵심이 되었습니다

Apple은 콘텐츠 생태계 구축의 대가입니다. 이번 Vision Pro 출시 컨퍼런스에서 Apple은 콘텐츠 구축에 있어서도 일부 진전을 발표했습니다. 예를 들어, Complete HeartX는 대화형 3D 하트를 생성하여 디자이너가 F1 레이싱 디자인 초안을 시각적으로 검토할 수 있도록 해줍니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요? Vision Pro 제품 소개 사진

애플이 보여준 콘텐츠 제작 역량 중 일부는 아직 우리가 생각하는 이상적인 콘텐츠 메타버스와는 거리가 멀다는 점을 지적할 필요가 있습니다. 우리가 원하는 것은 단순히 아름다운 3D "전시물"이 아닌 "Ready Player One" 또는 "Runaway Player"와 같은 메타버스입니다. 이 목표를 달성하기 위해서는 메타버스 콘텐츠 제작의 심층적인 논리를 탐구해야 합니다.

메타버스에서는 환경, 사람의 가상 표현, 논플레이어 캐릭터(NPC)가 이 가상 세계의 핵심 콘텐츠를 형성합니다. 이 세 가지가 함께 메타버스의 세계관과 스토리 라인을 구축합니다. 환경은 가상 세계에 대한 물리적, 문화적 맥락을 제공하고 가상 세계의 규칙과 작동을 정의합니다. 이는 가상 세계의 기초이며 메타버스의 공간적 차원을 구성합니다. 개인의 가상 대리인, 즉 플레이어 캐릭터는 가상 세계에서 사용자의 정체성이자 행위자입니다. 사용자의 희망사항과 행동이 반영되어 가상세계에 참여하고 경험할 수 있는 도구입니다.

이상적으로 NPC는 가상 세계에 다양한 캐릭터와 스토리 라인을 제공하여 가상 세계의 콘텐츠와 경험을 풍부하게 할 수 있습니다. 이들은 가상 세계의 활동 동인이며 사용자가 가상 세계에 더 잘 참여하고 이해하도록 도울 수 있습니다. NPC의 가소성과 창의성은 메타버스의 스토리라인에 무한한 가능성을 부여합니다. NPC와의 상호작용을 통해 사용자는 메타버스에서 다양한 스토리와 모험을 경험할 수 있습니다. 메타버스에 있는 인간의 가상 대표자는 NPC와의 상호 작용을 통해 특별한 "권한"이나 능력을 얻을 수 있습니다. 이 "권한"은 사용자가 가상 세계에서 목표를 달성하고 가상 세계에서 자신의 정체성과 지위를 향상시키는 데 도움이 될 수 있습니다. 따라서 NPC는 메타버스의 스토리 동인일 뿐만 아니라 사용자가 가상 세계에서 성공과 만족을 달성하는 중요한 요소이기도 하다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요?

그러나 위의 목표를 달성하려면 NPC는 현재 메타버스에서 NPC의 도달 범위를 훨씬 뛰어넘는 높은 수준의 지능을 가져야 합니다. 현재 NPC는 대부분 미리 설정된 대화와 행동에 의존하므로 경직된 것처럼 보이고 플레이어 행동에 반응할 때 현실감과 개인화가 부족할 수 있습니다. 동시에 NPC는 스토리라인을 발전시키고 지속적인 상호 작용을 수행하는 데에도 한계가 있습니다.

이러한 맥락에서 메타버스 콘텐츠 제작을 최적화하고 지능형 NPC를 구축하기 위해 AI 기술, 특히 AIGC 및 ChatGPT를 사용하는 것의 잠재력과 이점이 특히 두드러집니다.

Cocos CEO Lin Shun은 AIGC와 Metaverse의 결합이 콘텐츠 생성의 효율성과 창의성을 크게 향상시킬 수 있다고 믿습니다. AIGC는 무겁고 반복적인 콘텐츠 제작 작업을 맡아 개발자의 시간과 에너지를 절약하는 동시에 더욱 다양하고 풍부한 게임 콘텐츠를 제공할 수 있습니다. AIGC의 기술을 사용하면 세계와 장면을 자동으로 생성할 수 있어 메타버스의 콘텐츠 생성 속도가 빨라지고 메타버스의 세계가 더욱 다채로워지며 다양한 형태의 요구를 충족할 수 있습니다. 예를 들어 메타버스의 콘텐츠를 더욱 생생하고 흥미롭게 만들기 위해 작업과 플롯을 자동으로 생성하고, NPC 및 캐릭터 디자인을 자동으로 생성하는 AIGC는 개발자가 다양한 개인화된 NPC 및 캐릭터 이미지를 생성하여 메타버스의 캐릭터를 더욱 다양하고 흥미롭게 만드는 데 도움을 줄 수 있습니다. Unique는 자동으로 음향 효과와 음악, 사실적인 음향 효과와 역동적인 음악을 생성하여 Metaverse 장면을 더욱 몰입감 있고 몰입감 있게 만듭니다.

Lin Shun은 또한 AI가 메타버스에서 NPC에게 보다 현실적이고 지능적인 상호 작용을 제공할 수 있다고 믿습니다. "영혼"이 있는 NPC는 메타버스에서 역동적인 세계를 형성할 수 있으며 NPC는 플레이어의 행동과 결정에 따라 대응할 수 있습니다. 게임 세계를 더욱 현실적이고 생생하게 구현하며 세계의 발전을 촉진합니다. 자연어 처리와 감정 인식 기술을 통해 플레이어의 지시와 감정을 이해하고 그에 따라 반응함으로써 보다 개인화되고 풍부한 게임 경험을 제공할 수 있습니다. AI는 NPC에게 보다 현실적인 "영혼" 또는 성격을 제공합니다. 감정 모델링 및 인지 모델을 통해 AI는 NPC가 복잡한 감정 상태, 성격 특성 및 행동 패턴을 나타내도록 하여 플레이어와 NPC 간의 감정적 연결과 상호 작용을 높일 수 있습니다.

모 유니버스의 최고 제품 책임자인 린 유(Lin Yu)도 비슷한 견해를 밝혔습니다. 그는 "AIGC가 '사람, 사물, 장면'이라는 세 가지 핵심 요소에서 메타버스의 제작 효율성을 크게 향상시킬 것이라고 믿습니다. 디지털 인간 이미지 모델링 디자인 측면에서 디지털 인간 두뇌 지능 구축의 설계 효율성을 높이고 2D 및 3D 사진 및 비디오 콘텐츠의 AIGC 지능 수준을 크게 향상시킬 수 있습니다. 물체와 장면의 디자인은 NPC에게 두뇌 또는 "영혼"을 제공하고 NPC의 지능 수준을 크게 향상시킬 수 있습니다. 예를 들어 NPC와 사용자 간의 지능적인 질문과 답변은 텍스트 질문과 답변이 아닙니다. , 음성 질문과 답변은 물론 사진, 동영상 등 다중 모드 지능도 포함됩니다.”

마지막으로 DataMesh 창립자이자 CEO인 Li Jie는 엔터프라이즈 메타버스 분야에서 여전히 해결해야 할 '닭과 달걀' 문제가 있다고 언급했습니다. 고품질 콘텐츠는 사용자를 끌어들일 수 있지만 사용자가 충분하지 않으면 이러한 고품질 콘텐츠를 생성하고 유지하는 것은 불가능합니다. 이는 전형적인 네트워크 효과 문제입니다.

Li Jie는 엔터프라이즈 메타버스의 TEMS(Training, Experience, Monitoring and Simulation) 모델에서 이 문제를 해결할 수 있는 한 가지 가능한 방법은 초기에 시뮬레이션(Simulation)과 교육(Training) 메타버스 콘텐츠의 두 가지 측면을 통해 구동하는 것이라고 믿습니다. 세대. 초기에 기업은 직원의 기술을 향상시킬 수 있을 뿐만 아니라 초기 활성 사용자와 메타버스에 대한 콘텐츠를 제공할 수 있는 특정 시뮬레이션 시나리오를 구축하여 내부 직원을 훈련하고 교육할 수 있습니다.

시간이 지남에 따라 직원들이 점차적으로 이 새로운 작업 방식에 적응하고 의존함에 따라 Enterprise Metaverse의 사용자 기반은 성장할 것이며 이러한 사용자는 Metaverse에서 대량의 대화형 데이터도 생성하게 됩니다. 이러한 데이터를 수집하고 분석하여 메타버스의 경험과 모니터링 및 제어 기능을 더욱 최적화하여 선순환을 형성할 수 있습니다.

Metaverse의 킬러 애플리케이션에 대해 Li Jie는 킬러 애플리케이션이 TEMS의 네 가지 측면을 완벽하게 통합하는 솔루션이 될 수 있다고 믿습니다. 예를 들어, 복잡한 비즈니스 프로세스를 실시간으로 시뮬레이션하고, 풍부하고 맞춤화된 교육 콘텐츠를 제공하고, 효율적인 모니터링 및 제어 기능을 갖추고, 원활하고 몰입감 있는 사용자 경험을 제공할 수 있는 애플리케이션이 Metaverse 애플리케이션의 킬러가 될 수 있습니다. 이러한 애플리케이션은 회사의 생산 효율성과 직원의 업무 만족도를 크게 향상시킬 수 있을 뿐만 아니라 회사의 지속적인 혁신과 발전을 촉진할 수도 있습니다.

위에서 우리는 XR과 Metaverse의 몇 가지 핵심 기술 영역과 과제를 분석했습니다. 마지막으로 애플 같은 기업들이 계속해서 기술적인 병목 현상을 뚫고 하루빨리 가격을 낮춰(2만 개가 넘는 가격은 사실 국민들에게 가깝지 않은 가격이다) '레디 플레이어 원' 같은 다채로운 메타버스가 나올 수 있기를 바란다. 최대한 빨리 도착할 수 있습니다.

Siri야부터 Metaverse까지, Apple은 어디까지 가야 할까요?

하지만 솔직히 말해서 이번에 애플이 출시한 XR 헤드셋에 대해서는 낙관적이지 않습니다. Apple은 훌륭한 회사이고, 가전제품 분야에서의 제품 역량 또한 세계적으로 독보적입니다. 그러나 XR 장비와 메타버스 산업에는 여전히 상당한 기술적 병목 현상이 존재하며, 이러한 병목 현상을 극복하려면 업계 전체의 노력이 필요하고 한 회사만으로는 이를 극복하는 것이 불가능합니다. 애플이 아이폰을 출시하면서 인류를 모바일 인터넷 시대로 몰아넣은 것은 애플만의 잘못이 아니었다. 사실 당시 인류는 이미 한 발로 모바일 인터넷 시대에 들어섰지만 애플의 제품은 최고였고 가장 큰 열매를 맺었다. 네트워크가 여전히 2G 또는 1G에 정체되어 있다면 iPhone이 여전히 유용할까요? 애플은 위대하지만, 아무리 훌륭한 회사라도 시대를 초월하는 것은 불가능하다.

합리적인 관점에서 볼 때 위에서 언급한 근거리 디스플레이, 컴퓨팅 렌더링, 지각적 상호 작용 및 콘텐츠 제작에는 여전히 상당한 과제가 있습니다. 애플만큼 강력하다고 해도 기존 산업 여건에서 최고의 제품만 생산했을 뿐, 우리가 꿈꾸는 메타버스의 이상과는 아직 거리가 멀다. 많은 수의 사용자가 실제로 Vision Pro를 경험하게 되면 이전 XR 제품에 비해 디자인이 좋고 혁신적이라고 느낄 가능성이 높지만 전반적으로 여전히 기대와는 거리가 멀고 "그루브"가 많습니다. 예를 들어, 보고에 따르면 Vision Pro와 함께 제공되는 유선 배터리는 2시간 동안만 지속됩니다.

글: Yi Liao Yanyu / 데이터 원숭이

위 내용은 'Siri야'부터 Metaverse까지, Apple은 어디까지 가야 할까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!