現在の科学技術の波の中で、無限の想像力と可能性を秘めたメタバースという概念が、まばゆいばかりの新星のように世界中の注目を集めています。巨大な開発の可能性により、メタバースへの突撃を開始する企業が次々と集まりました。
これらの企業の中で、Apple は最も期待が高い有力企業です。 6月6日、Appleは7年間の準備を経て、ついにヘッドマウントディスプレイデバイスVision ProをWWDC 2023で正式に発表した。
ある意味では、Apple が XR 機器の分野でどこまでできるかは、現在の技術フロンティアがどこまでできるかを表しています。しかし、現在の状況から判断すると、Apple の製品は多くの面で優れたパフォーマンスを示していますが、人々の期待にはまだ程遠いです。多くのデザインや指標から、現在の技術的なボトルネックと Apple がしなければならないいくつかの妥協がわかります。さらに重要なことに、Vision Pro の最終価格は 3,499 米ドル (約 24,860 人民元) と高く、この価格はこの製品がニッチな「おもちゃ」に違いなく、一般家庭に普及することはできないことを意味します。
Appleの株価
では、私たちは理想的なメタバース世界からどれくらい離れているのでしょうか?また、解決する必要がある技術的な問題や課題は何でしょうか?この質問に答えるために、Dataman は、Cocos の CEO 林順氏、DataMesh 創設者兼 CEO の Li Jie 氏、Youli Technology CEO の Zhang Xuebing 氏、Yuntian ベストセラーの CTO Liang Feng 氏、AsiaInfo Technology R&D センター副ゼネラルマネージャーの Chen Guo 氏、Mo Universe 最高製品責任者の Lin Yu 氏にインタビューしました。をはじめとする多くの業界専門家は、メタバースにおけるさまざまな主要テクノロジーの開発傾向を理解しています。次に、Apple の最新の XR ヘッド ディスプレイ製品を組み合わせて、ニアアイ ディスプレイ、コンピュテーショナル レンダリング、5G プライベート ネットワーク、知覚インタラクション、コンテンツ制作という 4 つの主要なテクノロジー分野における最新の開発トレンドと既存の課題を深く調査します。
Apple Vision Pro 製品の写真
それでは、ニアアイディスプレイ全体の主要な技術は何でしょうか?また、業界の現在の進歩は何ですか?メタバースの実現においては、ニアアイ ディスプレイ技術がハードウェアのブレークスルーの鍵となります。大きく分けて表示パネルと光学系(特に光導波路)の2つの部分から構成されており、いずれの技術ルートにもまだ克服すべき技術的課題が多く残されている。
1. 解像度、彩度、リフレッシュレートを決めるのはディスプレイパネルであり、MicroLED には大きな期待が寄せられています。
ディスプレイ パネルは、ニアアイ ディスプレイ テクノロジの重要な部分であり、メタバースにおけるユーザーの視覚体験に直接影響します。ディスプレイパネルの主な技術指標には、解像度、彩度、リフレッシュレートが含まれており、これらの指標を改善することで、より鮮明で豊かでスムーズな視覚体験をユーザーにもたらすことができます。解像度は表示パネルの中核となる指標の 1 つであり、メタバースの詳細を表示する能力を直接決定します。現段階ではパネルの高解像度化が技術的なボトルネックとなっており、パネルサイズや消費電力を確保しながらいかに高解像度化するかが表示パネル技術の重要な課題となっている。
色の彩度は、メタバースの色の表示能力に影響を与えるもう 1 つの重要な指標です。現在、さまざまな表示テクノロジが色表現において良好な結果をもたらしていますが、メタバースで現実世界の色を実現するにはまだ一定の距離があります。
リフレッシュ レートは、ユーザーの動的なビジュアル エクスペリエンスに影響します。リフレッシュ レートが高いと、よりスムーズなアニメーション効果が得られます。ただし、リフレッシュ レートを向上させると、コンピューティングと消費電力への負担が増大するため、リフレッシュ レートを向上させながら消費電力をいかに削減するかが、もう 1 つの大きな技術課題となります。
ディスプレイパネルの分野では、現在の主な技術には液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)、マイクロLED(Micro-LED)が含まれます。 LCD 技術は比較的成熟しており、低コストですが、他の技術に比べて彩度、コントラスト、リフレッシュ レートの点で劣っており、OLED ディスプレイは寿命とコストの問題を解決する必要があります。
ディスプレイパネルの開発プロセス
近年、MicroLED ディスプレイ技術は、その優れた性能により業界から広く注目を集めています。ピクセルとしてミクロンレベルのLEDを使用しており、より高い解像度、より広い色域、より高いリフレッシュレートを提供するだけでなく、より低い消費電力とより長い寿命も実現します。しかし、MicroLEDパネルの製造は、特に画素サイズが小さく、画素密度が高い場合に難しく、コストがかかるため、いかに大規模で高効率な生産を実現するかが依然として解決すべき重要な技術課題となっている。今回のVision ProにはMicro OLEDスクリーンが搭載されていますが、25,000近い価格でこのMicro OLEDスクリーンはかなり「貢献」していると思います。
2. 光導波路技術はディスプレイパネルに比べて成熟度が低く、その技術的経路やブレークスルー時期は不透明です。
光学システム、特に光導波路は、ニアアイ ディスプレイ技術にとっても同様に重要です。光導波路技術の中核は、光をユーザーの網膜に導き、それによってユーザーの視野に虚像を生成することです。視野は、光導波路の品質を測定するための重要な指標であり、メタバースにおけるユーザーの視覚範囲に影響を与えます。
拡張現実 (AR) および仮想現実 (VR) デバイスでは、ディスプレイ パネルと光導波路が緊密に統合されることがよくあります。ディスプレイ パネルは画像を生成し、それが光導波路に供給されます。光導波路の仕事は、これらの画像をユーザーの目に導き、視野を広げたり画像の焦点を調整したりするなど、視覚体験を向上させるための調整を行うことです。このプロセスは単純に映画館のように想像できます。表示パネルは画像を生成するプロジェクターのようなものであり、光導波路はプロジェクターによって生成された画像を受け取り、それを観客に提示する投影スクリーンのようなものです。この場合、視聴者はユーザーの目です)。
光導波路技術は、回折光導波路、屈折光導波路、ホログラフィック光導波路など、いくつかの異なるタイプに分類できます。その中でも現在最もよく使われているのが回折光導波路です。入射光をマイクロ格子を通じて複数の角度に分散し、全反射を利用してこれらの光線をユーザーの網膜に導きます。この技術は、より広い視野とより高い画像品質を提供できますが、光の効率、分散、複雑な製造プロセスの点で問題があります。
光効率の観点から見ると、回折型光導波路の問題は、光の一部しか有効利用できず、ほとんどの光は散乱してしまい、エネルギーの無駄になってしまうことです。分散に関しては、光の回折角により、異なる色の光が回折格子を通過した後に分散を生じ、イメージングの色の精度に影響を与えます。これは、メタバースのような高度なリアリズムを追求するアプリケーションにとって大きな問題であることは間違いありません。
さらに、製造プロセスの複雑さは、精度に対する極めて高い要件に反映されています。回折光導波路用のマイクログレーティングはナノメートルレベルまで正確である必要があり、これは製造プロセス中に非常に高い技術的困難とコスト圧力をもたらします。これらの問題を克服するために、研究者は屈折型光導波路やホログラフィック光導波路などの新しい光導波路技術を追求しています。これらの技術はさまざまな方法で光を導き、回折光導波路の問題を克服する新しいソリューションを提供する可能性があります。たとえば、ホログラフィック光導波路はホログラフィック画像を使用して光の波面を記録および再生します。これにより、分散の低減と光効率の向上に利点が得られます。
ただし、新しい光導波路技術にも独自の課題があります。例えば、屈折型光導波路は回折型光導波路よりも光効率が優れているものの、通常その視野は狭い一方、ホログラフィック光導波路は大規模で高品質なホログラフィック画像の製造をどのように実現するかという問題に直面している。
全体として、ディスプレイ パネル技術にはまだ改善の余地がありますが、その技術ロードマップは比較的確実であり、今後数年間でさらなる改善が期待できます。光導波路技術はディスプレイパネル技術に比べて成熟度が低く、その技術的ルートやブレークスルー時期はまだ不透明です。 光導波路の基本原理は理解されていますが、実際の用途において効率的、高品質、低コストの光導波路をどのように設計および製造するかは依然として技術的な課題です。
メタバースでは、現実世界にシームレスに接続された没入型の仮想環境の構築が必要であり、コンピュテーショナル レンダリングはこの目標を達成するための重要なテクノロジーの 1 つです。コンピュテーショナル レンダリングのタスクは、仮想世界の 3 次元モデルとそのマテリアル、照明、その他の属性を、エンド ユーザーが見る 2 次元画像に変換することです。このプロセスでは、幾何学的計算、レイ トレーシング、照明計算、マテリアル レンダリング、後処理など、多くの計算が必要になります。
デバイスの計算能力を向上させるために、Apple の Vision Pro は、Mac レベルの M2 チップとリアルタイム センサー処理チップ R1 を含むデュアルチップ設計を採用しています。このうち、R1 チップは主にセンサー信号の送信と処理を担当します。
Apple は自社の XR デバイス用に特別なチップを設計できますが、業界全体を見ると、望ましい効果を達成するにはどれくらいのコンピューティングパワーが必要でしょうか?次に、この問題についてさらに詳しく説明します。
1.理想的なメタバース シーンをより適切に実現するには、各 XR デバイスに少なくとも 1 つの NVIDIA A100 GPU が必要です。
理想的な状態は、リアルタイム、高解像度、高フレームレート、フル レイ トレーシング レンダリングを実現することですが、これには非常に高いコンピューティング能力が必要です。特定のコンピューティング能力要件は、レンダリングの複雑さ、解像度、フレーム レート、画質などの多くの要因によって異なります。現在、計算量を削減する技術はいくつかありますが、最も代表的なのが人間の目の視覚特性を利用して注視点とその周囲のみを高精度に描画する注視点描画技術です。他の領域で低精度のレンダリングを実行しながら、計算コストを効果的に削減し、レンダリング タスクの複雑さを軽減します。今回Appleが発売したVision Proは、ダイナミック中心窩レンダリング技術を採用し、ユーザーの目が見ているすべてのフレームに最高の画質を正確に届けます。
Apple Vision Pro 製品紹介
全体として、メタバースの計算レンダリングに対する需要は、既存のテクノロジーの能力をはるかに超えています。特にモバイルデバイスでは、消費電力や熱放散などの問題により、コンピューティングパワーを提供することがより困難になります。 3D データの処理には、大量のコンピューティング リソースが必要なだけでなく、リアルタイムまたはほぼリアルタイムのフィードバックも必要です。これにより、コンピューティング能力と遅延に対する要求が非常に高くなります。最先端の GPU や AI チップなどの既存のコンピューティング機器は、まだこれらのニーズを完全に満たすことはできません。
メタバースにおけるコンピューティングパワーの供給とコンピューティングパワーの需要の間の「ギャップ」をより明確に説明するために、典型的なシナリオでコンピューティングパワーの需要と供給の状況を分析してみましょう。
4K 解像度 (つまり 3840x2160 ピクセル)、60 フレーム/秒、ピクセルあたり 100 のレイの追跡で完全なレイ トレーシング レンダリングを実現したいとします。1 つのレイの処理には約 500 の浮動小数点演算が必要です (実際のデータはより高い)。
したがって、必要な計算能力 = 3840 ピクセル x 2160 ピクセル x 60 フレーム/秒 x 100 レイ/ピクセル x 500 浮動小数点演算/レイ = 4,976,640,000,000 浮動小数点演算/秒 = 25 TFLOPS となります。
これは非常に大まかな見積もりであり、実際に必要な計算能力はさらに高くなる可能性があることに注意してください。これは、レイ トレーシング レンダリングでは、レイ トレーシングに加えて、シェーディングやテクスチャなど、他の多くの種類の計算が必要になるためです。 . サンプリング、幾何変換など。
NVIDIA のハイエンド チップ A100 のピーク演算能力は 19.5TFLOPS で、JD.com での NVIDIA A100 40G の価格は 60,000 元を超えています。つまり、理想的なメタバース シーンのレンダリング効果を実現するには、デバイスに少なくとも 1 つの A100 チップが必要です。チップ1個の価格だけで6万元を超えるため、XR装備の価格はさらに高くなる。他の技術的な制限はさておき、このデバイスの価格はほとんどの消費者を躊躇させるのに十分です。
NVIDIA A100 チップ
一般的な GPU パフォーマンスの向上に加えて、レイ トレーシング用の特別なハードウェアとソフトウェアの最適化は、メタバース アプリケーションのコンピューティング パフォーマンスを向上させる重要な方法であるようです。 メタバース アプリケーションの場合、レイ トレーシングは重要なコンピューティング タスクであるため、専用のレイ トレーシング ハードウェアを設計できます。一例として、レイ トレーシング計算を高速化するための専用 RT コアを備えた Nvidia の RTX シリーズ GPU があります。この種のハードウェアは、シーン内の光とオブジェクトの間の交点の計算など、一部の計算集約的な操作をハードウェア レベルで直接実行できるため、計算効率が大幅に向上します。レイ トレーシング ソフトウェアの最適化には、より優れたレイ ソーティング アルゴリズム、より効率的な空間分割構造などが含まれます。
現在、メタバースの計算とレンダリングは GPU なしでは実行できません。GPU コンピューティング能力の主なソースは 2 つあり、1 つはローカル GPU、もう 1 つはクラウド GPU です。ローカル GPU は主に、ゲームや AR/VR デバイスなど、リアルタイム レンダリングが必要なシーンに使用されます。クラウドの GPU は、映画の特殊効果、建築のビジュアライゼーションなど、より複雑なレンダリング タスクに使用できます。クラウド レンダリングの結果は、ネットワークを通じてユーザーのデバイスに送信されます。
理想的な計算レンダリング ソリューションは、ローカル リソースとクラウド リソースを統合するハイブリッド レンダリング システムである必要があります。このシステムは、レンダリング タスクをローカルで実行するかクラウドで実行するか、およびタスクの性質、ネットワーク状態、デバイスのパフォーマンス、その他の要因に基づいてタスクを割り当てる方法をインテリジェントに決定できる必要があります。さらに、このシステムは、ニーズに応じて適切なレンダリング テクノロジーを選択できるように、レイ トレーシング、リアルタイム ライティング、グローバル イルミネーションなどのさまざまなレンダリング テクノロジーもサポートする必要があります。
この目標を達成するには、高速データ伝送をローカルとクラウド (またはエッジ) で実現する必要があります。では、メタバースの要件を満たすには、どれくらいのインターネット速度が必要でしょうか?
2. 5Gでもかろうじて十分ですが、5Gネットワークの構築は思ったほど進んでいません。
上記の典型的なメタバースのコンピューティング能力要件を例として (4K 解像度、60 フレーム/秒、ピクセルごとに 100 のレイが追跡されるフル レイ トレーシング レンダリング)、クラウド (エッジ) 側で何をする必要があるかを見てみましょう。レンダリング ソリューションと必要なネットワーク帯域幅を計算します。
各ピクセルの色情報を 24 ビット (赤 8 ビット、緑 8 ビット、青 8 ビット) に単純化すると、必要なネットワーク帯域幅を計算できます。
3840 ピクセル * 2160 ピクセル * 24 ビット/ピクセル * 60 フレーム/秒 = 11,943,936,000 ビット = 11.92Gbps。
5G ネットワークのピーク データ レートは理論的には 20 Gbps に達しますが、これは理想的な実験室環境におけるピーク速度です。実際の使用では、ユーザーは通常 100Mbps から 3Gbps の速度を期待できますが、これはメタバースのネットワーク要件からはまだ遠いです。より優れた 5G ネットワークでもほとんど使用できません。
世界で最も多くの5G基地局を有する中国でさえ、5Gネットワーク構築の進捗はそれほど速くないことを指摘しておく必要があります。計算によると、良好な 5G ネットワークを構築するには、少なくとも 1,000 万の 5G 基地局が必要です。 2023年2月末現在、我が国の5G基地局総数は238.4万局に達しており、1000万局を超えるには数年かかるだろう。 つまり、ネットワーク構築という点では、まだメタバースに向けた準備ができていないということです。
明らかに、現在、コンピューティング能力とネットワークの点でボトルネックが存在します。では、このボトルネックを打開するにはどうすればよいでしょうか?この目的を達成するために、データマンは数人の業界専門家にインタビューしました。
「GPU クラウド コンピューティングとエッジ コンピューティングは、メタバースのコンピューティング能力のボトルネックを緩和する黄金の鍵ですか?」という質問に関して、Youli Technology の CEO、Zhang Xuebing 氏は、クラウドとエッジ デバイスのコラボレーションは良い方法ではないと考えています。 「サーバー側にレンダリング ロジックを集中させることで、クラウド レンダリングは特定の期間内で少数の端末デバイスのレンダリングの問題を軽減するだけです。端末デバイスの開発傾向は、構成が高度化していることです。」スタッキングはコストの観点からも同時実行性の観点からも非効率であり、ローカル デバイスの計算能力を無駄にします。ローカルの計算能力レンダリングはボトルネックを解決するだけで済みます。ローカル レンダリング機能を利用して複数の同時実行の問題を解決し、クラウド レンダリングではエッジ コンピューティング GPU を使用しますが、サーバーの同時実行、負荷分散、ビデオ ストリーミング ネットワーク帯域幅、クラウド コンピューティングの電力ボトルネックなどの多くの問題を解決する必要があります。デバイスのレンダリングのボトルネックはレンダリング アルゴリズムによって打開され、クラウド レンダリングの構築はすべて過去のものになります。」
Zhang Xuebing 氏は、Uli Technology はローカル コンピューティング能力を利用して、国内で独自に開発したストリーミング レンダリング テクノロジを通じて大量のオンライン 3 次元データのリモート レンダリング問題を解決でき、CPU レンダリングによりハイエンドのグラフィック カードを必要としないと紹介しました。クラウド レンダリングの高コストと低いデータ同時実行性のボトルネックにより、従来のクラウド レンダリング ロジックでは解決できないさまざまな問題が解決されました。Yuntian のベストセラー CTO である Liang Feng 氏は、5G 時代には、クラウド ゲームやメタバースなど、リアルタイムのインタラクションと迅速な応答を伴う新しいアプリケーション シナリオにより、コンピューティング パワーの需要が急激に増加し、特にその加速が見られると考えています。 AI とメタバースの統合、そして To B から To C へのコンピューティング能力の段階的な移転により、コンピューティング能力開発の大きな余地がもたらされました。大規模な商用アプリケーションを真に実現し、ユーザーに低遅延で没入型のエクスペリエンスを提供するには、現在のコンピューティング能力は満足とは程遠いです。そのユニークで強力な並列コンピューティング機能により、GPU は徐々に市場にとって重要な方向性となり、新たなアプリケーション シナリオのコンピューティング パワー ベースを探索およびサポートするようになりました。クラウド コンピューティングとエッジ コンピューティングを組み合わせることで、新しいアイデアが提供されます。 「新しいアプリケーションの大規模な商用化。コンピューティングとネットワークの統合、クラウドとネットワークの統合、および完全なカバレッジを備えたコンピューティング パワー ネットワークの構築が、業界の発展トレンドになりつつあります。」
AsiaInfo Technology R&D Center の副ゼネラルマネージャーである Chen Guo 氏も同様の見解を持っており、「メタバースの理想的な状態を達成したい場合、既存のコンピューティング リソースでは到底十分ではありません。究極のビジュアル レンダリング、本物のレンダリングです。」 -時間の仮想と現実のインタラクション、正確なインテリジェント推論はすべて、コンピューティング リソースに対する非常に高い要件を提示します。将来の「クラウド-エッジ-エンド」マルチコンピューティング能力コラボレーションは、メタバースのコンピューティング能力ニーズをよりよく満たすでしょう。 GPU およびその他の関連テクノロジも、メタバースでのコンピューティング パワーの必要性を排除しつつあり、ボトルネックの鍵 - GPU コンピューティング パワーは、グラフィック レンダリングを加速し、物理シミュレーション機能を提供し、メタバースで必要とされる没入型エクスペリエンスを満たす XR テクノロジを推進します。AIGCテクノロジーは、メタバース シーンを構築するための高効率、高精度、低コストの技術手段を提供し、メタバースが「人、場所、物」の迅速なモデリングを実現するよう促し、WebGPU テクノロジーの開発により、高忠実度の真の 3D インタラクティブ アプリケーションが実現します。これにより、ブラウザのグラフィックス パフォーマンスが大幅に向上し、フロントエンドにおけるユニバース アプリケーションのパフォーマンスのボトルネックとなる将来のメタバースの必要性がなくなります。」
知覚インタラクション: 内部キャプチャはメタバースにおける最も自然なインタラクション方法です
Apple の Vision Pro 製品から判断すると、手と目の音声インタラクションと Eyesight の複数のインタラクション方法の融合が使用されています。 Vision Pro にはハンドルが装備されていないことに注意してください。これは以前の XR 製品とは大きく異なります。
Apple Vision Pro 製品デモンストレーション写真Vision Pro は、音声、視線追跡、およびジェスチャーによって操作されます。ユーザーは、アプリケーション アイコンを見て参照したり、手をタップして選択したり、スワイプしてスクロールしたり、音声コマンドを発行したりできます。また、仮想キーボードを使用してテキストを入力することもできます。
Apple Vision Pro 製品デモンストレーション写真
Vision Pro はまだ「将来の」製品であり、来年初めまで正式にリリースされないことを指摘しておく必要があります。したがって、デモビデオでどのような機能が実装され、どの程度効果があるかは、製品が正式に発売され、ユーザーが実際に体験して実感できるようになるまで待つ必要があります。
知覚インタラクションに関して、Apple は多くの技術的な詳細を明らかにしていません。次に、業界の観点から知覚インタラクションの中核となる技術的側面を分析します。一般的に、XR デバイスの知覚インタラクション方法は、視覚インタラクション、聴覚インタラクション、触覚インタラクション、およびジェスチャ インタラクションに分類できます。
ビジュアル インタラクションは主に仮想現実 (VR) と拡張現実 (AR) テクノロジーに依存します。ユーザーが一人称視点でメタバース内を移動したり観察したりできるようにする、成熟した VR デバイスや AR デバイスがすでに存在しています。ただし、これらのデバイスはヘルメットの着用を必要とすることが多く、ユーザーの快適性や長期使用に課題が生じます。さらに、ユーザーが現実世界と同じように自然でリアルに感じられるように、十分な視覚解像度と視野を提供する方法も重要な技術的課題です。
聴覚インタラクションは、空間オーディオやオブジェクト オーディオなどの 3D オーディオ テクノロジーに依存します。これらの技術により、奥行きと方向性のある音場が形成され、音の発生源と距離を正確に判断できるようになります。しかし、現在の 3D オーディオ テクノロジーでは、特に複雑な音響環境や音響の物理的効果をシミュレートする場合に、完全に自然なリスニング体験を提供することはまだ困難です。
触覚インタラクションは最大の課題の 1 つです。振動ハンドルやハプティックスーツなど、さまざまな触覚フィードバックデバイスがありますが、これらのデバイスのフィードバック強度や精度は現実世界の触感体験を満たしていません。電気刺激や超音波触覚フィードバックなどのより高度な技術は開発中ですが、まだ成熟していません。
上記の方法と比較して、ジェスチャ インタラクションは、直感的で自然なインタラクション方法として、メタバースにおける理想的なインタラクション手段とみなされます。
ジェスチャ インタラクションには、キャプチャと分析という 2 つのコア リンクがあります。キャプチャとは、さまざまなテクノロジを通じてユーザーの手の動きの情報を収集することを指し、分析はこの情報を処理して特定のジェスチャと動きを識別します。
キャプチャ技術は主に外部キャプチャと内部キャプチャに分かれます。 Microsoft の Kinect や Leap Motion の場合と同様、外部キャプチャでは、手の位置と動きを記録するためにカメラやセンサーに依存することがよくあります。内部キャプチャでは、ウェアラブル デバイスを使用します。ウェアラブル デバイスには通常、加速度計、ジャイロスコープ、磁力計などの一連のセンサーが装備されており、手の変位、回転、加速度を 3 空間次元でキャプチャできます。
内部キャプチャは最も理想的な対話方法であると言えます。インターナルキャプチャ センサーが手に直接触れるため、どのような環境や光条件であっても安定して正確な手の動き情報を取得できます。さらに、内蔵キャプチャ デバイスは通常小型で簡単に装着できるため、ユーザーはいつでもどこでもジェスチャを操作できます。内部キャプチャにおける最大の技術的問題は、センサーの精度と複雑なジェスチャ認識機能です。手の動きは非常に複雑で、それを正確に捉えてリアルタイムに仮想的な動きに変換するためには、センサーの精度と処理速度に高い要求が求められます。現在、内部キャプチャは基本的な手の動きをうまくキャプチャしていますが、指の小さな動きなど、より複雑なジェスチャを正確に識別するのは難しい場合があります。 複雑なジェスチャを高精度に認識するという問題が解決できれば、内部キャプチャはメタバースにおける最も理想的なインタラクション方法となるでしょう。
分析テクノロジーに関しては、主にコンピューター ビジョンと機械学習アルゴリズムに依存しています。コンピューター ビジョンを使用して、キャプチャ デバイスから取得した画像やビデオを処理し、手の重要なポイントや輪郭を抽出します。機械学習アルゴリズム、特に深層学習アルゴリズムは、これらのデータを分析し、特定のジェスチャーを識別するために使用されます。解析テクノロジーの観点から見ると、現在のアルゴリズムは主に深層学習に依存しており、トレーニングには大量の注釈付きデータが必要です。ただし、手の複雑さと多様性により、このデータを取得してラベルを付けることは非常に困難です。
キャプチャと解析に加えて、解決する必要がある別の問題があります。それは、仮想オブジェクトとのインタラクション、ユーザーが仮想環境内でジェスチャーを通じてオブジェクトをつかみ、移動、操作できるようにする方法、およびユーザーに触覚を提供する方法です。フィードバックなどはすべて解決が必要な問題です。例えば、仮想ハンドモデルを用いてユーザのジェスチャを仮想手の動きに変換し、その仮想ハンドに仮想オブジェクトを操作させる方法が考えられる。同時に、ユーザーに触覚フィードバックを提供するには、電気刺激や超音波など、より効果的な触覚フィードバック技術を研究する必要があります。
知覚インタラクションの観点からは、解決する必要のある一連の技術的問題がまだあることがわかります。
Apple はコンテンツ エコシステムを構築する達人です。今回の Vision Pro カンファレンスで、Apple はコンテンツ構築における進歩も発表しました。たとえば、Complete HeartX はインタラクティブな 3D 心臓を作成し、JigSpace を使用すると、デザイナーは F1 レーシングのデザイン草案を視覚的に確認できます。
Vision Pro 製品紹介写真
Apple が実証したコンテンツ制作能力の一部は、私たちの理想的なコンテンツ メタバースからはまだ程遠いことを指摘しておく必要があります。私たちが望んでいるのは、単なる美しい 3D の「展示品」ではなく、「レディ・プレイヤー 1」や「暴走プレイヤー」のようなメタバースです。この目標を達成するには、メタバース コンテンツ制作の深いロジックを調査する必要があります。
メタバースでは、環境、人々の仮想表現、およびノンプレイヤー キャラクター (NPC) がこの仮想世界の中核コンテンツを構成します。これら 3 つが一緒になって、メタバースの世界観とストーリーラインを構築します。環境は、仮想世界に物理的および文化的コンテキストを提供し、仮想世界のルールと操作を定義します。これは仮想世界の基盤であり、メタバースの空間次元を構成します。個人の仮想代表者、つまりプレイヤー キャラクターは、仮想世界におけるユーザーのアイデンティティおよびアクターです。ユーザーの願望や行動を反映し、ユーザーが仮想世界に参加し体験するためのツールです。
理想的には、NPC は仮想世界に多様なキャラクターとストーリーラインを提供し、仮想世界のコンテンツと体験を豊かにすることができます。これらは仮想世界のアクティビティの原動力であり、ユーザーが仮想世界に参加し、仮想世界をよりよく理解できるように支援します。 NPC の可塑性と創造性はメタバースのストーリーに無限の可能性をもたらし、ユーザーは NPC と対話することでメタバースのさまざまな物語や冒険を体験することができます。メタバース内の人間の仮想代表は、NPC との対話を通じて特別な「特権」または能力を取得できます。この「特権」は、ユーザーが仮想世界で目標を達成し、仮想世界でのアイデンティティとステータスを強化するのに役立ちます。したがって、NPC はメタバースのストーリードライバーであるだけでなく、ユーザーが仮想世界で成功と満足を達成するための重要な要素でもあります。
ただし、上記の目標を達成するには、NPC は高いレベルの知性を必要としますが、これは現在のメタバースの NPC の到達範囲をはるかに超えています。現在の NPC は主にプリセットされた対話と動作に依存しているため、プレイヤーのアクションに応答する際に硬直的で、リアリズムやパーソナライズに欠けているように見える可能性があります。同時に、NPC にはストーリーを進めたり、継続的な対話を行ったりする際にも制限があります。
これに関連して、AI テクノロジー、特に AIGC と ChatGPT を使用してメタバース コンテンツ制作を最適化し、インテリジェントな NPC を構築する可能性と利点が特に際立っています。
Cocos CEO の Lin Shu 氏は、AIGC と Metaverse を組み合わせることで、コンテンツ生成の効率と創造性を大幅に向上できると考えています。 AIGC は、重くて反復的なコンテンツ作成作業を引き受けることができるため、開発者の時間とエネルギーを節約しながら、より多様でリッチなゲーム コンテンツを実現できます。 AIGC のテクノロジーを使用すると、ワールドとシーンが自動的に生成され、メタバースのコンテンツ作成プロセスが高速化され、メタバースの世界がよりカラフルになり、さまざまな形式のニーズに対応できます。たとえば、メタバース内のコンテンツをより鮮やかで興味深いものにするためのタスクとプロットの自動生成、NPC やキャラクター デザインの自動生成など、AIGC は開発者がさまざまなパーソナライズされた NPC やキャラクターのイメージを生成し、メタバース内のキャラクターをより多様で興味深いものにするのに役立ちます。ユニーク; 効果音と音楽、リアルな効果音とダイナミックな音楽を自動的に生成し、メタバース シーンをより臨場感あふれる臨場感のあるものにします。
リン シュン氏はまた、AI はメタバース内の NPC により現実的でインテリジェントなインタラクションを提供できると信じています。「魂」を持つ NPC はメタバース内でダイナミックな世界を形成でき、NPC はプレイヤーの行動と決定に基づいて意思決定を行うことができます。それに応じてゲームの世界をよりリアルで鮮やかにし、世界の発展を進めます。自然言語処理と感情認識技術を通じてプレイヤーの指示や感情を理解し、それに応じて応答することで、よりパーソナライズされた豊かなゲーム体験を提供します。 AI は NPC により現実的な「魂」または個性を与えます。感情モデリングと認知モデルを通じて、AI は NPC に複雑な感情状態、性格特性、行動パターンを示すことができ、プレイヤーと NPC の間の感情的なつながりと相互作用を強化します。
Mo Universe の最高製品責任者である Lin Yu 氏も同様の見解を示し、「AIGC は、「人、物、シーン」の 3 つの核となる要素におけるメタバースの生産効率を大幅に向上させると考えています。たとえば、デジタルヒューマンにおける画像モデリング設計の面では、設計効率が向上します;デジタルヒューマンの脳知能の構築において、デジタルヒューマンの知能レベルは大幅に向上します;2Dおよび3D写真とビデオコンテンツのAIGCは、モデリングとビデオコンテンツの効率を向上させることができますオブジェクトやシーンのデザイン.AIGC は NPC に頭脳、つまり「魂」を与え、NPC とユーザーの間のインテリジェントな質疑応答、テキストの質疑応答だけでなく音声の質問など、NPC の知能レベルを大幅に向上させることができます。応答、写真やビデオなどのマルチモーダル モードを備えたインテリジェントなコミュニケーション。
最後に、DataMesh の創設者兼 CEO の Li Jie 氏は、エンタープライズ メタバースの分野では、まだ解決すべき「鶏が先か、卵が先かの問題」が存在すると述べました。高品質のコンテンツはユーザーを惹きつけることができますが、十分なコンテンツがなければ、ユーザーにとって、この高品質のコンテンツを作成し維持することは不可能です。これは古典的なネットワーク効果の問題です。Li Jie は、エンタープライズ メタバースの TEMS (トレーニング、エクスペリエンス、モニタリング、シミュレーション) モデルの下で、この問題を解決する 1 つの可能な方法は、シミュレーション (Simulation) とトレーニング (Training) の 2 つの側面を通じて行うことであると考えています。メタバースのコンテンツ生成。初期の段階では、企業は特定のシミュレーション シナリオを構築することで社内の従業員をトレーニングおよび教育できます。これにより、従業員のスキルが向上するだけでなく、メタバースの初期のアクティブ ユーザーやコンテンツも提供できます。
時間の経過とともに、従業員がこの新しい働き方に徐々に適応し依存するにつれて、エンタープライズ メタバースのユーザー ベースが拡大し、これらのユーザーはメタバース内に大量のインタラクティブ データも生成するようになります。これらのデータは、メタバースのエクスペリエンスと監視および制御機能をさらに最適化するために収集および分析され、好循環を形成します。
Li Jie 氏は、メタバースのキラー アプリケーションについて話すとき、キラー アプリケーションは TEMS の 4 つの側面を完全に統合したソリューションである可能性があると考えています。たとえば、複雑なビジネス プロセスをリアルタイムでシミュレートし、豊富でカスタマイズされたトレーニング コンテンツを提供し、効率的な監視および制御機能を備え、シームレスで没入型のユーザー エクスペリエンスを提供できるアプリケーションは、Metaverse アプリケーションのキラーとなる可能性があります。このようなアプリケーションは、企業の生産効率と従業員の仕事の満足度を大幅に向上させるだけでなく、企業の継続的な革新と発展を促進することもできます。
上記では、XR とメタバースの中核となる技術領域と課題を分析しました。最後に、Apple のような企業が引き続き技術的なボトルネックを突破し、できるだけ早く価格を下げて (20,000 以上の価格は確かに人々の手に届く金額ではありません)、「レディ プレイヤー 1」のようなカラフルなメタバースが実現することを願っています。できるだけ早く到着することができます。
しかし、正直に言うと、私は今回Appleが発売したXRヘッドセットについては楽観視していません。 Apple は偉大な企業であり、家庭用電化製品の分野における製品能力も世界でも類を見ないものです。しかし、XR機器業界やメタバース業界には依然として大きな技術的ボトルネックが存在しており、これを突破するには業界全体の努力と時間が必要であり、一社だけで突破することは不可能です。 Apple が iPhone を発売したとき、人類をモバイル インターネット時代に導いたのは Apple だけのせいではありません。実際、当時、人類はすでにモバイルインターネットの時代に片足を突っ込んでいましたが、Appleの製品は最高であり、最も大きな果実を収穫しました。想像してみてください。ネットワークが依然として 2G または 1G にとどまっている場合、iPhone はまだ役に立ちますか? Appleは偉大ですが、どんなに偉大な企業であっても時代を超えることは不可能です。
合理的な観点から見ると、上記のニアアイ ディスプレイ、計算によるレンダリング、知覚的インタラクション、およびコンテンツ制作のそれぞれには、依然としてかなりの課題があります。 Apple ほど強力であっても、既存の業界条件の下で最高の製品を生み出しただけであり、メタバースの理想にはまだ程遠いです。多くのユーザーが Vision Pro を実際に体験すると、これまでの XR 製品と比較して優れたデザインや画期的な点があると感じる可能性が高いと予想されますが、全体としてはまだ期待から程遠く、多くの「溝」があります。たとえば、レポートによると、Vision Pro に付属の有線バッテリーは 2 時間しか持続できません。
テキスト: Yi Li Yanyu
/ データ モンキー
以上が「Hey Siri」からメタバースまで、Apple はどこまで進まなければならないのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。