人工知能は仮想世界のバックボーンとなるでしょう。
人工知能は、コンピューター ビジョン、自然言語処理、ブロックチェーン、デジタル ツインなど、メタバース内のさまざまな関連テクノロジと組み合わせることができます。
#2 月、ザッカーバーグ氏は、同社初の仮想イベント「Inside The Lab」でメタバースがどのようなものになるかを披露しました。同氏によると、同社はユーザーが説明するだけで独自の仮想現実アバターを生成できる、新しい一連の生成AIモデルを開発しているという。
ザッカーバーグ氏は、ユーザーが音声アシスタントとより自然にコミュニケーションできるようにするオンデバイス音声アシスタントを構築するための完全なエンドツーエンドのニューラル モデルである Project CAIRaoke など、今後の一連のプロジェクトを発表しました。一方、Meta は、すべての言語に音声から音声への直接翻訳を提供するユニバーサル音声翻訳機の構築に熱心に取り組んでいます。
数か月後、メタは約束を果たしました。ただし、ゲーム内でスキンを持っているテクノロジー企業はメタ社だけではありません。 NVIDIA などの企業も、より豊かなメタバース エクスペリエンスを提供するために、独自に開発した AI モデルをリリースしています。
オープンソースの事前トレーニング済み Transformer (OPT-1,750 億パラメータ)
GANverse 3D は NVIDIA AI によって開発されました研究とは、深層学習を使用して 2D 画像を 3D アニメーション バージョンに処理するモデルであり、昨年 ICLR と CVPR で発表された研究論文で説明されているツールであり、シミュレーションをより高速かつ低コストで作成できます。
このモデルは、StyleGAN を使用して、単一の画像から複数のビューを自動的に生成します。このアプリケーションを NVIDIA Omniverse の拡張機能としてインポートすると、仮想世界で 3D オブジェクトを正確にレンダリングできます。 NVIDIA が立ち上げた Omniverse は、ユーザーが仮想環境で最終的なアイデアのシミュレーションを作成するのに役立ちます。
3D モデルの作成は、メタバースを構築する際の重要な要素となっています。 Nike や Forever21 などの小売業者は、電子商取引の売上を促進するためにメタバースに仮想店舗を開設しました。
Meta の Reality Lab チームはテキサス大学と協力して、サウンドを改善するための人工知能モデルを構築しました。メタスペースの品質。このモデルは、シーン内のオーディオとビデオを一致させるのに役立ちます。オーディオ クリップを変換して、特定の環境で録音されたかのように聞こえます。このモデルは、ランダムなオンラインビデオからデータを抽出した後、自己教師あり学習を使用します。理想的には、ユーザーは AR グラスでお気に入りの思い出を表示し、実際の体験によって生成された正確な音を聞くことができる必要があります。
Meta AI は、他の 2 つの音響モデルとともに AViTAR をオープン ソースとしてリリースしました。サウンドがメタバース エクスペリエンスで見落とされがちな部分であることを考えると、これは非常にまれなことです。
Meta AI によってリリースされた 2 番目の音響モデルは、音響の残響を除去するために使用されます。
モデルは、住宅の 3D モデルからのさまざまなリアルなオーディオ レンダリングを使用して、大規模なデータセットでトレーニングされます。リバーブは音声の品質を低下させて理解しにくくするだけでなく、自動音声認識の精度も向上させます。
VIDA は、視覚的な手がかりだけでなく、観察に音声も使用するという点でユニークです。 VIDA は、一般的な音声のみのアプローチを改良し、音声を強化し、声と話者を識別できます。
Meta AI によってリリースされた 3 番目の音響モデルである VisualVoice は、ビデオから音声を抽出できます。 VIDA と同様に、VisualVoice は、ラベルのないビデオからのオーディオビジュアルキューに基づいてトレーニングされます。音声を自動的に分離したモデルです。
このモデルには、聴覚障害者向けのテクノロジーの開発、ウェアラブル AR デバイスのサウンド強化、騒がしい環境でのオンライン ビデオからの音声の文字起こしなど、重要なアプリケーション シナリオがあります。
昨年、Nvidia は、あらゆるナレーションにマッチする AI 駆動のフェイシャル アニメーションを生成する Omniverse Audio2Face のオープン ベータ版をリリースしました。このツールは、ゲームや視覚効果をアニメーション化する長くて退屈なプロセスを簡素化します。このアプリでは、ユーザーが複数の言語でコマンドを発行することもできます。
今年の初めに、Nvidia はツールのアップデートをリリースし、ユーザーがニュートラル アバターから一連のブレンドシェイプを作成できるようにするブレンドシェイプ生成などの機能を追加しました。さらに、ストリーミング オーディオ プレーヤーの機能が追加され、テキスト読み上げアプリケーションを使用してオーディオ データをストリーミングできるようになりました。 Audio2Face は、オーディオ トラックでアニメーション化できる 3D キャラクター モデルをセットアップします。次に、音声はディープ ニューラル ネットワークに供給されます。ユーザーは後処理でキャラクターを編集してパフォーマンスを変更することもできます。
以上がXiaozhaはたくさんのお金を使いました! Meta はメタバース専用の AI モデルを開発しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。