現在、新しいテキスト生成画像モデルが時々リリースされており、それぞれが非常に強力な効果を持っており、常に人々を驚かせています。この分野はすでに天空に達しています。しかし、OpenAI の DALL-E 2 や Google の Imagen などの AI システムは 2 次元の画像しか生成できませんが、テキストも 3 次元のシーンに変換できれば、視覚体験は 2 倍になります。さて、Apple の AI チームは、3D シーン生成のための最新のニューラル アーキテクチャである GAUDI を発表しました。
複雑でリアルな 3D シーンの配信、移動カメラからの没入型レンダリング、およびテキスト プロンプトに基づくレンダリングをキャプチャできます。シーン!このモデルはスペインの有名な建築家アントニ・ガウディにちなんで名付けられました。
論文アドレス: https://arxiv.org/pdf/2207.13751.pdf
#1現在、NeRF は主に、さまざまなカメラの視点からレンダリングできる 3D モデルおよび 3D シーンの神経記憶媒体として使用されています。 NeRF は、仮想現実体験にもすでに使用され始めています。
では、さまざまなカメラ角度からの画像をリアルにレンダリングする強力な機能を備えた NeRF は、生成 AI で使用できるのでしょうか?もちろん、3D シーンの生成を試みた研究チームもあります。たとえば、Google は昨年、NeRF の 3D ビュー生成機能と OpenAI の CLIP の評価機能を組み合わせた AI システム Dream Fields を発表しました。画像コンテンツを作成し、最終的に NeRF に一致するテキストの説明を生成する機能を実現します。
##キャプション: Google Dream Fields
ただし、Google の Dream Fields でできるのは単一オブジェクトの 3D ビューを生成しますが、それを完全に制約のない 3D シーンに拡張するには多くの困難があります。最大の難点は、カメラの位置に大きな制限があることです。単一のオブジェクトの場合、考えられるすべての適切なカメラ位置をドームにマッピングできますが、3D シーンでは、カメラの位置はオブジェクトの影響を受けます。および壁など。障害物の制限。シーン生成時にこれらの要素を考慮しないと、3D シーンを生成することが困難になります。
2
3D レンダリングの専門家 GAUDIカメラ ポーズを 3D ジオメトリやシーンの外観から分離し、カメラの可能な位置を予測し、出力が有効であることを確認できます。 3D シーン アーキテクチャの位置。
#注: デコーダー モデル アーキテクチャ
シナリオ用のシーン デコーダー次のことができます。 3D キャンバスである 3 次元平面の表現を予測します。 次に、放射線場デコーダ
は、このキャンバス上のボリューム レンダリング方程式を使用して、後続の画像を描画します。GAUDI の 3D 生成は 2 つの段階で構成されます:
1 つは、潜在パラメーターとネットワーク パラメーターの最適化です。つまり、3D 放射線フィールドと、数千の軌道の対応するカメラ ポーズをエンコードする潜在表現を学習します。単一のオブジェクトとは異なり、有効なカメラ ポーズはシーンによって異なるため、シーンごとに有効なカメラ ポーズをエンコードする必要があります。
2 つ目は、拡散モデルを使用して潜在表現に関する生成モデルを学習し、条件付き推論タスクと無条件推論タスクの両方で適切にモデル化できるようにすることです。前者はテキストまたは画像のプロンプトに基づいて 3D シーンを生成し、後者はカメラの軌跡に基づいて 3D シーンを生成します。
3D 屋内シーンでは、GAUDI は新しいカメラの動きを生成できます。以下のいくつかの例のように、テキストの説明にはシーンとナビゲーション パスに関する情報が含まれています。ここで研究チームは、事前にトレーニングされた RoBERTa ベースのテキスト エンコーダーを採用し、その中間表現を使用して拡散モデルを調整しました。生成される効果は次のとおりです: テキスト プロンプト: Enter the Kitchen
テキスト プロンプト: 2 階に進みます
テキスト プロンプト: 廊下を通ってください
さらに、事前トレーニング済み ResNet-18 を画像エンコーダーとして使用することで、GAUDI はランダムな視点から観察された特定の画像の放射線場をサンプリングできます。 、それによって画像からキューを抽出し、3D シーンを作成します。画像プロンプト:
3D シーンの生成:
画像ヒント:
3D シーンの生成:
研究者の実験屋内スキャン データセット ARKitScences を含む 4 つの異なるデータセットでの実験は、GAUDI が学習されたビューを再構築し、既存の手法の品質と同等の品質を実現できることを示しています。数千の屋内シーンに数十万の画像を含む 3D シーンを作成するという大規模なタスクでも、GAUDI はモードの崩壊や向きの問題に悩まされることはありませんでした。
GAUDI の登場は、多くのコンピューター ビジョン タスクに影響を与えるだけでなく、その 3D シーン生成機能は、モデルベースの強化学習と計画、SLAM、および 3D にも有益です。コンテンツ、生産およびその他の研究分野。
現時点では、GAUDI によって生成されたビデオの品質は高くなく、多くのアーティファクトが見られます。ただし、このシステムは、Apple が 3D オブジェクトやシーンをレンダリングするための現在進行中の AI システムの良いスタートと基盤となる可能性があり、GAUDI はデジタル位置を生成するために Apple の XR ヘッドセットにも適用されると言われています。楽しみにしていてください~
以上がAppleが「AIアーキテクト」GAUDIを開発:テキストに基づいて超リアルな3Dシーンを生成!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。